程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2023-06(1)

Python爬取猫眼电影排行

发布于2019-08-08 09:38     阅读(649)     评论(0)     点赞(1)     收藏(2)


import requests
import pyquery


def crawl_page(url: str) -> None:
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) \
Chrome/72.0.3626.121 Safari/537.36',
    }
    response = requests.get(url, headers=headers)
    parse_page(response.text)


def parse_page(source_code: str) -> None:
    html = pyquery.PyQuery(source_code)
    dd_elements = html('.board-wrapper dd')
    for dd_element in dd_elements.items():
        data = {
            '排名': dd_element.find('i.board-index').text(),
            '电影名': dd_element.find('a.image-link').attr('title'),
            '主演': dd_element.find('p.star').text().split(':')[1],
            '上映时间': dd_element.find('p.releasetime').text().split(':')[1],
            '评分': dd_element.find('p.score').text(),
        }
        print(data)
        save_data(data)


def save_data(data: dict) -> None:
    data = str(data)
    with open('MaoYan.txt', 'a+', encoding='utf8') as f:
        f.write(data+'\n')
    return None


def main():
    for i in range(0, 100, 10):
        url = 'https://maoyan.com/board/4?offset={}'.format(i)
        crawl_page(url)


if __name__ == '__main__':
    main()


所属网站分类: 技术文章 > 博客

作者:085iitirtu

链接:https://www.pythonheidong.com/blog/article/12720/0dc8b22f03125bd1188e/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

1 0
收藏该文
已收藏

评论内容:(最多支持255个字符)