程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2024-11(1)

【爬虫练手】爬中国天气网

发布于2020-03-17 16:02     阅读(1367)     评论(0)     点赞(21)     收藏(3)


import requests
from bs4 import BeautifulSoup

def parser_page(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'
    }
    response = requests.get(url,headers=headers)
    text = response.content.decode('utf-8')
    soup = BeautifulSoup(text,'html5lib')        #一般lxml就可以解析了,html5lib爬起来会比较慢
    conMidtab = soup.find('div',class_='conMidtab')
    tables = conMidtab.find_all('table')
    for table in tables:
        trs = table.find_all('tr')[2:]
        for tr in trs:
            tds = tr.find_all('td')
            city_td = tds[0]
            city = list(city_td.stripped_strings)[0]
            temperature = list(tds[-2].stripped_strings)[0]
            print({'city':city,'temperature':temperature})

def main():
    urls = [
        'http://www.weather.com.cn/textFC/hb.shtml#',
        'http://www.weather.com.cn/textFC/db.shtml#',
        'http://www.weather.com.cn/textFC/hb.shtml#',
        'http://www.weather.com.cn/textFC/hz.shtml#',
        'http://www.weather.com.cn/textFC/hn.shtml#',
        'http://www.weather.com.cn/textFC/xb.shtml#',
        'http://www.weather.com.cn/textFC/hb.shtml#',
        'http://www.weather.com.cn/textFC/xn.shtml#',
        'http://www.weather.com.cn/textFC/gat.shtml#',
    ]
    for url in urls:
        parser_page(url)


main()

原文链接:https://blog.csdn.net/wyh33200/article/details/104885900



所属网站分类: 技术文章 > 博客

作者:一切都会好起来over

链接:https://www.pythonheidong.com/blog/article/263258/221d28ee9e7fcbe55673/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

21 0
收藏该文
已收藏

评论内容:(最多支持255个字符)