程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

beautifulsoup爬虫快速入门一基础知识

发布于2019-08-22 17:49     阅读(461)     评论(0)     点赞(16)     收藏(4)


主要涉及到的知识点
这里针对的是数据以HTML返回的形式
beautifulsoup、lxml的使用
首先这里需要请求到一个网页地址,之后用beautifulsoup解析网页

requestsAPI = request.get(url)
bs = BeautifulSoup(requestsAPI.content,'lxml')
  • 1
  • 2

获取的是多个元素find_all

many = bs.find_all('div',class_ = 'pcb')
  • 1

获取一个元素find

one = bs[0].find('td')
  • 1

找到p id = 'number’下面的所有td

findTd = bs.find('p',id = 'number').find_all('td')
  • 1

找到一个标签下的属性

find = bs[0].find('img')['file']
  • 1

查看标签内包含的内容

bs[0].find_all('strong')[3].text
  • 1

Beautiful Soup 4.2.0 文档
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/



所属网站分类: 技术文章 > 博客

作者:j878

链接:https://www.pythonheidong.com/blog/article/53308/8c0bdbc9e80c5c7d716b/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

16 0
收藏该文
已收藏

评论内容:(最多支持255个字符)