发布于2019-08-08 09:58 阅读(908) 评论(0) 点赞(1) 收藏(2)
pip3 install beautifulsoup4
improt bs4
解析器 | 使用方法 | 优势 | 劣势 |
---|---|---|---|
bs4的HTML解析器 | BeautifulSoup(mk,'html.parser') | Python 的内置标准库 执行速度适中 文档容错能力强 |
Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差 |
lxml的HTML解析器 | BeautifulSoup(mk,'lxml') | 速度快 文档容错能力强 |
需要安装C语言库 |
lxml的XML解析器 | BeautifulSoup(mk,'xml') | 速度快 唯一支持XML的解析器 |
需要安装C语言库 |
html5lib解析器 | BeautifulSoup(mk,'html5lib') | 最好的容错性 以浏览器的方式解析文档 生成HTML5格式的文档 |
速度慢 |
条件 :
bs4的HTML解析器:安装bs4库
lxml的HTML解析器:pip3 install lxml
lxml的XML解析器:pip3 install lxml
html5lib解析器:pip3 install html5lib
基本元素 | 简单说明 | 详细说明 |
---|---|---|
tag | 标签 | 分别用<>与</>来表示开头和结尾 |
name | 标签的名字 | 用法:<tag>.name输出为字符串的形式 |
attributes | 标签里的属性 | 用法:<tag>.attrs输出为字典的形式 |
navigablestring | 标签里的内容 | 用法:<tag>.string可以跨域多个标签层次 |
comment | 标签里面的注释 | 一种特殊的comment类型 |
同时存在多个标签只取第一个
注意:如果是html的父标签就是他自己,soup本身也是种特殊的标签的他的父标签是空
注意:必须在同一个父节点下才有平行关系,平行遍历获得的对象不一定是标签,也可能是文本,如果上下没来就为空
解析后的页面
prettify():会把解析的网页加上\n的文本文档,能使它打印变得更加好看
作者:我好看吗
链接:https://www.pythonheidong.com/blog/article/12846/a71c35111f34f3bdb952/
来源:python黑洞网
任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任
昵称:
评论内容:(最多支持255个字符)
---无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事,而不是让内心的烦躁、焦虑,坏掉你本来就不多的热情和定力
Copyright © 2018-2021 python黑洞网 All Rights Reserved 版权所有,并保留所有权利。 京ICP备18063182号-1
投诉与举报,广告合作请联系vgs_info@163.com或QQ3083709327
免责声明:网站文章均由用户上传,仅供读者学习交流使用,禁止用做商业用途。若文章涉及色情,反动,侵权等违法信息,请向我们举报,一经核实我们会立即删除!