发布于2020-02-10 15:35 阅读(1308) 评论(0) 点赞(21) 收藏(4)
类的定义
常用方法
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 | try : from HTMLParser import HTMLParser except : from html.parser import HTMLParser class MyHTMLParser(HTMLParser): def __init__( self ): HTMLParser.__init__( self ) self .data = [] # 定义data数组用来存储html中的数据 self .links = [] def handle_starttag( self , tag, attrs): print ( '<%s>' % tag) if tag = = "a" : if len (attrs) = = 0 : pass else : for (variable, value) in attrs: if variable = = "href" : self .links.append(value) def handle_endtag( self , tag): print ( '</%s>' % tag) def handle_startendtag( self , tag, attrs): print ( '<%s/>' % tag) def handle_data( self , data): print ( 'data===>' , data) def handle_comment( self , data): print ( '<!--' , data, '-->' ) def handle_entityref( self , name): print ( '&%s;' % name) def handle_charref( self , name): print ( '&#%s;' % name) if __name__ = = "__main__" : html_code = '''<html> <head>这是头标签</head> <body> <!-- test html parser --> <p>Some <a href=\"#\">html</a> HTML Ӓ Ӓtutorial...<br>END</p> </body></html>''' parser = MyHTMLParser() parser.feed(html_code) parser.close() print (parser.data) print (parser.links) |
在 HTML 中 <、>、& 等字符有特殊含义(<,> 用于标签中,& 用于转义),他们不能在 HTML 代码中直接使用,如果要在网页中显示这些符号,就需要使用 HTML 的转义字符串(Escape Sequence),例如 < 的转义字符是 <,浏览器渲染 HTML 页面时,会自动把转移字符串换成真实字符。
转义字符(Escape Sequence)由三部分组成:第一部分是一个 & 符号,第二部分是实体(Entity)名字,第三部分是一个分号。 比如,要显示小于号(<),就可以写 <。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 | html = '<abc>' # 反转义:方式1 try : from HTMLParser import HTMLParser except : from html.parser import HTMLParser html_parser = HTMLParser() text = html_parser.unescape(html) print (text) # 反转义:方式2 import html text = html.unescape( 'a=1&b=2' ) print (text) # 转义 import cgi html = cgi.escape(text) print (html) |
https://www.liaoxuefeng.com/wiki/897692888725344/966401234683424
https://www.liaoxuefeng.com/wiki/1016959663602400/1017784593019776
https://baijiahao.baidu.com/s?id=1637614366297669334&wfr=spider&for=pc
作者:皇后娘娘别惹我
链接:https://www.pythonheidong.com/blog/article/230746/91228fb7890baa8f0b4b/
来源:python黑洞网
任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任
昵称:
评论内容:(最多支持255个字符)
---无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事,而不是让内心的烦躁、焦虑,坏掉你本来就不多的热情和定力
Copyright © 2018-2021 python黑洞网 All Rights Reserved 版权所有,并保留所有权利。 京ICP备18063182号-1
投诉与举报,广告合作请联系vgs_info@163.com或QQ3083709327
免责声明:网站文章均由用户上传,仅供读者学习交流使用,禁止用做商业用途。若文章涉及色情,反动,侵权等违法信息,请向我们举报,一经核实我们会立即删除!
列表(0)
装饰器(0)
python(1)
python学习教程(0)
类(0)
pandas(0)
文件操作(0)
python小游戏源码下载(17)
web表白小程序(8)
多线程(0)
爬虫(0)
python表白小程序(2)
装饰器(0)
python(1)
面试题(2)
python学习教程(0)
类(0)
pandas(0)
文件操作(0)
python小游戏源码下载(17)
web表白小程序(8)
多线程(0)
爬虫(0)
python表白小程序(2)