程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2024-11(1)

爬虫实战——利用正则表达式爬取古诗文网

发布于2020-04-11 15:33     阅读(1789)     评论(0)     点赞(11)     收藏(5)


  1. import re
  2. import requests
  3. def parse_url(url):
  4. headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36"}
  5. response=requests.get(url,headers=headers)
  6. text=response.text
  7. end=[]
  8. #titles=re.findall(r'<div\sclass="ycd">.*?<h2>.*?<a.*?>(.*?)</a>',text,re.DOTALL)
  9. titles=re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>',text,re.DOTALL)
  10. dynesties=re.findall(r'<p\sclass="source">.*?<a.*?>(.*?)</a>',text,re.DOTALL)
  11. authors=re.findall(r'<p\sclass="source">.*?<a.*?><a.*?>(.*?)</a>',text,re.DOTALL)
  12. poems=re.findall(r'<div class="contson" .*?>(.*?)</div>',text,re.DOTALL)
  13. content=[]
  14. for poem in poems:
  15. x=re.sub(r'<.*?>'," ",poem)
  16. content.append(x.strip())
  17. ends=[]
  18. for value in zip(titles,dynesties,authors,content):
  19. titles, dynesties, authors, content=value
  20. poe={
  21. "title":titles,
  22. "dynasty":dynesties,
  23. "author":authors,
  24. "content":content
  25. }
  26. ends.append(poe)
  27. for end in ends:
  28. print(end)
  29. #print(authors)
  30. def main():
  31. for i in range(10):
  32. url="https://www.gushiwen.org/default_%s.aspx" %i
  33. #url = "https://gushiwen.com/type/n/xianqin/n/1.html"
  34. parse_url(url)
  35. main()

 

原文链接:https://blog.csdn.net/devilangel2/article/details/105441537



所属网站分类: 技术文章 > 博客

作者:飞龙出海

链接:https://www.pythonheidong.com/blog/article/324872/a664bb730d3943649508/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

11 0
收藏该文
已收藏

评论内容:(最多支持255个字符)