本站消息

  本站每日ip已达10000,出租广告位,位置价格可谈,需要合作请联系站长


+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2019-03(1)

2019-04(1)

2019-05(2)

2019-06(2)

2019-07(5)

Python爬虫学习之--------书海小说网

发布于2020-03-29 11:52     阅读(101)     评论(0)     点赞(7)     收藏(1)


书海小说网是一个收费网站,咱们这里只是以免费的章节为例,简单的爬取分析一下

书海小说网站网址:   http://www.shuhai.com

 

爬虫三步操作;

             1.获取整个网页的HTML信息

             2.解析HTML信息,提取我们需要的内容

              3.根据需要需求输出控制台或者写入文档

 

 

实战操作:

我们以隐形守护者的第一章为例   http://www.shuhai.com/read/55929/1.html

 

 

我们首先获取一些页面HTML信息,编写代码如下:

  1. import requests
  2. if __name__ == '__main__':
  3. src = 'http://www.shuhai.com/read/55929/1.html'
  4. req = requests.get(url=src)
  5. html = req.text
  6. print(html)

程序运行结果如下所示:

通过运行结果我们可以看出,已经返回了页面代码信息,而主要的小说内容都是在p标签里,其余的信息我们是不需要的,所以我们需要想办法把我们需要的信息提取出来,

这里我们使用BeautifulSoup提取我们需要的信息,提取的方法有很多种,但是对于初学者说BeautifulSoup容易理解,容易使用,所以这里我们使用BeautifulSoup

安装BeautifulSoup    pip install BeautifulSoup(我的电脑安装各种库时需要使用的是pip install --user BeautifulSoup)

BeautifulSoup也有自己的中文文档      http://beautifulsoup.readthedocs.io/zh_CN/latest/

针对网页源代码我们可以发现对于我们需要的内容<div>标签里是没有可操作的属性,所以我们直接对<p>操作,代码如下:

  1. import requests
  2. from bs4 import BeautifulSoup
  3. if __name__ == '__main__':
  4. src = 'http://www.shuhai.com/read/55929/1.html'
  5. req = requests.get(url=src)
  6. html = req.text
  7. bf = BeautifulSoup(html)
  8. for tetxs in bf.find_all('p'):
  9. print(tetxs.text)

运行结果如下图:

到这里,我们已经简单的把第一章的内容爬取出来了, 后续根据需求我们可以直接写入文本等操作

欢迎访问我的公众号:小衲分享

 

原文链接:https://blog.csdn.net/weixin_42492933/article/details/105163712



所属网站分类: 技术文章 > 博客

作者:精灵

链接: https://www.pythonheidong.com/blog/article/290088/

来源: python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

7 0
收藏该文
已收藏

评论内容:(最多支持255个字符)