发布于2019-08-08 10:48 阅读(965) 评论(0) 点赞(4) 收藏(1)
1.抓取淘宝MM的姓名,头像,年龄
2.抓取每一个MM的资料简介以及写真图片
3.把每一个MM的写真图片按照文件夹保存到本地
4.熟悉文件保存的过程
在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1,问号前面是基地址,后面的参数page是代表第几页,可以随意更换地址。点击开之后,会发现有一些淘宝MM的简介,并附有超链接链接到个人详情页面。
我们需要抓取本页面的头像地址,MM姓名,MM年龄,MM居住地,以及MM的个人详情页面地址。
相信大家经过上几次的实战,对抓取和提取页面的地址已经非常熟悉了,这里没有什么难度了,我们首先抓取本页面的MM详情页面地址,姓名,年龄等等的信息打印出来,直接贴代码如下
1 ''' 2 在学习过程中有什么不懂得可以加我的 3 python学习交流扣扣qun,934109170 4 群里有不错的学习教程、开发工具与电子书籍。 5 与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容。 6 ''' 7 __author__ = 'CQC' 8 # -*- coding:utf-8 -*- 9 10 import urllib 11 import urllib2 12 import re 13 14 class Spider: 15 16 def __init__(self): 17 self.siteURL = 'http://mm.taobao.com/json/request_top_list.htm' 18 19 def getPage(self,pageIndex): 20 url = self.siteURL + "?page=" + str(pageIndex) 21 print url 22 request = urllib2.Request(url) 23 response = urllib2.urlopen(request) 24 return response.read().decode('gbk') 25 26 def getContents(self,pageIndex): 27 page = self.getPage(pageIndex) 28 pattern = re.compile('<div class="list-item".*?pic-word.*?<a href="(.*?)".*?<img src="(.*?)".*?<a class="lady-name.*?>(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S) 29 items = re.findall(pattern,page) 30 for item in items: 31 print item[0],item[1],item[2],item[3],item[4] 32 33 spider = Spider() 34 spider.getContents(1)
运行结果如下
在这里,我们有写入图片和写入文本两种方式
1 2 #传入图片地址,文件名,保存单张图片 3 def saveImg(self,imageURL,fileName): 4 u = urllib.urlopen(imageURL) 5 data = u.read() 6 f = open(fileName, 'wb') 7 f.write(data) 8 f.close()
2)写入文本
1 def saveBrief(self,content,name): 2 fileName = name + "/" + name + ".txt" 3 f = open(fileName,"w+") 4 print u"正在偷偷保存她的个人信息为",fileName 5 f.write(content.encode('utf-8'))
3)创建新目录
1 2 #创建新目录 3 def mkdir(self,path): 4 path = path.strip() 5 # 判断路径是否存在 6 # 存在 True 7 # 不存在 False 8 isExists=os.path.exists(path) 9 # 判断结果 10 if not isExists: 11 # 如果不存在则创建目录 12 # 创建目录操作函数 13 os.makedirs(path) 14 return True 15 else: 16 # 如果目录存在则不创建,并提示目录已存在 17 return False
主要的知识点已经在前面都涉及到了,如果大家前面的章节都已经看了,完成这个爬虫不在话下,具体的详情在此不再赘述,直接帖代码啦。
1 2 __author__ = 'CQC' 3 # -*- coding:utf-8 -*- 4 5 import urllib 6 import urllib2 7 import re 8 import tool 9 import os 10 11 #抓取MM 12 class Spider: 13 14 #页面初始化 15 def __init__(self): 16 self.siteURL = 'http://mm.taobao.com/json/request_top_list.htm' 17 self.tool = tool.Tool() 18 19 #获取索引页面的内容 20 def getPage(self,pageIndex): 21 url = self.siteURL + "?page=" + str(pageIndex) 22 request = urllib2.Request(url) 23 response = urllib2.urlopen(request) 24 return response.read().decode('gbk') 25 26 #获取索引界面所有MM的信息,list格式 27 def getContents(self,pageIndex): 28 page = self.getPage(pageIndex) 29 pattern = re.compile('<div class="list-item".*?pic-word.*?<a href="(.*?)".*?<img src="(.*?)".*?<a class="lady-name.*?>(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S) 30 items = re.findall(pattern,page) 31 contents = [] 32 for item in items: 33 contents.append([item[0],item[1],item[2],item[3],item[4]]) 34 return contents 35 36 #获取MM个人详情页面 37 def getDetailPage(self,infoURL): 38 response = urllib2.urlopen(infoURL) 39 return response.read().decode('gbk') 40 41 #获取个人文字简介 42 def getBrief(self,page): 43 pattern = re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S) 44 result = re.search(pattern,page) 45 return self.tool.replace(result.group(1)) 46 47 #获取页面所有图片 48 def getAllImg(self,page): 49 pattern = re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S) 50 #个人信息页面所有代码 51 content = re.search(pattern,page) 52 #从代码中提取图片 53 patternImg = re.compile('<img.*?src="(.*?)"',re.S) 54 images = re.findall(patternImg,content.group(1)) 55 return images 56 57 58 #保存多张写真图片 59 def saveImgs(self,images,name): 60 number = 1 61 print u"发现",name,u"共有",len(images),u"张照片" 62 for imageURL in images: 63 splitPath = imageURL.split('.') 64 fTail = splitPath.pop() 65 if len(fTail) > 3: 66 fTail = "jpg" 67 fileName = name + "/" + str(number) + "." + fTail 68 self.saveImg(imageURL,fileName) 69 number += 1 70 71 # 保存头像 72 def saveIcon(self,iconURL,name): 73 splitPath = iconURL.split('.') 74 fTail = splitPath.pop() 75 fileName = name + "/icon." + fTail 76 self.saveImg(iconURL,fileName) 77 78 #保存个人简介 79 def saveBrief(self,content,name): 80 fileName = name + "/" + name + ".txt" 81 f = open(fileName,"w+") 82 print u"正在偷偷保存她的个人信息为",fileName 83 f.write(content.encode('utf-8')) 84 85 86 #传入图片地址,文件名,保存单张图片 87 def saveImg(self,imageURL,fileName): 88 u = urllib.urlopen(imageURL) 89 data = u.read() 90 f = open(fileName, 'wb') 91 f.write(data) 92 print u"正在悄悄保存她的一张图片为",fileName 93 f.close() 94 95 #创建新目录 96 def mkdir(self,path): 97 path = path.strip() 98 # 判断路径是否存在 99 # 存在 True 100 # 不存在 False 101 isExists=os.path.exists(path) 102 # 判断结果 103 if not isExists: 104 # 如果不存在则创建目录 105 print u"偷偷新建了名字叫做",path,u'的文件夹' 106 # 创建目录操作函数 107 os.makedirs(path) 108 return True 109 else: 110 # 如果目录存在则不创建,并提示目录已存在 111 print u"名为",path,'的文件夹已经创建成功' 112 return False 113 114 #将一页淘宝MM的信息保存起来 115 def savePageInfo(self,pageIndex): 116 #获取第一页淘宝MM列表 117 contents = self.getContents(pageIndex) 118 for item in contents: 119 #item[0]个人详情URL,item[1]头像URL,item[2]姓名,item[3]年龄,item[4]居住地 120 print u"发现一位模特,名字叫",item[2],u"芳龄",item[3],u",她在",item[4] 121 print u"正在偷偷地保存",item[2],"的信息" 122 print u"又意外地发现她的个人地址是",item[0] 123 #个人详情页面的URL 124 detailURL = item[0] 125 #得到个人详情页面代码 126 detailPage = self.getDetailPage(detailURL) 127 #获取个人简介 128 brief = self.getBrief(detailPage) 129 #获取所有图片列表 130 images = self.getAllImg(detailPage) 131 self.mkdir(item[2]) 132 #保存个人简介 133 self.saveBrief(brief,item[2]) 134 #保存头像 135 self.saveIcon(item[1],item[2]) 136 #保存图片 137 self.saveImgs(images,item[2]) 138 139 #传入起止页码,获取MM图片 140 def savePagesInfo(self,start,end): 141 for i in range(start,end+1): 142 print u"正在偷偷寻找第",i,u"个地方,看看MM们在不在" 143 self.savePageInfo(i) 144 145 146 #传入起止页码即可,在此传入了2,10,表示抓取第2到10页的MM 147 spider = Spider() 148 spider.savePagesInfo(2,10)
1 2 __author__ = 'CQC' 3 #-*- coding:utf-8 -*- 4 import re 5 6 #处理页面标签类 7 class Tool: 8 #去除img标签,1-7位空格, 9 removeImg = re.compile('<img.*?>| {1,7}| ') 10 #删除超链接标签 11 removeAddr = re.compile('<a.*?>|</a>') 12 #把换行的标签换为\n 13 replaceLine = re.compile('<tr>|<div>|</div>|</p>') 14 #将表格制表<td>替换为\t 15 replaceTD= re.compile('<td>') 16 #将换行符或双换行符替换为\n 17 replaceBR = re.compile('<br><br>|<br>') 18 #将其余标签剔除 19 removeExtraTag = re.compile('<.*?>') 20 #将多行空行删除 21 removeNoneLine = re.compile('\n+') 22 def replace(self,x): 23 x = re.sub(self.removeImg,"",x) 24 x = re.sub(self.removeAddr,"",x) 25 x = re.sub(self.replaceLine,"\n",x) 26 x = re.sub(self.replaceTD,"\t",x) 27 x = re.sub(self.replaceBR,"\n",x) 28 x = re.sub(self.removeExtraTag,"",x) 29 x = re.sub(self.removeNoneLine,"\n",x) 30 #strip()将前后多余内容删除 31 return x.strip()
以上两个文件就是所有的代码内容,运行一下试试看,那叫一个酸爽啊
看看文件夹里面有什么变化
不知不觉,海量的MM图片已经进入了你的电脑,还不快快去试试看!!
作者:gogogo
链接:https://www.pythonheidong.com/blog/article/13395/59973d5fa0290608ff5d/
来源:python黑洞网
任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任
昵称:
评论内容:(最多支持255个字符)
---无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事,而不是让内心的烦躁、焦虑,坏掉你本来就不多的热情和定力
Copyright © 2018-2021 python黑洞网 All Rights Reserved 版权所有,并保留所有权利。 京ICP备18063182号-1
投诉与举报,广告合作请联系vgs_info@163.com或QQ3083709327
免责声明:网站文章均由用户上传,仅供读者学习交流使用,禁止用做商业用途。若文章涉及色情,反动,侵权等违法信息,请向我们举报,一经核实我们会立即删除!