程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

python 爬虫 妹子图翻页

发布于2020-03-10 19:50     阅读(1412)     评论(0)     点赞(8)     收藏(1)


import requests
import re

for page in range(100,101):
print(‘正在抓取第{}页数据’.format(page))
# 确定网址
url = “https://www.mzitu.com/page/{}/”.format(str(page))

# user-agent 客户端的信息
# 发起请求
headers = {
'User-Agent': 'wolovezj', "Referer": "https://www.mzitu.com/"
}
# 爬虫-模拟客户端进网页请求


# 403-没有权限  200-成功   .text 文本数据  响应是否成功
response = requests.get(url,headers=headers).text
# print(response)

# 图片 - url
# 数据提取/筛选  re-正则表达式  规则  满足条件   留下来  不满足  抛弃
# .* 匹配任意字符   . 任意   *多个从哪里查找   ?  反贪婪
image_infos = re.findall("data-original='(.*)' alt='(.*?)'", response)
# print(image_infos)


# 列表  多个数据
# 一次获取列表元素
for image_url, name in image_infos:
    print(image_url,name)
    # .content 原始内容  图片二进制数据
    image_content = requests.get(image_url,headers=headers).content
    # wb  w写  b 二进制 f 取个名字
    with open('image/' + name + '.jpg', 'wb') as f:
        f.write(image_content)

原文链接:https://blog.csdn.net/weixin_45402438/article/details/104740223



所属网站分类: 技术文章 > 博客

作者:我Lovepython

链接:https://www.pythonheidong.com/blog/article/251352/be8c55bcf8b047c82473/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

8 0
收藏该文
已收藏

评论内容:(最多支持255个字符)