Python 多线程爬取站酷（zcool.com.cn）图片-python黑洞网

本站消息

站长简介/公众号

出租广告位,需要合作请联系站长

23dh

1080

文章

821062

访问

+关注

分类

暂无分类

日期归档

2023-05(1)

2023-06(2)

Python 多线程爬取站酷（zcool.com.cn）图片

发布于2019-11-07 09:20 阅读(898) 评论(0) 点赞(23) 收藏(5)

极速爬取下载站酷（https://www.zcool.com.cn/）设计师/用户上传的全部照片/插画等图片。

项目地址：https://github.com/lonsty/scraper

特点：#

极速下载：多线程异步下载，可以根据需要设置线程数
异常重试：只要重试次数足够多，就没有下载不下来的图片 (^o^)/
增量下载：设计师/用户有新的上传，再跑一遍程序就行了 O(∩_∩)O嗯!
支持代理：可以配置使用代理

环境：#

python3.6及以上

1. 快速使用#

1) 克隆项目到本地#

Copy
git clone https://github.com/lonsty/scraper

2) 安装依赖包#

Copy
cd scraper
pip install -r requirements.txt

3) 快速使用#

通过用户名username下载所有图片到路径path下：

Copy
python crawler.py -u <username> -d <path>

运行截图

爬取结果

2. 使用帮助#

查看所有命令

Copy
python crawler.py --help

Copy
Usage: crawler.py [OPTIONS]

  Use multi-threaded to download images from https://www.zcool.com.cn in
  bulk by username or ID.

Options:
  -i, --id TEXT              User id.
  -u, --username TEXT        User name.
  -d, --directory TEXT       Directory to save images.
  -p, --max-pages INTEGER    Maximum pages to parse.
  -t, --max-topics INTEGER   Maximum topics per page to parse.
  -w, --max-workers INTEGER  Maximum thread workers.  [default: 20]
  -R, --retries INTEGER      Repeat download for failed images.  [default: 3]
  -r, --redownload TEXT      Redownload images from failed records.
  -o, --override             Override existing files.  [default: False]
  --proxies TEXT             Use proxies to access websites.
                             Example:
                             '{"http": "user:passwd@www.example.com:port",
                             "https": "user:passwd@www.example.com:port"}'
  --help                     Show this message and exit.

3. 更新历史#

Version 0.1.0 (2019.09.09)#

主要功能：
- 极速下载：多线程异步下载，可以根据需要设置线程数
- 异常重试：只要重试次数足够多，就没有下载不下来的图片 (^o^)/
- 增量下载：设计师/用户有新的上传，再跑一遍程序就行了 O(∩_∩)O嗯!
- 支持代理：可以配置使用代理

程序员说：42岁了，突然觉得研发前途渺茫

中国程序员数量达755万，全球排名第二

为什么都说程序员找不到女朋友，但是身边程序猿的却没一个单身的？

程序员说：30岁以上你还死磕技术，别说拿高薪，可能你连饭碗都会保不住

程序员被开除，老板：“有你参与的项目全黄了！”

笑话：一个测试工程师走进一家酒吧

笑话：面试官：请拿出一段体现你水平的代码。我： sudo rm -rf /*面试官：这体现了你哪方面能力？

python精选：Python 办公实战！按姓名拆分 Excel 为单独文件，微信自动发给相应联系人

网友说：做开发，不被领导喜欢怎么办？

网友说：我奉劝各位，一定不能在职场透露自己的家庭条件

所属网站分类: 技术文章 > 博客

作者：23dh