利用爬虫下载草榴【新時代的我們】和【達蓋爾的旗幟】两个板块帖子内的图片
Python 3.x
pip install -r requirements.txt
根目录下有代理配置文件,可以配置http/https代理,(参数[-p 0]可以禁用代理)
默认配置:
{
"http": "socks5://localhost:1080",
"https": "socks5://localhost:1080"
}
- 本地开启ss/ssr/v2ray等服务
- 设置“允许来自局域网的链接”
- 修改配置文件
proxy中的代理端口为ss/ssr/v2ray的本地代理端口(一般默认1080)
请确保PAC文件设置了代理草榴网站的规则
填入代理提供商的IP地址以及对应端口号即可(如socks5://xxx.xxx.xxx.xxx:1234/)
python Spider_of_t66y.py [-h] [-c CLASS_ID] [-s START] [-e END] [-m MAX_THREAD]
[-h] 显示帮助信息
[-c] 下载类别,1下载【新時代的我們】板块 , 2下载【達蓋爾的旗幟】板块 , 0同时下载两个板块
[-s] 下载的起始页(默认1)
[-e] 下载的尾页
[-m] 设置最大下载线程(默认200)
[-p] '0':禁用代理配置 默认'1':启用代理
下载完成的图片会保存在./t66y目录
python Spider_of_t66y.py -c 1 -s 1 -e 2 -m 300
python Spider_of_t66y.py -c 2 -p 0
python Spider_of_t66y.py -h
实际测试中线程数量过多会触发图床的流量保护,导致无法下载图片
同时如果代理服务器带宽较小,造成长时间拥塞,程序会自动结束某些下载线程
仅供学习,注意身体
by.赤道企鹅™