Python怎么利用多线程爬取LOL高清壁纸(python,开发技术)

Python怎么利用多线程爬取LOL高清壁纸

导读：本文共4570.5字符，通常情况下阅读需要15分钟。同时您也可以点击右侧朗读，来听本文内容。按键盘←（左） →（右）方向键可以翻页。

摘要：页面分析目标网站：英雄联盟官网界面如图所示，显而易见，一个小图表示一个英雄，我们的目的是爬取每一个英雄的所有皮肤图片，全部下载下来并保存到本地。次级页面上面的页面我们称为主页面，次级页面也就是每一个英雄对应的页面，就以黑暗之女为例，它的次级页面如下所示：我们可以看到有很多的小图，每一张小图对应一个皮肤，通过 network 查看皮肤数据接口，如下图所示：我们知道... ...

音频解说

defspider(url):res=requests.get(url,headers=headers)result=res.content.decode('utf-8')res_dict=json.loads(result)skins=res_dict["skins"]#15个hero信息print(len(skins))forindex,heroinenumerate(skins):#这里使用到enumerate获取下标,以便文件图片命名;item={}#字典对象item['name']=hero["heroName"]item['skin_name']=hero["name"]ifhero["mainImg"]=='':continueitem['imgLink']=hero["mainImg"]print(item)download(index+1,item)

download 下载图片

defdownload(index,contdict):name=contdict['name']path="皮肤/"+nameifnotos.path.exists(path):os.makedirs(path)content=requests.get(contdict['imgLink'],headers=headers).contentwithopen('./皮肤/'+name+'/'+contdict['skin_name']+str(index)+'.jpg','wb')asf:f.write(content)

这里我们使用 OS 模块创建文件夹，前面我们有说到，每个英雄的 heroName 的值是一样的，借此创建文件夹并命名，方便皮肤的保存（归类），然后就是这里图片文件的路径需要仔细，少一个斜杠就会报错。

main() 主函数

defmain():pool=ThreadPool(6)page=[]foriinrange(1,21):newpage='https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js'.format(i)print(newpage)page.append(newpage)result=pool.map(spider,page)pool.close()pool.join()end=time.time()

说明：

在主函数里我们首选创建了六个线程池；
通过 for 循环动态构建 20 条 url,我们小试牛刀一下，20 个英雄皮肤，如果爬取全部可以对之前的 idList 遍历，再动态构建 url；
使用 map() 函数对线程池中的 url 进行数据解析存储操作；
当线程池 close 的时候并未关闭线程池，只是会把状态改为不可再插入元素的状态；

程序运行

if__name__=='__main__':main()

结果如下：

Python怎么利用多线程爬取LOL高清壁纸

当然了这里只是截取了部分图像，总共爬取了 200+ 张图片，总体来说还是可以。

 </div> <div class="zixun-tj-product adv-bottom"></div> </div> </div> <div class="prve-next-news">

本文：Python怎么利用多线程爬取LOL高清壁纸的详细内容，希望对您有所帮助，信息来源于网络。

Python怎么利用多线程爬取LOL高清壁纸(python,开发技术)

目录

页面分析

抓取思路

数据采集

程序运行

20 人围观 / 0 条评论 ↓快速评论↓

搜索

最新文章

猜你喜欢

特价优惠

标签

流量统计