首页编程正文内容

【爬虫】

编程

更新时间：2023-12-21104

admin管理员组
文章数量:1435859

【爬虫】

分析过程:

url：.shtml

没分析请求之前准备用xpath取出每个英雄的链接然后再发送请求取出英雄皮肤图片和皮肤名，该方案可行难度不高

在分析请求后发现有一个js请求里包含了所有英雄的信息，可以取出英雄id和name ：.js

每个英雄的信息页面有一个js请求包含了英雄的皮肤数量和皮肤名称，Galio为英雄的名称，是第一个js中获取的英雄名，如： .js

爬取思路：

1、获取第一个js请求所有英雄的id和name

2、组合所有英雄的js请求url列表：heros_url = []

3、遍历列表，获取每个英雄的皮肤名称和图片链接地址

4、下载图片

代码如下：

# coding: utf-8import urllib2
import os
import json, redef get_heros_json():''' 通过url，获取所有hero的信息集合，json格式为:{u'133': u'Quinn', u'91': u'Talon'} '''url = ".js"response = urllib2.urlopen(url=url)html = response.read() # .decode("utf-8")html_json = re.findall(r'LOLherojs.champion=(.+?);', html)heros_json = json.loads(html_json[0])['keys']# print heros_jsonget_heros_url(heros_json)# return heros_urldef get_heros_url(heros_json):''' 遍历传入的json拼接每个的英雄js请求url'''# 用于存储英雄的请求地址heros_url = []for key in heros_json:# print ("hero is  %s; value is %s " % (key, heros_json[key]))hero_url = "/" + heros_json[key] + ".js"# return heros_url.append(hero_url)heros_url.append(hero_url)# return heros_urlget_hero_info(heros_url)def get_hero_info(heros_url):# windos# 检查文件夹是否存在，不存在则创建save_dir = '.\\heros\\'if(not os.path.exists(save_dir)):os.makedirs(save_dir)for hero in heros_url:get_hero(hero)print ("下载完成！")# heros_url=".js"# get_hero(heros_url)	def get_hero(hero):''' 获取一个英雄的js请求信息 '''# print heroresponse = urllib2.urlopen(url=hero)html = response.read()html_json = re.findall(r"\"data\":(.+?);", html)# 构造完整的json格式( 缺少{"data": )html_json = "{\"data\":" + html_json[0]# print html_json# 将json转成python的对象hero_json = json.loads(html_json)# 设置默认的英雄名字dafault = hero_json["data"]["name"]# print dafaultget_download(hero_json, dafault)def get_download(hero_json, dafault):'''   '''# 英雄皮肤的列表hero_skinsjson = hero_json["data"]['skins']# print hero_skinsjsoni = 0imgId = ''imgName = ''for key in hero_skinsjson:if i == 0:imgId = key['id']imgName = dafaulti += 1else:imgId = key['id']imgName = key['name']imgName = imgName.replace("/", '').decode("utf-8")		save_dir = ".\\heros\\"save_file_name = save_dir + imgName + ".jpg"url =  "" + imgId + ".jpg"# print urltry:if (not os.path.exists(save_file_name)):content = urllib2.urlopen(url=url).read()with open(save_file_name, "wb") as f:f.write(content)except Exception:print("下载失败"+ url + "  name is " + imgName)def main():heros_url = get_heros_json()if __name__ == '__main__':main()'''
下载失败.jpg  name is K/DA 伊芙琳
下载失败.jpg  name is K/DA 阿卡丽
下载失败.jpg  name is K/DA 阿狸
下载失败.jpg  name is K/DA 卡莎
下载失败.jpg  name is K/DA 卡莎 至臻
下载完成！
错误原因是文件名的编码问题，去除了'/'也是不行，会乱码解决办法 imgName = imgName.replace("/", '').decode("utf-8")	
'''

代码也是参考别人的思路加上自己的思考，仅供学习和参考，转发请注明出处

参考网址：

本文标签：爬虫

版权声明：本文标题：【爬虫】内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1703137041a600321.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

Python爬虫实战(一)：腾讯新闻的较真查证平台，抓取疫情谣言数据

编程

7月前

追风赶月莫停留，平芜尽处是春山。文章目录追风赶月莫停留，平芜尽处是春山。一、网页分析二、接口分析url分析返回数据分析三、编写代码完整代码 2021.7.14更新：浏览

Python爬虫----爬取腾讯动漫全站漫画

编程

7月前

目标网站：https:ac.qq 实现功能：下载全部漫画到本地文件夹中实现代码： import requestsfrom lxml import etreefrom selenium import webdriverfrom

python新浪股票接口 2019_用python爬虫进行新浪腾讯股票数据采集

编程

7月前

今天带给大家的是从新浪和腾讯爬取股票数据，主要是因为新浪和腾讯的股票数据存储在js中，不需要再重新解析网页源码方便很多。今天我们要实现的股票爬取设计内容丰富，包括： 1、一个股票数据(沪深)爬虫和选股策略测试框架，数据基于腾讯L和新浪财经

python爬虫之网页加载模式（同步和异步）及浏览器抓包数据文件分析（4）

编程

7月前

文章目录 1、网页加载模式1.1 同步加载1.2 异步加载2、网页数据返回的方式3、区分同步网站和异步网站4、浏览器抓取数据包分析5、常用反爬手段（代理和UA）1、网页加载模式网页的加载模式通常有两种，同步加载和异步加载；两种加载模式都有

Python爬虫实战（01）—— Selenium及浏览器驱动安装教程

编程

7月前

目录前言 1. 导入selenium模块 2. 安装浏览器驱动 3. 安装测试前言今天是一期selenium模块以及浏览器驱动的安装教程 Selenium是一个Web的自动化测试工具，直接运行在浏览

xpath下载安装——Python爬虫xpath插件下载安装（2023.8亲测可用！！）

编程

7月前

目录 1.免费下载插件链接（若失效评论区留言发送最新链接）（2023.7亲测可用） 2.安装插件 （1）

Python——爬虫（selenium定义、用selenium打开浏览器、获取数据、处理数据、控制浏览器）

编程

6月前

目录 1.selenium定义 2.安装selenium浏览器驱动器 1）下载、安装驱动器 2）检测驱动器 3.用selenium打开浏览器 4.用selenium获取数据 5.用s

腾讯视频 Python 爬虫项目实战！

编程

6月前

做了一些小项目，用的技术和技巧会比较散比较杂，写一个小品文记录一下，帮助熟悉。需求：经常在腾讯视频上看电影，在影片库里有一个&

ChatGPT和爬虫组合在一起能做什么？

编程

6月前

如果把ChatGPT和爬虫组合在一起，你会得到一个非常强大的工具，可以用来解决许多问题。ChatGPT是一个基于人工智能的聊天机器人，而爬虫则是一种自动化程序，用于从互联网上获取数据。这两个工具结合在一起可以实现许多有趣的功能。爬取聊天

Node.js 网页瘸腿爬虫初体验

编程

6月前

延续上一篇，想把自己博客的文档标题利用Node.js的request全提取出来，于是有了下面的初哥爬虫，水平有限，这只爬虫目前还有点瘸腿&#xf

目前5大浏览器厂商的UA头PC版，大家做爬虫时可以用

编程

6月前

谷歌览器：Mozilla5.0 (Windows NT 10.0; Win64; x64) AppleWebKit537.36 (KHTML, like Gecko) Chrome99.0.4844.82 Saf

爬虫：常用的浏览器请求头User-Agent

编程

6月前

user_agent = ["Mozilla5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit534.50 (KHTML, like Gecko) Vers

五、Python复习教程（重点）-爬虫框架实战

编程

5月前

目录导航： 文章目录目录导航：九、Python网络爬虫进阶实战(上)1. Scrapy框架介绍与安装1.1.认识Scrapy框架Scrapy框架介绍：Scrapy框架的运行

ChatGPT被曝存在爬虫漏洞，OpenAI未公开承认

编程

3月前

OpenAI的ChatGPT爬虫似乎能够对任意网站发起分布式拒绝服务（DDoS）攻击，而OpenAI尚未承认这一漏洞。本月，德国安全研究员Benja

python百度云盘搜索引擎_PHP百度云盘搜索引擎爬虫程序源码

编程

2月前

PHP百度云盘搜索引擎爬虫程序源码，一款基于PHP框架的百度云盘磁力搜索引擎框架程序源码，包括了网页前台后台程序，云盘爬虫搜索等一系列完整的搜索引擎相关服务内容&#x

现在公开一个DHT网络爬虫

编程

2月前

P2P系统的应用越来越广泛，在文件共享、流媒体服务、即时通www.usus讯交流、计算和存储能力共享以及协同处理www.usus与服务等方面都能看www.usus到P2P的存在，一些P2P应用如N

java dht 爬虫_P2P中DHT网络爬虫

编程

2月前

DHT网络爬虫基于DHT网络构建了一个P2P资源搜索引擎。这个搜索引擎不但可以用于构建DHT网络中活跃的资源索引(活跃的资源意味着该网络中肯定有人至少持有该资源的部分数据)，还可以分析出该网络中的热门分享资源。小虾不久

学了那么久爬虫，快来看看这些反爬，你能攻破多少？【对应看看自己修炼到了哪个等级~】

编程

1月前

目录：每篇前言：⭐️0.前言

【愚公系列】《Python网络爬虫从入门到精通》002-了解Web前端

编程

1月前

标题详情作者简介愚公搬代码头衔华为云特约编辑，华为云云享专家，华为开发者专家，华为产品云测专家，CSDN博客专家，CSDN商业化专

Python爬虫之selenium库驱动浏览器

编程

1月前

目录一、简介二、使用selenium库前的准备 1、了解selenium库驱动浏览器的原理 （1）、WebDriver 协议 （2）、浏览

发表评论

全部评论 0

暂无评论

编程频道|软件玩家 - 软件改变生活！

【爬虫】

【爬虫】

更多相关文章

Python爬虫实战(一)：腾讯新闻的较真查证平台，抓取疫情谣言数据

Python爬虫----爬取腾讯动漫全站漫画

python新浪股票接口 2019_用python爬虫进行新浪腾讯股票数据采集

python爬虫之网页加载模式（同步和异步）及浏览器抓包数据文件分析（4）

Python爬虫实战（01）—— Selenium及浏览器驱动安装教程

xpath下载安装——Python爬虫xpath插件下载安装（2023.8亲测可用！！）

Python——爬虫（selenium定义、用selenium打开浏览器、获取数据、处理数据、控制浏览器）

腾讯视频 Python 爬虫项目实战 ！

ChatGPT和爬虫组合在一起能做什么？

Node.js 网页瘸腿爬虫初体验

目前5大浏览器厂商的UA头PC版，大家做爬虫时可以用

爬虫：常用的浏览器请求头User-Agent

五、Python复习教程（重点）-爬虫框架实战

ChatGPT被曝存在爬虫漏洞，OpenAI未公开承认

python百度云盘搜索引擎_PHP百度云盘搜索引擎爬虫程序源码

现在公开一个DHT网络爬虫

java dht 爬虫_P2P中DHT网络爬虫

学了那么久爬虫，快来看看这些反爬，你能攻破多少？【对应看看自己修炼到了哪个等级~】

【愚公系列】《Python网络爬虫从入门到精通》002-了解Web前端

Python爬虫之selenium库驱动浏览器

发表评论

推荐文章

javascript - Append on table if data not exist jQuery - Stack Overflow

javascript - Adding Autocomplete to Google Geocoder - Stack Overflow

shell - Is there a way to automatic introduce the mac password using appleScript_ - Stack Overflow

php - How to reset Wordpress - Settings - General page, so the website can use HTTP only? - Stack Overflow

Unable to Subscribe to Facebook Page Webhook: - Stack Overflow

热门文章

javascript - Responsive design testing with PhantomJS - Stack Overflow

javascript - How select specific custom attribute in an select option field? - Stack Overflow

Javascript: How can I store instances of a class in LocalStorage? - Stack Overflow

Change homepage&#39;s logo link

javascript - Why is my JS function executed onload instead of onchange? - Stack Overflow

Cant get my group to stop wrapping and in a smaller screen just become horizontally scrollable in bubble.io - Stack Overflow

python - Raspberry Pi Pico with KX134 accelerometer not being recognised despite being detected - Stack Overflow

javascript - Serving images from device cache (web app) - Stack Overflow

How to test dart record patterns? - Stack Overflow

javascript - iframe auto adjusting its height to fit to the content height - Stack Overflow

最新文章

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

惠普OMEN 15-CE001TX 2EF91PA参数报价

苹果新款MacBook Pro 15英寸 i732GB1TBVega Pro 20参数报价

联想Y330A-PSE L参数报价

神舟战神Z7 D6 i7-12650H16GB512GBRTX4050旗舰版参数报价

神舟战神Z7 D6 i7-12650H16GB1TBRTX4050参数报价

腾讯视频 Python 爬虫项目实战！

Change homepage's logo link

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow