首页编程正文内容

【爬虫

编程

更新时间：2024-03-29129

admin管理员组
文章数量:1435859

【爬虫

仅作为参考，可能会有错误。

流程
爬虫获取网页信息
对爬取的数据进行数据清洗
对数据进行可视化与分析

流程

爬虫获取网页信息

登录某站官网，选中电影排行榜并通过开发者页面对网页的代码进行查找，

下面是爬取电影Top100信息的python代码如下（PS：User-Agent需要自己在开发者页面获取，文件保存路径需要自行更改）：

# 爬取Top100电影
import bs4
import re
import urllib.request
import urllib.error
import csv# 创建正则表达式对象
# 这里需要自行在开发者页面找到相应信息的语句。
fingTime = repile(r'<span class="data-box">(.*)上映',re.S) #上映时间# 主函数
def main():baseurl = "排行榜网址"datalist = getData(baseurl)savepath = "C:/Users/Desktop/电影Top100.csv"saveData(datalist, savepath)def getData(baseurl):print("开始")datalist = []html = askURL(baseurl)soup = bs4.BeautifulSoup(html, "html.parser")col = ["上映时间"]datalist.append(col)for item in soup.find_all('div', class_="content"):#print(item)    # 测试itemdata = []        # 保存一部电影的完整信息item = str(item)bd = re.findall(fingTime, item) #上映时间data.append(str(bd).replace("[",'').replace("]",''))datalist.append(data)return datalist# 获得一个URL的网页内容
def askURL(url):# 模拟浏览器头部信息，向服务器发送消息(该信息需要自己获得)print("爬取中...")head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.63 Safari/537.36"}request = urllib.request.Request(url, headers=head)html = ""try:response = urllib.request.urlopen(request)html = response.read().decode('utf-8')# print(html)except urllib.error.URLError as e:if hasattr(e, "code"):print(e.code)if hasattr(e, "reason"):print(e.reason)return htmldef saveData(datalist, savepath):for i in range(len(datalist)):f = open(r"你的保存路径+文件名，例：C:\Users\Desktop\电影Top100.csv",'a',newline='')writer = csv.writer(f)writer.writerow(datalist[i])f.close()print("转换csv完成")if __name__ == "__main__":main()

爬取后生成的csv文件如下：

对爬取的数据进行数据清洗

结果发现爬取的文件有缺失值，以及格式不对（大部分原因是爬虫部分代码写得不够好，可以自行优化代码，本文采取数据清洗的方式），接下来对数据进行数据清洗，代码如下：

import re
import csv
import pandas as pdmovies = pd.read_csv(r"C:\Users\Desktop\电影Top100.csv",encoding='gbk')#电影数据清洗
df1 = []
col = ["上映时间"]
df1.append(col)
for i in range(0,100):df2=[]a = movies.loc[i]b = a.replace(' ','').replace("'","").replace('\\n','')df2.append(b)a = movies.loc[i][j]df2.append(a.replace("'",""))#print(df2)        df1.append(df2)for i in range(len(df1)):f = open(r"C:\Users\Desktop\电影Top100（已清洗完毕）.csv", 'a',newline='')writer = csv.writer(f)writer.writerow(df1[i])f.close()print('电影Top100数据清洗完成')

清洗完后的数据如下图，很干净，而且都为有用的信息，清洗成功！

对数据进行可视化与分析

接下来我们读取清洗完毕后的数据，并将上映时间提取出来（也可以充分利用所有的字段，例如可以做成数字化大屏等等），统计该年份电影上映的数量，代码如下：

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import re
import jiebamovies = pd.read_csv(r"C:\Users\Desktop\电影Top100（已清洗完毕）.csv",encoding='gbk')time = []
for i in range(len(movies['上映时间'])):time1 = movies['上映时间'][i].split('-')[0]time.append(time1)Time = []
for i in time:if i not in Time:Time.append(i)
print(Time)
Time = sorted(Time)
Time_time = []
for i in Time:Time_time.append(time.count(i))print(Time_time)plt.rcParams['font.sans-serif'] = ['SimHei']  # 解决中文显示问题
plt.rcParams['axes.unicode_minus'] = False   # 解决中文显示问题plt.bar(Time, Time_time, 0.6, label='电影数量', color='#87CEFA')
plt.legend()                                 #显示图例
plt.xlabel('上映年份')                           #x轴标签
plt.ylabel('电影数量')                         #y轴标签
plt.title('各年份电影直方图')                      #标题

生成的直方图如图所示：

分析结果：
从图中可以看出，电影上映的年份最早是在1972年，最新的年份是在2022年；而观看的电影数量最多的一年是2021年，总共有16部，占据排行榜的 16 100 \frac{16}{100} 10016。

从这可以看出，某网上的年轻人并不只是观看21世纪的电影，还会看20世纪70年代的电影，这说明年轻人并不只会关注新鲜的电影，而是更在意电影的内容。

本文标签：爬虫

版权声明：本文标题：【爬虫内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1711725116a786281.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

编程频道|软件玩家 - 软件改变生活！

【爬虫

【爬虫

仅作为参考，可能会有错误。

流程

爬虫获取网页信息

对爬取的数据进行数据清洗

对数据进行可视化与分析

更多相关文章

从零开始，学会Python爬虫不再难！！！ -- （6）项目二：获取腾讯校招数据丨蓄力计划

Python爬虫实战(一)：腾讯新闻的较真查证平台，抓取疫情谣言数据

Python爬虫案例，腾讯动漫爬虫，步骤超详细解释。

Python爬虫----爬取腾讯动漫全站漫画

python爬虫之网页加载模式（同步和异步）及浏览器抓包数据文件分析（4）

python商品评论数据采集与分析可视化系统 Flask框架 requests爬虫 NLP情感分析 毕业设计 源码

【爬虫基础】第3讲 常见浏览器User-Agent大全

目前5大浏览器厂商的UA头PC版，大家做爬虫时可以用

爬虫：常用的浏览器请求头User-Agent

0基础Python爬虫教程第二篇：抓取300+深圳二手车网站信息

【论文投稿】Python 网络爬虫：探秘网页数据抓取的奇妙世界

Python爬虫系列（四）：爬取腾讯新闻&amp;知乎

【JAVA】从0开始写DHT磁力爬虫 02 Bencode实现

手撕包菜BT搜索引擎带爬虫自动抓取安装

dySE：一个 Java 搜索引擎的实现，第 1 部分 网络爬虫

六万字带你一次性速通python爬虫基础

学了那么久爬虫，快来看看这些反爬，你能攻破多少？【对应看看自己修炼到了哪个等级~】

Python爬虫之selenium库驱动浏览器

01--selenium爬虫初级使用：不打开浏览器的情况下，爬取界面做到所见即所得

爬虫Selenium+Chrome 控制浏览器，打开百度网页，输入搜索关键词，点击回车，截取搜索页面

发表评论

推荐文章

javascript module pattern from You don&#39;t know JS - Stack Overflow

javascript - AWS CloudSearch - Getting results of a search in JSON format - Stack Overflow

javascript - vue - $emit vs. reference for updating parent data - Stack Overflow

javascript - How to change one property value in array with objects - Stack Overflow

javascript - Is it possible to iterate over the array, excluding the first element? - Stack Overflow

热门文章

javascript - How to build a good data structure for a react state, that allows me to easily update deeply nested array of object

javascript - Create unique name for &lt;input&gt; in form - Stack Overflow

r - Alluvial plots using ggplot2 - highlight certain pairings - Stack Overflow

javascript - NetworkError: Failed to execute &#39;send&#39; on &#39;XMLHttpRequest&#39; (ajax、WebAPI) - Stack Ov

javascript - declare key type of for in loop in typescript - Stack Overflow

javascript - change opacity and animated that with react js - Stack Overflow

javascript - How to add div banner before every page content using JS? - Stack Overflow

javascript - Show spinner on multiple $http calls angularJs - Stack Overflow

javascript - Nullish coalescing operator not working or not enabled? - Stack Overflow

javascript - AngularJS ng:submit on &#39;enter&#39; key - Stack Overflow

最新文章

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

惠普OMEN 15-CE001TX 2EF91PA参数报价

苹果新款MacBook Pro 15英寸 i732GB1TBVega Pro 20参数报价

联想Y330A-PSE L参数报价

神舟战神Z7 D6 i7-12650H16GB512GBRTX4050旗舰版参数报价

神舟战神Z7 D6 i7-12650H16GB1TBRTX4050参数报价

python商品评论数据采集与分析可视化系统 Flask框架 requests爬虫 NLP情感分析毕业设计源码

【爬虫基础】第3讲常见浏览器User-Agent大全

Python爬虫系列（四）：爬取腾讯新闻&知乎

dySE：一个 Java 搜索引擎的实现，第 1 部分网络爬虫

javascript module pattern from You don't know JS - Stack Overflow

javascript - Create unique name for <input> in form - Stack Overflow

javascript - NetworkError: Failed to execute 'send' on 'XMLHttpRequest' (ajax、WebAPI) - Stack Ov

javascript - AngularJS ng:submit on 'enter' key - Stack Overflow

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow