网络爬虫——用Python爬取新浪新闻材料-软件玩家

admin管理员组
文章数量:1439997

网络爬虫——用Python爬取新浪新闻材料

微信公众号：数据分析与统计学习
如有问题或建议，请公众号留言
最近更新时间：2018-7-8

最近一个星期都在学习网络爬虫，秉着有学习输入就要有学习输出（学以致用）的原则，把整个学习过程记录下来，并分享给大家。

一、爬虫前的准备工作

我是在Windows系统下用Python的Anaconda集成开发环境实现网络爬取新浪新闻项目。用Anaconda实现网络爬虫有如下几个好处：第一，该软件是免费的；第二，该集成开发环境已经具备网络爬虫所需的库，不需要我们安装第三方库。
下载谷歌浏览器的一个第三方插件SelectorGadget，主要是用来辅助定位网页元素的位置以及查找出各网页元素的共同规律。具体用法可以上网搜索。

二、网络爬虫流程说明

一个轻量级的网络爬虫项目，应该具备如下两个步骤。第一，获取网页上的目标链接（URL）；第二，目标网页解析，从网页中提取我们所需要的数据。

三、网络爬虫代码实现

在敲击键盘编写代码实现爬虫项目的过程中，主要用到Python中三个第三方库——requests 、BeautifulSoup和json以及用于存储数据的pandas库。
requests库主要用途获取目标网页的内容，爬虫过程中主要用到它的get方法，接受参数URL，就返回一个包含目标内容的Response对象。详细用法请参考requests库的中文文档。链接如下：
.html

BeautifulSoup库主要用途是解析目标网页内容，接受一个网页内容的参数，返回一个BeautifulSoup对象。主要用到该库的find_all,find,select等方法。详细用法请参考BeautifulSoup库的中文文档。链接如下：
.zh/

json库主要用来从网页中提取json格式的数据。json格式数据转换后，变成Python的字典。

1、今天我要爬取的网页是新浪新闻国内新闻的最新消息一栏，先打开新浪新闻国内新闻网页，如下图所示：

新浪新闻国内新闻

2、然后在网页空白地方点击右键，选择“检查”，然后选择‘element’选项卡，利用谷歌浏览器插件SelectorGadget，点击各新闻标题，寻找各新闻标题元素的位置。找到各新闻标题元素的位置后，寻找共同规律。我发现这些新闻标题的位置均在属性class=“newsitem”，并且这些新闻标题的链接都存储在标签<a>中href属性。具体代码如下：

import requests
from bs4 import BeautifulSoupdef urls_download(url):     #定义下载这些新闻标题链接的函数r = requests.get(url)   #传入参数，获取参数所代表的网页r.encoding = 'utf-8'    #显性设定编码为utf-8bsobj = BeautifulSoup(r.text,'lxml') #接收目标网页内容，解析网页alinks = bsobj.select('.news-item')  #返还含有新闻标题元素的列表newsurls = []  #收集新闻标题的链接for alink in alinks:     hrefs = alink.select('a')     if  hrefs:     #排除新闻标题链接为空的情况newsurls.append(hrefs[0]['href'])
return newsurls  #返回目标网页链接列表

3、获取目标网页链接列表后，对每个链接的网页进行解析，从中提取目标新闻网页的的数据，包括标题、时间、来源、编辑者、文章内容，评论数、关键词。具体实现代码如下；

import json
import requests
from bs4 import BeautifulSoupdef getNewsDetails(url):r = requests.get(url)r.encoding = 'utf-8'bsobj = BeautifulSoup(r.text,'lxml')result = {}  #收集目标网页的数据result['main_title'] = bsobj.select('.main-title')[0].textresult['date'] = bsobj.select('.date')[0].texttry:   #异常处理，处理标签\<a>中href属性不存在的情况result['source'] = bsobj.select('.source')[0].textresult['source_link'] = bsobj.select('.source')[0]['href']except  KeyError:print("has no key")result['show_author'] = bsobj.select('.show_author')[0].text.lstrip('责任编辑：')result['keywords'] = bsobj.select('.keywords')[0]['data-wbkey'][:-3]texts = [] #收集新闻的具体内容for i in range(len(bsobj.select('p'))-5):texts.append(bsobj.select('p')[i].text.replace(u'\u3000',u'')) #去除每段的首行两个空白字符         result['article'] = texts   news_id = url.split('/')[-1].rstrip('.shtml').lstrip('doc-i')commenturl = '=1&format=json&channel=gn&newsid=comos-{}&group=undefined&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=3&t_size=3&h_size=3&thread=1'comments = requests.get(commenturl.format(news_id)) #评论数是json格式的数据comment = comments.textjd = json.loads(comment) #转换json格式的数据result['comment_num'] = jd['result']['count']['total']    return result #返回所需的数据

上面只是一个网页的，因为一个新闻网页肯定有许多页，需要翻页看，如果想获取不同分页下的网页链接，就要重新编写代码，具体代码：

def parseListLinks(url): #定义获取不同分页下的新闻标题链接函数newsDetail= []r = requests.get(url)jsondata = r.text.strip().lstrip('newsloadercallback(').rstrip(');')jd = json.loads(jsondata)for i in range(len(jd['result']['data'])):newsDetail.append(getNewsDetails(jd['result']['data'][i]['url']))  #调用前面获取新闻数据的函数，获取每个分页下所有新闻的数据return newsDetail 返回所有分页下的新闻数据

#不同分页的URL链接
url = '? channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page={}&callback=newsloadercallback&_=1531402221318' 
news_total = [] #手机所有新闻数据的列表
for i in range(1,5):news_list = parseListLinks(url.format(i))news_total.extend(news_list)  
#把爬取的数据下载下来，把数据存储到csv
import pandas as pd
df = pd.DataFrame(news_total) #列表转换为数据框
df.to_csv('news.csv') #存储到名为news格式为csv的表中

四、后记

这只是一个简单的网络爬虫，后面还有更多的内容需要学习，我也会把自己学到的最新的网络爬虫知识分享给大家。希望大家继续保持关注，也希望大家积极留言指出我的错误，教学相长。

下面的是我的公众号二维码图片，欢迎关注我。

本文标签：网络爬虫用Python爬取新浪新闻材料

版权声明：本文标题：网络爬虫——用Python爬取新浪新闻材料内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1730949335a1547092.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

网络爬虫——用Python爬取新浪新闻材料

网络爬虫——用Python爬取新浪新闻材料

一、 爬虫前的准备工作

二、 网络爬虫流程说明

三、 网络爬虫代码实现

四、后记

更多相关文章

网络爬虫——用Python爬取新浪新闻材料

发表评论

推荐文章

原生APP开发的优点

实现验证码生成的功能

windows seaweedfs安装、启动

[完结14章]RAG全栈技术从基础到精通 ，打造高精准AI应用

【操作系统学习篇

热门文章

custom post types - How to approach a site where it has sub-businesses, each with its own pages (&quot;articles&quot;, &

javascript - How to let a webworker do multiple tasks simultaneously? - Stack Overflow

【今日三题】小红的口罩(小堆)春游(模拟)数位染色(01背包)

铜缆以太网22

CodeBuddy使用

Android Studio安装配置教程-Windows(超详细版)

直播预告｜解锁AI新范式：三步搭建MCP智能体，云上Server极速部署实战

Node.js 中 async 和 await 的深入解析与实践应用

C#接口新特性概览

Meta 彻底翻车！Llama 4 实测拉胯，官方承认“有问题”，DeepSeek 笑到最后？

最新文章

.NET 9 的关键功能

拒绝停服，随时回退：Sybase 到 PostgreSQL 的无缝数据库双向迁移方案

DNW与Fastboot驱动：Win7Win10系统刷机必备工具包

Shodan介绍

Python批量绘制多张遥感影像并分别设定子图标题

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

清华同方K468-T4422B06参数报价

清华同方S30i-43 银参数报价

HUWI HW02 11代酷睿版 i5 11300H12GB256GB集显 参数报价

海尔S15 Pro-M5i58GB1TB参数报价

海尔S15 Pro-M5i58GB2TB参数报价

一、爬虫前的准备工作

二、网络爬虫流程说明

三、网络爬虫代码实现

[完结14章]RAG全栈技术从基础到精通，打造高精准AI应用

custom post types - How to approach a site where it has sub-businesses, each with its own pages ("articles", &

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow

HUWI HW02 11代酷睿版 i5 11300H12GB256GB集显参数报价