新浪微博爬虫模拟登录（爬手机版）

编程

更新时间：2024-01-2536

admin管理员组
文章数量:1516870

新浪微博爬虫模拟登录（爬手机版）

新浪微博爬虫模拟登录

最近一直在想做新浪微博爬取，开始的时候做了一个PC版的爬取，但是发现提取内容真心难过所以在这里爬了手机版的话不多说，show you my code 这个可以提取固定人微博内容，接下来的工作是要放入到mysql提取大量内容做一些聚类分析，这个验证码是要自己输入的，等我把验证码自动识别那部分做好后再来补充，下面是微博内容爬取

#-*-coding:utf8-*-import requests
from lxml import etree
import urllib
import cookielib
import urllib2s = requests.Session()#记住cookiesurl = '' #此处请修改为微博地址
html_you = s.get(url).content
selector_you = etree.HTML(html_you)
url_login = selector_you.xpath('//a[@id="top"]/@href')[0]html = s.get(url_login).content
selector = etree.HTML(html)
password = selector.xpath('//input[@type="password"]/@name')[0]
vk = selector.xpath('//input[@name="vk"]/@value')[0]
action = selector.xpath('//form[@method="post"]/@action')[0]
capId = selector.xpath('//input[@name="capId"]/@value')[0]
url_1 = '.php?cpt='+capId
path = "d://downloads//1.GIF"
data = urllib.urlretrieve(url_1,path)
print'Pic Saved!'
print capId
print action
print password
print vk
code = raw_input('please input the:')
new_url = url_login + action
print new_url
data = {'backTitle' : u'手机新浪网','backURL' : '', #此处请填写微博地址'capId' : capId,'code': code,'mobile' : '登录名',password : '密码','remember' : 'on','tryCount' : '','vk' : vk,'submit' : u'登录'}newhtml = s.post(new_url,data=data).content
new_selector = etree.HTML(newhtml, parser=etree.HTMLParser(encoding='UTF-8'))
page = new_selector.xpath('//input[@type="hidden"]/@value')[0]
print page
for i in range(1,int(page)+1):url_page = '=%s'%iurl_page_1 = s.get(url_page).contentnew_selector_1 = etree.HTML(url_page_1, parser=etree.HTMLParser(encoding='UTF-8'))content = new_selector_1.xpath('//span[@class="ctt"]')for each in content:text = each.xpath('string(.)')print text

本文标签：新浪微博爬虫模拟登录（爬手机版）

版权声明：本文标题：新浪微博爬虫模拟登录（爬手机版）内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.betaflare.com/biancheng/1706160161a678641.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

新浪微博爬虫模拟登录（爬手机版）

新浪微博爬虫模拟登录（爬手机版）

新浪微博爬虫模拟登录

更多相关文章

新浪微博爬虫模拟登录（爬手机版）

发表评论

推荐文章

频繁的系统更新会影响电脑性能吗？

'我的电脑'不见踪影了？教你快速在 Win10 上恢复显示方法！

在Linux中探索img文件：简单操作教程

入门即精通：DevEco Studio 2.2 虚拟机安装指南及APP开发攻略

电脑投影仪无缝连接？3个简便方法，让你成为专业操作手

热门文章

Flash开发秘籍：堆内存优化与堆外内存的妙用

IE主页玩失踪？手把手教你搞定注册表修复问题！

当心！你的电脑可能缺少msvcp110.dll，立即获取解决方案！

用EasyBCD修复你的Windows系统引导故障，一步到位！

南卡、漫步者、韶音：深入比较，谁是开放式耳机的王者？

键盘使用秘籍：让你成为电脑操作大师！

WinCE设备上安装Microsoft .Net Compact Framework 2.0：如何挑选合适的cab包

共享打印机遇到难题？网络连接不了，怎么办？

想忘掉Chrome的地址栏吗？轻松几步，搞定历史痕迹

告别繁琐，Tenda便携式路由助你玩转IPTV

最新文章

金融建模中Excel与VBA的超级组合拳

现代计算的新篇章：把FEMCFD求解器封装为PyTorch或JAX函数

突破视觉强化学习训练的‘视觉’障碍，MJX带来高效方案

Excel高手必备：TL431可调电压基准源的求解秘技

高性能物理世界：MuJoCo XLA在Unity中的应用揭秘

Excel宏数量爆炸，开机慢如乌龟？轻松破解攻略！

Open-AutoGLM性能瓶颈大揭秘：破解编译三大障碍

MuJoCo高手之路：从入门到精通的进阶指南

深度学习加速新纪元：张量引擎TBE与深度学习编译器，加速你的训练与推理

MJX秘籍：5倍加速技巧，改写强化学习训练规则！

清华同方超锐L60P 龙芯 3A600032GB1TB集显麒麟统信永久版系统参数报价

清华同方超锐L60P 龙芯 3A600016GB512GB集显KOS麒麟系统试用版参数报价

清华同方超锐L60P 龙芯 3A600032GB1TB集显麒麟统信永久版系统+WPS参数报价

清华同方超锐L60P 龙芯 3A600016GB512GB集显麒麟统信永久版系统参数报价

联想开天X1f G1d 飞腾D3000M16GB1TB集显国防版麒麟统信系统参数报价