python爬取北京公交数据-软件玩家

admin管理员组
文章数量:1487745

python爬取北京公交数据

代码语言：python代码运行次数：0运行复制

# -*- coding = utf-8 -*-
# @Author ：ZDHXN
# @File ：beijingbus.py
# @Software : PyCharm
import csv
import urllib.request
from time import sleep

from bs4 import BeautifulSoup as bs
from urllib.parse import urljoin


headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}
# 存放所有数据列表
all_data_list = []


# 获取公交路线详情页url
def get_page_url(urls):
    req = urllib.request.Request(urls, headers=headers)
    html = urllib.request.urlopen(req)
    soup = bs(html.read(), 'html.parser')
    lu = soup.find('div', class_='list clearfix')
    hrefs = lu.find_all('a')
    for k in hrefs:
        urls = urljoin(url, k['href'])
        get_page_info(urls)


# 获取公交路线详情页目标数据信息
def get_page_info(urls):
    req = urllib.request.Request(urls, headers=headers)
    html = urllib.request.urlopen(req)
    soup = bs(html.read(), 'html.parser')
    # 使用BeautifulSoup的select()方法
    # 线路类型
    line_type = soup.select('div.layout-left > div > div.info > h1 > a')[0].string
    try:
        # 总里程
        mileage = soup.select('div.layout-left > div.change-info.mb20')[0].string
    except:
        mileage = ""

    # 使用BeautifulSoup的find()、find_all()方法爬取更多的相关数据
    # 线路名称
    line_name = soup.find("h1", {"class": "title"}).a.previous_sibling.string
    info_list = soup.find("ul", {"class": "bus-desc"})
    # 运行时间
    run_time = info_list.find_all("li")[0].string
    # 参考票价
    ticket = info_list.find_all("li")[1].string
    # 公交公司
    company = info_list.find_all("li")[2].text
    # 最后更新
    update_last = info_list.find_all("li")[3].div.previous_sibling.string

    line_name_list = soup.find_all("div", {"class": "trip"})
    line_list = soup.find_all("div", {"class": "bus-lzlist mb15"})

    wang_line_list = []
    fan_line_list = []

    wang_line_name = ""
    fan_line_name = ""

    for i in range(len(line_list)):
        if i == 0:
            wang_line_list = line_list[0].find_all(["li"])
            wang_line_name = line_name + "(" + line_name_list[0].string + ")"
        else:
            fan_line_list = line_list[1].find_all(["li"])
            fan_line_name = line_name + "(" + line_name_list[1].string + ")"

    # 公交路线-往(环形线默认为此项)
    wang_info = wang_line_name + "\n"
    # 公交路线-返
    fan_info = fan_line_name + "\n"

    for i in range(len(wang_line_list)):
        if i != (len(wang_line_list) - 1):
            if wang_line_list[i].find_all(["a"]) != []:
                for k in wang_line_list[i].find_all(["a"]):
                    if k.get('title'):
                        continue
                    else:
                        wang_info += wang_line_list[i].find_all(["a"])[0].string + ","
        else:
            wang_info += wang_line_list[i].string
    if len(fan_line_list) != 0:
        for i in range(len(fan_line_list)):
            if i != (len(fan_line_list) - 1):
                if fan_line_list[i].find_all(["a"]) != []:
                    for k in fan_line_list[i].find_all(["a"]):
                        if k.get('title'):
                            continue
                        else:
                            fan_info += fan_line_list[i].find_all(["a"])[0].string + ","
            else:
                fan_info += fan_line_list[i].string

    result_list = [line_name, line_type, run_time, mileage, ticket, company, update_last, wang_info, fan_info]
    all_data_list.append(result_list)


# 将数据存储到mysql



if __name__ == '__main__':
    url = ''
    url_list = url + '/list%d'
    for k in range(1, 10):
        urls = url_list % k
        get_page_url(urls)

    # 存储到csv文件
    field_name = ["线路名称", "线路类型", "运行时间", "总里程", "参考票价", "公交公司", "最后更新", "公交路线-往(环形线默认为此项)", "公交路线-返"]
    path = "f:/data/test/bus_info.csv"
    with open(path, 'w', newline='', encoding='utf-8-sig') as f:
        writer = csv.writer(f)
        writer.writerow(field_name)
        writer.writerows(all_data_list)

    # 存储到mysql数据库

本文标签： python爬取北京公交数据

版权声明：本文标题：python爬取北京公交数据内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/shuma/1754759185a3179246.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

python爬取北京公交数据

python爬取北京公交数据

更多相关文章

python爬取北京公交数据

发表评论

推荐文章

单细胞空间转录组分析流程学习(一)

小代课堂开课了！！！今天学习深入了解指针（1）

C++第八弹

【Linux】为什么创建目录文件，硬链接数是2；创建普通文件时，硬链接数是1？（超详细图文解答）

深入探讨在Matplotlib中自定义颜色映射与标签的实用指南

热门文章

文心一言 VS 讯飞星火 VS chatgpt （374）

【Linux】————磁盘与文件系统

CAN总线的OSI模型

HTML【知识改变命运】01基础介绍

轮转数组（超详细！）

【在Linux世界中追寻伟大的One Piece】Jsoncpp

ES6: 对象和数组解构

SQL索引优化,菜单列表优化

AbstractQueuedSynchronizer、Unsafe概述

比较两个相似 PDF 文件的内容差异

最新文章

【免费下载】联想拯救者Y7000 2020H原厂Win10系统镜像：重拾纯净体验

【免费下载】 Java 11 下载 - 版本 11.0.17 (Windows 各版本)

【免费下载】 Windows7旗舰版简体中文ISO镜像下载：轻松获取正版系统安装镜像

【免费下载】 Ventory-u盘启动制作工具：让你的Ubuntu之旅更加顺畅

【免费下载】 Ventory-u盘启动制作工具：轻松打造高效启动盘

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

惠普暗影精灵8 Pro i7 12700H16GB512GBRTX3050参数报价

联想开天N80Z KX U6780A16GB512GB正版麒麟统信系统参数报价

联想开天N80Z KX U6780A16GB512GB正版麒麟统信系统wps+360杀毒参数报价

联想开天N80Z KX U6780A16GB1TB麒麟统信GF版系统参数报价

联想开天N80ZKX U6780A16GB512GB参数报价

编程频道|软件玩家 - 软件改变生活！

python爬取北京公交数据

python爬取北京公交数据

更多相关文章

python爬取北京公交数据

发表评论

推荐文章

单细胞空间转录组分析流程学习(一)

小代课堂开课了！！！今天学习深入了解指针（1）

C++第八弹

【Linux】为什么创建目录文件，硬链接数是2；创建普通文件时，硬链接数是1？（超详细图文解答）

深入探讨在Matplotlib中自定义颜色映射与标签的实用指南

热门文章

文心一言 VS 讯飞星火 VS chatgpt （374）

【Linux】————磁盘与文件系统

CAN总线的OSI模型

HTML【知识改变命运】01基础介绍

轮转数组（超详细！）

【在Linux世界中追寻伟大的One Piece】Jsoncpp

ES6: 对象和数组解构

SQL索引优化,菜单列表优化

AbstractQueuedSynchronizer、Unsafe概述

比较两个相似 PDF 文件的内容差异

最新文章

【免费下载】 联想拯救者Y7000 2020H原厂Win10系统镜像：重拾纯净体验

【免费下载】 Java 11 下载 - 版本 11.0.17 (Windows 各版本)

【免费下载】 Windows7旗舰版简体中文ISO镜像下载：轻松获取正版系统安装镜像

【免费下载】 Ventory-u盘启动制作工具：让你的Ubuntu之旅更加顺畅

【免费下载】 Ventory-u盘启动制作工具：轻松打造高效启动盘

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

惠普暗影精灵8 Pro i7 12700H16GB512GBRTX3050参数报价

联想开天N80Z KX U6780A16GB512GB正版麒麟统信系统参数报价

联想开天N80Z KX U6780A16GB512GB正版 麒麟统信 系统wps+360杀毒参数报价

联想开天N80Z KX U6780A16GB1TB麒麟统信GF版系统参数报价

联想开天N80ZKX U6780A16GB512GB参数报价

【免费下载】联想拯救者Y7000 2020H原厂Win10系统镜像：重拾纯净体验

联想开天N80Z KX U6780A16GB512GB正版麒麟统信系统wps+360杀毒参数报价