Python采集去哪儿旅游攻略(爬虫+数据分析),快过年了,这不得全家一起出去玩一次|电子爱好者

admin管理员组
文章数量:1531709

本次目的:

Python采集去哪儿旅游攻略(爬虫+数据分析)

内容介绍:

2021有哪些好玩的地方？今天用python分析适合年轻人的旅游攻略 (数据分析)

知识点：

requests  发送网络请求
parsel    解析数据
csv       保存数据

第三方库：

requests >>> pip install requests
parsel >>> pip install parsel

模块安装:

按住键盘 win + r, 输入cmd回车打开命令行窗口, 在里面输入 pip install 模块名

开发环境：

版 本： python 3.8

+python安装包安装教程视频
+pycharm 社区版专业版及激活码私我免费领取

python学习方向:

爬虫开发: 批量采集网络当中数据内容(图片 文本 视频 音频)
数据分析: 对大量数据 进行处理分析, 做可视化, 预测
网站开发: 搭建网站服务 例如 淘宝 京东 豆瓣 知乎...
人工智能

案例思路分析:

1. 明确今天的目的, 我们需要什么数据
    出发日期 天数 人均费用 人物 玩法 地点 浏览量...
2. 分析网页 确定我们的数据来源
    静态页面

代码实现步骤:

1. 向目标网站发送网络请求
    https://travel.qunar/travelbook/list.htm?order=hot_heat
2. 获取数据 网页源代码
3. 筛选我们需要的数据 所有的详情页链接
4. 向 每一个详情页 链接发送网络请求
5. 获取数据 网页源代码
6. 提取数据
    出发日期 天数 人均费用 人物 玩法 地点 浏览量...
7. 保存数据
8. 多页爬取
9. 做一个可视化分析 旅游景点推荐

导入模块

import random
import time
import requests     # 发送网络请求
import parsel       # 筛选数据模块
import csv          # 保存数据

爬取旅游网数据

1. 向目标网站发送网络请求

csv_qne = open('去哪儿.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.writer(csv_qne)
csv_writer.writerow(['地点', '短评', '出发时间', '天数','人均费用','人物','玩法','浏览量','详情页'])
for page in range(1, 201):
    url = f'https://travel.qunar/travelbook/list.htm?page={page}&order=hot_heat'
    # 写爬虫 没有太大区别
    # post里面需要加一些请求参数
    # 在网站开发当中 get请求不是很安全的请求 有长度限制的
    # post 更加安全 提交表单数据内容 没有长度限制的
    response = requests.get(url)
    # <Response [200]>: 访问成功了, 接下来我们就只需要拿数据就行了

2. 获取数据网页源代码

    html_data = response.text

3. 筛选我们需要的数据所有的详情页链接

    selector = parsel.Selector(html_data)
    # css选择器提取网页内容
    # 需要有网页开发基础
    url_list = selector.css('body > div.qn_mainbox > div > div.left_bar > ul > li > h2 > a::attr(href)').getall()
    for detail_url in url_list:
        detail_id = detail_url.replace('/youji/', '')
        detail_url = 'https://travel.qunar/travelbook/note/' + detail_id

4. 向每一个详情页链接发送网络请求

        response_1 = requests.get(detail_url)

5. 获取数据网页源代码

        data_html_1 = response_1.text

6. 提取数据

        #   出发日期 天数 人均费用 人物 玩法 地点 浏览量...
        selector_1 = parsel.Selector(data_html_1)
        # ::text 提取标签里面文本内容 *所有
        # 标题
        title = selector_1.css('.b_crumb_cont *:nth-child(3)::text').get()
        # 短评
        comment = selector_1.css('.title.white::text').get()
        # 浏览量
        count = selector_1.css('.view_count::text').get()
        # 出发日期
        date = selector_1.css('#js_mainleft > div.b_foreword > ul > li.f_item.when > p > span.data::text').get()
        # 天数
        days = selector_1.css('#js_mainleft > div.b_foreword > ul > li.f_item.howlong > p > span.data::text').get()
        # 人均费用
        money = selector_1.css('#js_mainleft > div.b_foreword > ul > li.f_item.howmuch > p > span.data::text').get()
        # 人物
        character = selector_1.css('#js_mainleft > div.b_foreword > ul > li.f_item.who > p > span.data::text').get()
        # 玩法
        play_list = selector_1.css('#js_mainleft > div.b_foreword > ul > li.f_item.how > p > span.data span::text').getall()
        play = ' '.join(play_list)
        print(title, comment, date, days, money, character, play, count, detail_url)
        csv_writer.writerow([title, comment, date, days, money, character, play, count, detail_url])
        time.sleep(random.randint(3, 5))
csv_qne.close()

数据分析代码

#%%

import pandas as pd
from pyecharts.commons.utils import JsCode
from pyecharts.charts import *
from pyecharts import options as opts

#%%

data = pd.read_csv('去哪儿_数分.csv')
data

#%%

data.info()

#%%

data = data[~data['地点'].isin(['攻略'])]
data = data[~data['天数'].isin(['99+'])]
data

#%%

data.drop_duplicates(inplace=True)

#%%

data['人均费用'].fillna(0, inplace=True)
data['人物'].fillna('独自一人', inplace=True)
data['玩法'].fillna('没有', inplace=True)

#%%

data['天数'] = data['天数'].astype(int)

#%%

data = data[data['人均费用'].values>200]
data = data[data['天数']<=15]
data

#%%

data = data.reset_index(drop=True)
data

#%%

def Month(e):
    m = str(e).split('/')[2]
    if m=='01':
        return '一月'
    if m=='02':
        return '二月'
    if m=='03':
        return '三月'
    if m=='04':
        return '四月'
    if m==

本文标签：爬虫出去玩去哪儿全家这不

版权声明：本文标题：Python采集去哪儿旅游攻略(爬虫+数据分析),快过年了,这不得全家一起出去玩一次内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1725442268a1023715.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

QQ音乐JS逆向爬虫，获取调皮的sign参数，我用python全都爬！

7天前

前言： 一周的时间又过去了，上一周分析了网易云的JS逆向爬虫，主要还是AES对称加密和RES非对称加密算法搞的鬼，导致很多人看了文章表示很难懂&

Python 万能代码模版：爬虫代码篇

7天前

你好，我是悦创。很多同学一听到 Python 或编程语言，可能条件反射就会觉得“很难”。但今天的 Python 课程是个例外，因为今天讲的 **Python 技能&

爬虫报错：During handling of the above exception, another exception occurred和TimeoutError

7天前

错误一：During handling of the above exception, another exception occurred:在处理上述异常期间，发生了另一个异常。造成这个问题的原因五花八门，属于疑难杂症之一。错误二

python爬虫之QQ空间登陆获取信息（超级详细）

6天前

一、背景： 前几天收到了一个需求：获取QQ好友，QQ群，QQ群友的账号。但是我却抓不到QQ程序的包就很尴尬，我觉得应该是QQ程序之

动态爬虫之qzone空间自动秒赞 - qq空间自动点赞

6天前

动态爬虫之qzone空间自动秒赞 - qq空间自动点赞步骤 1、分析列表请求 2、分析请求参数 3、分析点赞请求 4、分析点赞参数 5、编写执行代码我们上次分析过动态爬虫之QQ好友列表获取今天这篇继续按照上次的思路来，如果您看

小小白爬虫入门——selenium模拟登录qq空间

6天前

第一次写爬虫是因为想要爬小伙伴空间的说说和留言，结果卡在了验证码。目前还没有解决自动输入验证码的问题。遇到了一下一些问题：1.火狐浏览器需要下载geckodriver2.登录表单在fram

Python3爬虫实战——QQ空间自动点赞程序（上）

6天前

（前一段时间刚学了Python，觉得需要拿点东西来练手，于是就决定写个实用点的东西，也就是这条既能练手又能装逼的qq空间自动点赞的小爬虫）（好多不常联系的同学都因为我的秒赞对我表示了他们的感动，搞得我都不敢说我是用程序自动点赞的）（然而

爬虫（三）生成qq好友关系网(1)—登录并获得好友列表

6天前

本文目标 1.使用selenium实现账号密码登录qq空间 2.使用多线程爬取qq好友的说说评论点赞情况保存至本地 3.使用echarts将数据可视化开源地址：qq好友关系爬虫这是帮我同学做的他的qq好友关系网效

利用Python中selenium库爬虫实现中国裁判文书网自动登录批量下载功能——最新版详细教程！！———已更新高级检索功能

5天前

目录工具准备Chrome浏览器ChromeDriver驱动什么是ChromeDriver下载安装首先，需要检查Chrome浏览器的版本。请按照以下步骤进行：请记下这个版本号&#xff0c

稳扎稳打学爬虫09—chromedriver下载与安装方法

5天前

chromedriver下载与安装方法 1. 获取chromedriver.exe2. 将chromedriver.exe 应用程序复制到浏览器的安装目录下3. 将chromedriver.exe 应用程序复制到python安装目录下4.进

爬虫面试题(一)

5天前

1、什么是爬虫？【考核知识点：爬虫概念】爬虫又叫网页蜘蛛，是模拟人操作客户端向服务器发起请求，抓取数据的自动化程序或脚本。 2、爬虫的分类

爬虫逆向 js逆向常用工具简单介绍

5天前

古语有云：工欲善其事，必先利其器。作为逆向的开始，这个自然是无法避免的，毕竟js逆向的环境是浏览器，而浏览器自然为开发做了很多

Python爬虫突破封禁的6种常见方法

4天前

在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（

python爬虫之下载电影(不是爱奇艺腾讯视频等平台哈)

3天前

尝试在我的博客中添上程序流程图，如果画的有误或有修改意见请各位大佬提出，我会加以改进的本程序的流程准备工作 python安装完成pycharm安装完成lxml、asyncio、aiohtt

python爬虫学习笔记（一）—— 爬取腾讯视频影评

3天前

前段时间我忽然想起来，以前本科的时候总有一些公众号，能够为我们提供成绩查询、课表查询等服务。我就一直好奇它是怎么做到的，经过一番学习，原来是运用了爬虫的

用python写爬虫爬取腾讯视频的评论

3天前

python用的是3.5版本，用到的模块有urllib,re,json,request,codecs 在极客学院，慕课网，网易云课堂学了差不多一个月的python了&

用python实现的抓取腾讯视频所有电影的爬虫

3天前

原文地址：http:www.pythontabhtml2013pythonhexinbiancheng_0823547.html转载于:https:blog.51cto9399369173734

爬虫与搜索引擎的区别pyhton爬虫结构

3天前

一、什么是爬虫爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。百度的网络爬虫就叫做BaiduSpider 二、什么是搜索引擎搜索引擎：核心模

Python 一.开发环境搭建(分布式爬虫打造搜索引擎)

3天前

pycharm的windows安装和使用mysql和navicat的安装和使用vitualenv和vitualenvwrapper的安装和配置 1.pycharm的windows安装和使用进入pycharm官网https:www.j

Python 中 selenium 设置参数，不打开可视化页面，后台执行爬虫程序

2天前

前言在使用 selenium 浏览器渲染技术，爬取网站信息时，默认情况下就是一个普通的纯净的 chrome 浏览器，而我们平时在使用浏览器时，经常就添加一些插件，扩展，代理之类的应用。相对应的，当我们用chrome浏览器

电子爱好者 - 最新技术资讯及电子产品介绍！

Python采集去哪儿旅游攻略(爬虫+数据分析),快过年了,这不得全家一起出去玩一次

本次目的:

内容介绍:

知识点：

第三方库：

模块安装:

开发环境：

python学习方向:

案例思路分析:

代码实现步骤:

导入模块

爬取旅游网数据

1. 向目标网站发送网络请求

2. 获取数据 网页源代码

3. 筛选我们需要的数据 所有的详情页链接

4. 向 每一个详情页 链接发送网络请求

5. 获取数据 网页源代码

6. 提取数据

数据分析代码

更多相关文章

QQ音乐JS逆向爬虫，获取调皮的sign参数，我用python全都爬！

Python 万能代码模版：爬虫代码篇

爬虫报错：During handling of the above exception, another exception occurred和TimeoutError

python爬虫之QQ空间登陆获取信息（超级详细）

动态爬虫之qzone空间自动秒赞 - qq空间自动点赞

小小白爬虫入门——selenium模拟登录qq空间

Python3爬虫实战——QQ空间自动点赞程序（上）

爬虫（三）生成qq好友关系网(1)—登录并获得好友列表

利用Python中selenium库爬虫实现中国裁判文书网自动登录批量下载功能——最新版详细教程！！———已更新高级检索功能

稳扎稳打学爬虫09—chromedriver下载与安装方法

爬虫面试题(一)

爬虫逆向 js逆向常用工具简单介绍

Python爬虫突破封禁的6种常见方法

python爬虫之下载电影(不是爱奇艺腾讯视频等平台哈)

python爬虫学习笔记（一）—— 爬取腾讯视频影评

用python写爬虫爬取腾讯视频的评论

用python实现的抓取腾讯视频所有电影的爬虫

爬虫与搜索引擎的区别pyhton爬虫结构

Python 一.开发环境搭建(分布式爬虫打造搜索引擎)

Python 中 selenium 设置参数，不打开可视化页面，后台执行爬虫程序

发表评论

推荐文章

Win8系统108个运行命令 你能记住多少?(转)

chrome浏览器背景色更改

前后端分离项目

里程碑4刷Android和Linux双系统教程——win10系统win7虚拟机环境

Kylin-Desktop-V10-SP1-Release-hwe-2107-x86_64镜像文件

热门文章

【chatgpt】如何查找torch.Tensor的属性和方法

win10每次开机都要禁用网络连接 再启用才能上网

win10dos命令

树莓派没有路由器,连接手机热点使用

超威服务器开机只显示鼠标,【已解决】win10启动黑屏，只有鼠标

Ubuntu查看AMD显卡使用情况

amd显卡安装linux,告诉你完美安装Ubuntu 12.10最新AMD显卡驱动实战的方法及命令

AMD Radeon Software 卸载界面卡住解决办法 | Display Driver Uninstaller (DDU) | 驱动卸载

搜狗拼音输入法的快捷键和其他应用快捷键冲突

在不格式化原有系统盘的情况下，利用grub4dos+firadisk制作RamOS VHD Win7总结

最新文章

【win10专业版】win7xp双系统的启动顺序如何设置

win7卡在正在启动windows界面_分享一下WIN7系统下运行红警2的方法

世界上最简单系统安装方法(适合XP升级win7系统)

如何从xp升级到WIN7

VMware虚拟机安装windows server 2012 R2教程（图文版 超详细！）

计算机学win7画图,Win7系统自带画图工具如何打开？win7打开画图工具教程

Win7 XP双系统安装

python打包xp系统_python打包的exe为啥在XP上提示“不是有效的WIN32程序”

win7变成xp风格了怎么改回_win7

xp的服务器系统怎么安装win7系统教程,教你xp系统下安装win7双系统的教程

64位系统魔兽服务器不兼容,魔兽世界Win7下出现不兼容问题的解决办法

win7 兼容 因特尔十代_Window XP的不再更新：从第7代开始，Intel的CPU可能全面进入Win10时代...

win7装sql2000找不到服务器,WIN7 64位系统 SQL2000服务无法启动

win7 程序无响应 服务器,Win7系统下点击程序运行无响应怎么办？

xpvista系统升级为win7

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

2. 获取数据网页源代码

3. 筛选我们需要的数据所有的详情页链接

4. 向每一个详情页链接发送网络请求

5. 获取数据网页源代码

Win8系统108个运行命令你能记住多少?(转)

win10每次开机都要禁用网络连接再启用才能上网

VMware虚拟机安装windows server 2012 R2教程（图文版超详细！）

win7 兼容因特尔十代_Window XP的不再更新：从第7代开始，Intel的CPU可能全面进入Win10时代...

win7 程序无响应服务器,Win7系统下点击程序运行无响应怎么办？

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载