【大数据搜索引擎】网络爬虫南华实验报告（2021年版）|电子爱好者

admin管理员组
文章数量:1578023

实验7：设计一个网络爬虫的算法，动态获取全国新型冠状肺炎疫情。

实验8：提交一篇与实验作业7相对应的网络爬虫实验报告。

实验作业7+实验作业8下载链接
https://download.csdn/download/qq_37636795/18398399

（作业是博主认真做的，请多多支持！！！资源中有实验作业7和实验作业8，实验作业7提交epidemic.db，epidemic.py，全国疫情最新信息.xls三个文件；实验作业8单独提交实验报告即可）

南华大学
计算机科学与技术学院
实验报告

（ 2020 ~2021 学年度第二学期）

课程名称搜索引擎
实验名称网络爬虫

姓名学号

专业软件工程班级

地点八教606 教师肖建田

目录
一、实验目的 3
二、实验环境 3
三、实验材料 3
四、实验设计 3
五．结果和性能分析 3
六．有待解决的问题 3
七．实验总结 3

一、实验目的
了解网络爬虫的意义
掌握网络爬虫的基本方法

二、实验环境
Windows 10
Python 3.9
三、实验材料
Firefox 浏览器
Sqlite 数据库
pycharm开发工具
四、实验设计
1.数据库设计
create table epidemic
(
id integer – 主键id
primary key autoincrement,
title text, – 标题
newsUrl text, – 新闻主体url
publish_time text, – 发布时间
contents text – 新闻内容
);

2.程序代码
import re
import sqlite3

import xlwt
from bs4 import BeautifulSoup
from selenium import webdriver

browser = webdriver.Firefox()

定义正则

findnewUrl = repile(’<a href="(.?)".>’)
findTitle = repile(’<a.>(.?)’)
findPublishTime = repile(’(.*?)’)

def getContent(url):
“”"
获取新闻主体
:param url: url地址
:return:
“”"
browser.get(url)
# 获取页面资源
html = browser.page_source
# 解析页面,获取文档树
doc = BeautifulSoup(html, “lxml”)
contents_Ele = doc.select(“div#xw_box > p”)
contents = “”

for content_Ele in contents_Ele:
    childrens = content_Ele.children
    for children in childrens:
        contents += str(children.string)

return contents

def getData(baseUrl):
“”"
爬取网页数据
:param baseUrl:
:return:
“”"
tempUrl = baseUrl

for i in range(1, 3):
    if i != 1:
        baseUrl = tempUrl + "_" + str(i) + ".shtml"
    else:
        baseUrl = tempUrl + ".shtml"

    browser.get(baseUrl)
    # 获取页面资源
    html = browser.page_source
    # 解析页面,获取文档树
    print( "开始解析 " + baseUrl )
    bs = BeautifulSoup(html, "html.parser")
    print(bs)
    print("===================================================")


    dataList = []

    # 所有的新闻
    newsEle = bs.select("div[class='list']>ul>li")

    for newEle in newsEle:
        new_dict = []
        newEle = str(newEle)

        title = re.findall(findTitle, newEle)[0]
        new_dict.append(title)

        newUrl = re.findall(findnewUrl, newEle)[0]
        new_dict.append("http://www.nhc.gov" + newUrl)

        publish_time = re.findall(findPublishTime, newEle)[0]
        new_dict.append(publish_time)

        # http://www.nhc.gov/
        content = getContent("http://www.nhc.gov" + newUrl)
        new_dict.append(content)

        print(new_dict)

        dataList.append(new_dict)

return dataList

def init_db(dbPath):
“”"
创建数据库和表
:param dbPath:
:return:
“”"
sql = ‘’’
create table epidemic(
id integer primary key autoincrement,
title text ,
newsUrl text ,
publish_time text,
contents text
)
‘’’

conn = sqlite3.connect(dbPath)
cursor = conn.cursor()
cursor.execute(sql)
connmit()
cursor.close()
conn.close()

def saveDataDB(dbPath, dataList):
“”"
保存数据到sqlite中
:param dbPath:
:param dataList:
:return:
“”"
init_db(dbPath)
conn = sqlite3.connect(dbPath)
cursor = conn.cursor()

for i in range(0, len(dataList)):
    data = dataList[i]

    for index in range(len(data)):
        data[index] = '"' + data[index] + '"'

    values = ",".join(data)

    sql = '''
        insert into epidemic(
            title,newsUrl,publish_time,contents
        )
        values(
            %s
        )
    ''' % values

    cursor.execute(sql)
connmit()
cursor.close()
conn.close()

def saveData(savePath, dataList):
“”"
保存数据到excel
:param savePath:
:param dataList:
:return:
“”"
workbook = xlwt.Workbook(encoding=“utf-8”)
sheet = workbook.add_sheet(‘最新疫情消息’, cell_overwrite_ok=True)

col = ['标题', '详情链接', '发布时间', '新闻内容']
for i in range(0, len(col)):
    sheet.write(0, i, col[i])
for i in range(0, len(dataList)):
    for j in range(0, len(col)):
        sheet.write(i, j, dataList[i][j])

workbook.save(savePath)

def main():
baseUrl = “http://www.nhc.gov/xcs/yqtb/list_gzbd”

# 1. 爬取网页
dataList = getData(baseUrl)
print("疫情数据爬取完毕!! ")

# 3. 保存数据到excel
savePath = ".\\全国疫情最新信息.xls"  # 路径
saveData(savePath, dataList)

print("成功保存到" + savePath + "中")

# 4. 保存数据到数据库
dbPath = "epidemic.db"
saveDataDB(dbPath, dataList)

print("成功保存到" + dbPath + "中")

if name == “main”: # 程序执行入口
main()
五．结果和性能分析
1. 控制台输出

excel 表的内容
sqlite 数据库数据

六．有待解决的问题
1. 在对网页数据的解析方面，不能非常熟悉的使用正则解析，导致某些数据存在冗余的字符，观感性不好。
2. 对于sqlite 的操作没有进行封装，导致了每一次执行代码就会执行一次数据库的初始化操作，故在每一次执行前都需要将数据库删除，否则会报错。
3. 在对某些网页进行爬取时，由于种种原因，无法得到正确的网页数据，导致了部分数据的丢失。
七．实验总结
爬虫是未来it 行业的一大趋势，爬虫的作用范围巨大，带开发的价值也很大。此实验是一个小型较简单的一个爬虫实验。其中也遇到了很多问题，例如数据丢失，解析出错等等。通过不断的查找资料以及爬虫相关的技术博客，最终基本上解决了上述问题。在爬取全国疫情信息的实验中，我学到了如何利用java语言和python语言进行爬取网页数据，也学会了python操作excel，sqlite操作以及re正则匹配等知识。

本文标签：南华爬虫搜索引擎报告数据

版权声明：本文标题：【大数据搜索引擎】网络爬虫南华实验报告（2021年版）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1727831144a1132615.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【大数据搜索引擎】网络爬虫南华实验报告（2021年版）

实验7：设计一个网络爬虫的算法，动态获取全国新型冠状肺炎疫情。

实验8：提交一篇与实验作业7相对应的网络爬虫实验报告。

定义正则

更多相关文章

搜索引擎使用技巧-更好地使用搜索

知识图谱搜索引擎

什么是搜索引擎营销（SEM）？

谷歌搜索引擎使用语法大全收集

搜索引擎的难点

搜索引擎收藏

关于搜索引擎使用方法的一些小窍门

Elasticsearch搜索引擎：ES的segment段合并原理

搜索引擎的查询方法

百度网盘搜索攻略:教你用哎哟喂啊等聚合搜索引擎快速找资源

OpenCV实现图片搜索引擎

搜索引擎快捷导航：一个简单的chrome插件（教程）

Iviews视频搜索引擎

最全的全球搜索引擎的介绍

如何避免搜索引擎爬虫产生的流量过大

u盘分区格式化后怎么恢复数据？实用三法大公开

u盘格式化后数据能恢复吗？这些数据恢复方法能帮到你

海鸥相机存储卡格式化如何恢复数据

不小心把U盘格式化了怎么恢复？教你轻松找回数据

不小心把电脑格式化了怎么恢复？这些步骤帮你找回数据

发表评论

推荐文章

ButterKnife 使用方法

寂静之城

双目立体视觉——视差图（stereo matching）三种相似度算法实现

[无线路由器] 如何启用Asus路由器上的硬盘休眠功能?

网站地图sitemap提交至百度、谷歌、Bing搜索引擎的方法

热门文章

cad剖切线的快捷键_CAD剖切快捷键命令（剖切命令怎么用）

网站管理员指南

无线安全之破解WPAWPA2 加密ＷiFi

Sentinel圣天诺加密狗简单使用教程(Linux)

python爬取app、返回的是加密数据_Python 逆向抓取 APP 数据

linux下使用qq2012的方法

通过log中的kill reson来定位应用是被谁杀掉的

银河麒麟桌面系统V10(SP1) apt 源安装 scrcpy 安卓手机投屏到电脑

Unable to create configured logger. Using emergency logger

搜索引擎的小技巧【可以组合起来使用】：

最新文章

vncapp下载，vncapp下载怎么下载？下载教程

AI换脸Roop-Unleashed，一键整合包教程

装系统cmd 所需命令

gradle各版本下载、高速下载小技巧

b站学习视频python_python脚本处理下载的b站学习视频

斐讯N1盒子刷OpenWRT系统结合内网穿透远程管理本地软路由

解决宝塔面板无法下载软件和更新应用的问题

在安卓手机上安装完整LINUX系统

Ubuntu 配置与简单优化(未完)

分享一些自用软件，学妹们用了都说好用！

【2025】springboot家装一体化服务平台背景（源码+文档+调试+答疑）

如何解决Windows 7中DLL文件缺失导致的文件无法打开问题？恢复系统正常运行的步骤

wps 2019智能填充

搬砖工具

袋鼠下载IOS用的一款不限速下载工具支持极速下载，在线秒播

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载