基于百度AI的内容审核平台+Jsoup网络爬虫开发的一个自动审核小说程序（以纵横中文网为例）|电子爱好者

admin管理员组
文章数量:1574582

这个程序是我的毕业设计所设计的一个程序，由于时间原因，可能有些地方或者细节没有考虑清楚，请各位多多包涵
最后的源代码工程我已经上传，有需要的可以自取，希望可以帮助到大家

程序简介

此程序使用Java语言进行开发，具体的功能有以下几点：
1、利用网络爬虫技术获取指定网页（纵横中文网）上的指定数据（小说），然后将爬取到的小说以小说名称、章节的形式保存在本地的硬盘中，并且利用数据库对小说的储存位置进行存放。
2、利用百度人工智能中的内容审核平台里的文本审核功能对爬取的小说进行审核，输入小说名称后，系统自动在数据库里面通过名字查找小说的每一章节在本机硬盘的储存位置。然后根据储存位置查找小说的内容并进行文本内容审核。审核完毕之后返回审核结果。
3、对返回的审核结果进行分析，在可视化的界面上输出相应的审核结果（合规，不合规），并且对于不合规的情况，输出具体的不合规理由（文本色情，暴恐违禁，政治敏感，低俗辱骂，低质灌水等等），然后对于违禁词语单独输出，让用户可以对文本进行有针对性的修改操作。

开发过程

程序的结构如下图所示：

网页数据信息的获取

首先，获取指定网页的源代码，然后对源代码进行过滤选择操作，得出所需要的数据信息，步骤如下：
1、运用Jsoup的connect方法来获取网页的源代码
2、运用Jsoup的select方法对获取到的源代码进行解析，解析出每一章节的具体地址（url地址）
3、设置循环，进入每一章节的网页界面，在获取了网页也源代码后过滤选择获得相应的数据（章节的小说内容）
4、将获取到的数据储存到本机的硬盘中
5、在数据库里创建一个新的数据表，名字为小说的名称，并且将每一章节的名称，在本机硬盘的地址写入数据表中。
在程序开发时需要注意的事项：
1、在获取网页的代码时需要注意反爬虫程序
由于很多网站都有反爬虫程序，因此必须对请求加上一些操作，例如说加上浏览器的具体类型，设置超时时间等等。这是为了让请求变得更像手工操作的请求而非爬虫程序，从而避免反爬虫程序的检测。
连接网页代码如下：

Document doc = Jsoup.connect(url)
.userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36") 		            
.timeout(999999999) 		            
.get();

2、在过滤网络源代码时需要注意目标数据的位置
程序首先需要找出小说每一章的url地址，然后再访问每一个章节的地址来获得需要的小说内容，因此这两个操作中的目标数据是不一样的。所以在过滤网络代码时需要设置不同的过滤条件从而得到需要的目标数据。
1、对于找出小说每一章的url地址，选择代码如下：

Elements ele = doc.select(".volume-list");
Elements tag = ele.select("a");
taghref = tag.get(i).attr("href");

2、对于找出小说的名称，选择代码如下：

Elements filename1 = doc.select(".container");
Elements filename2 = filename1.select("h1");
String filename3 = filename2.text();//这个为这一本书的名称（也为创建的小文件夹的名称）

3、对于找出每一章节的名称，选择代码如下：

Elements titlehtml = docs.select("title");
String title = titlehtml.text();

4、对于找出每一章节的内容，选择代码如下：

Elements eles = docs.select(".content");
Elements tags = eles.select("p");
String text = tags.text();

将目标数据写入本地硬盘

在获取到了所需要的目标数据之后，就要在本机中创建一个文件夹并且把数据保存进里面，以便在后续的文本敏感性检测环节中检测。
在这个环节中，主要步骤如下：
1、根据小说名称检测本地硬盘中是否存在对应的文件夹，若不存在则创建一个新的文件夹
实现代码如下：

File file1=new File("C:\\Users\\可乐我只喝无糖\\Desktop\\books\\"+filename3);
   if(!file1.exists())
   {
   
    file1.mkdir();//创建文件夹
	}

2、在文件夹中创建以章节名称为名字的txt文件，并把爬取到的章节内容存进txt文件中
需要注意的是：在Java语言中file文件的分割形式为“\”,然而如果将文件的保存位置以这种形式储存进数据库时，MySQL数据库会自动忽略“\”字符从而导致后面的读取操作失败，因此需要将“\”转化成“\”然后再保存进数据库中。
实现代码如下：

String title = titlehtml.text();//这是每一章节的标题
File file = new File(file1+"\\"+title+".txt");
String address = file.toString();
address = address.replace

本文标签：爬虫中文网为例程序内容

版权声明：本文标题：基于百度AI的内容审核平台+Jsoup网络爬虫开发的一个自动审核小说程序（以纵横中文网为例）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1727772988a1128785.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

基于百度AI的内容审核平台+Jsoup网络爬虫开发的一个自动审核小说程序（以纵横中文网为例）

程序简介

开发过程

网页数据信息的获取

将目标数据写入本地硬盘

更多相关文章

linux输出内容到屏幕上,Linux 屏幕输出

MacBook的程序坞（任务栏）主屏副屏幕切换

linux 在字符界面中如何查看超出屏幕显示范围的内容

0.96寸OLED12864显示屏设计方案（原理图+PCB+BOM表+程序）

华为mate30微信锁屏不显示内容，微信来消息锁屏不显示详情怎么回事？

小程序canvas内容实现不同尺寸屏幕自适应

关于Kali Linux 2020.1显示问题的调整办法 | 终端、桌面等显示内容太小

C#：表白程序（满屏玫瑰花）-让屏幕开满玫瑰花

XShell修改缓冲区大小（以使其能够显示更多的内容）

电脑硬件小白 求大神推荐一款程序媛适用的笔记本

此程序将从您的计算机删除adobe,Adobe 强烈建议立即删除 Flash Player ，苹果 macOS 电脑如何卸载...

微信小程序把base64的图片保存到手机相册

Arduino蓝牙无线自动下载程序Arduino无线下载

手机APP爬虫技巧（Fiddler+雷电模拟器进行APP抓包）

微信小程序如何登陆管理后台并且绑定开发者账号？

DIV+css内容太长，实现点击展开余下全文

关于docnment.write() 会清空原来的内容

A-计算机毕业设计定制:95185危险品监管系统（免费领源码）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C# 、C++、python、数据可视化、大数据、全套文案

基于百度AI的内容审核平台+Jsoup网络爬虫开发的一个自动审核小说程序（以纵横中文网为例）

关于IOS上架被拒5.2.1的内容分析和修改措施

发表评论

推荐文章

css根据屏幕大小调用不同css，根据屏幕大小给不同宽度，分辨率

谷歌浏览器当中出现adobe flash player已被屏蔽是什么意思？

u盘如何安装linux,如何运用U盘进行centos6.9的安装

oc引导windows蓝屏_蓝屏错误疑难解答

C# 实现预览dwg文件完整源代码(无需autocad环境)

热门文章

uniapp css width宽度100%导致界面右边超出屏幕或者padding导致出现滚动条

屏幕尺寸、分辨率、像素密度三者关系

计算机科学与技术专业笔记本电压,笔记本充电器

Python 手把手教你爬取淘宝的笔记本电脑数据

探讨关于Flash Player的更多线索（22.12.28更新）

python基础知识点总结

Java考试常考基础题(Examination Questions Parsing01)

java解密手机QQ聊天记录

如何解决Fiddler抓手机app数据包时候遇到的证书问题

CAD制图软件中的沿线布置功能如何使用？

最新文章

小迪学习笔记（内网安全）（常见概念和信息收集）

浙江省计算机三级网络及安全技术资料(最后有我考完后的想法）

WiFi曝出安全漏洞几近“裸奔”：运营商能借机收割一波红利吗?

破解光纤猫（光猫无线猫）路由功能的教程(电信天翼HG260)

实验一：网络扫描与网络侦查

技术分享：逆向破解华为路由器第三部分

黑客如何入侵你的汽车？

Android木马病毒com.schemedroid的分析报告

谁蹭了我的WiFi？浅谈家用无线路由器攻防

流密码和RC4

802.11无线权威指南第五章学习笔记

0x4 渗透测试 - 攻击思路与手段、工具分享

iPhoneiPad通过iSH安装Routersploit对路由器进行渗透【AlpineLinux】【Routersploit】【踩坑&amp;绕坑】

无线渗透学习笔记使用kali系统抓握手包以及跑字典相关

Esp8266 进阶之路33【安全篇】细聊HmacMD5的加密方法带来的安全性，并实践在esp8266上，最大保障传输的过程的信息的安全性。（附带Demo)

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

电脑硬件小白求大神推荐一款程序媛适用的笔记本

iPhoneiPad通过iSH安装Routersploit对路由器进行渗透【AlpineLinux】【Routersploit】【踩坑&绕坑】

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载