java新闻爬虫_java实现简单的爬虫之今日头条|电子爱好者

admin管理员组
文章数量:1660818

前言

需要提前说下的是，由于今日头条的文章的特殊性，所以无法直接获取文章的地址，需要获取文章的id然后在拼接成url再访问。下面话不多说了，直接上代码。

示例代码如下

public class Demo2 {

public static void main(String[] args) {

// 需要爬的网页的文章列表

String url = "http://www.toutiao/news_finance/";

//文章详情页的前缀(由于今日头条的文章都是在group这个目录下,所以定义了前缀,而且通过请求获取到的html页面)

String url2="http://www.toutiao/group/";

//链接到该网站

Connection connection = Jsoup.connect(url);

Document content = null;

try {

//获取内容

content = connection.get();

} catch (IOException e) {

e.printStackTrace();

}

//转换成字符串

String htmlStr = content.html();

//因为今日头条的文章展示比较奇葩,都是通过js定义成变量,所以无法使用获取dom元素的方式获取值

String jsonStr = StringUtils.substringBetween(htmlStr,"var _data = ", ";");

System.out.println(jsonStr);

Map parse = (Map) JSONObject.parse(jsonStr);

JSONArray parseArray = (JSONArray) parse.get("real_time_news");

Map map=null;

List maps=new ArrayList<>();

//遍历这个jsonArray,获取到每一个json对象,然后将其转换成Map对象(在这里其实只需要一个group_id,那么没必要使用map)

for(int i=0;i

map = (Map)parseArray.get(i);

maps.add((Map)parseArray.get(i));

System.out.println(map.get("group_id"));

}

//遍历之前获取到的map集合,然后分别访问这些文章详情页

for (Map map2 : maps) {

connection = Jsoup.connect(url2+map2.get("group_id"));

try {

Document document = connection.get();

//获取文章标题

Elements title = document.select("[class=article-title]");

System.out.println(title.html());

//获取文章来源和文章发布时间

Elements articleInfo = document.select("[class=articleInfo]");

Elements src = articleInfo.select("[class=src]");

System.out.println(src.html());

Elements time = articleInfo.select("[class=time]");

System.out.println(time.html());

//获取文章内容

Elements contentEle = document.select("[class=article-content]");

System.out.println(contentEle.html());

} catch (IOException e) {

e.printStackTrace();

}

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

本文标签：爬虫头条简单今日新闻

版权声明：本文标题：java新闻爬虫_java实现简单的爬虫之今日头条内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1729881722a1216004.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

Android基于viewpager和tablayout实现类似今日头条和腾讯新闻的界面

2小时前

简介在现在的安卓开发中，大部分需求会经常遇上viewpager和tablayout组合实现的功能，然后通过网络请求拿到数据然后显示在页面上，之前自己也在网上搜索过一些文章

头条php,基于PHP的免费新闻头条接口查询

2小时前

1、开通接口新闻头条接口服务使用的聚合数据提供的免费接口，每天可以100次免费调用。可以通过https:www.juhedocsapiid235注册及开通。 2、新闻头条列表查询 ** * 聚合新闻头条

（android高仿系列）今日头条 --新闻阅读器（二）

2小时前

高仿今日头条 --- 第一篇：（android高仿系列）今日头条 --新闻阅读器 （一） 上次，已经

java新闻爬虫_java实现简单的爬虫之今日头条

2小时前

前言需要提前说下的是，由于今日头条的文章的特殊性，所以无法直接获取文章的地址，需要获取文章的id然后在拼接成url再访问。下面话不多说了，直接上代码。

头条限流是什么原因_今日头条为什么会被限流今日头条封禁有期限吗

2小时前

头条号突然被限流了是什么原因？ 我不在乎这个！有些人会对他们写的东西感兴趣，并会继续努力工作。没人看到，自己的水平太差了，限制在极

ai爆文写作技巧，小白轻松上手今日头条掘金方法，可多平台

2小时前

今天分享，今日头条原创文章是目前各平台补贴类项目最高的，每天要做的就是抽出10分钟，找—条相关文章，然后用AlI工具生成原创文章，

青龙面板----今日头条脚本修复版

2小时前

安卓: 今日头条极速版老用户每天几毛，新用户可能收益高点普通版定时： 1-5915 6-23 * * * 激进版定时： 1-595 * * * * 多用户跑的

仿今日头条小程序搭建

2小时前

首先我们要明确小程序需要哪几种文件。微信小程序中就四种类型的文件： js ---------- JavaScrip文件json -------- 项目配置文件，负责窗口颜色等等wxml

python 爬取今日头条热点新闻

2小时前

嗯，今天就让我们来一起爬爬今日头条的热点新闻吧！ 今日头条地址：https:www.toutiaochnews_hot 在浏览器中打开今日头条的链接&#

Appium+Android SDK自动阅读今日头条极速版新闻

2小时前

from appium import webdriverfrom time import sleepimport json#获取进入主界面的配置idesired_caps{}desired_caps[platformName]

仿今日头条项目——首页（展示文章列表）

2小时前

1.头部导航栏组件 1、使用导航栏组件 2、在导航栏组件中插入按钮 <template><div class"home-container"><van-n

今日头条 mysql_今日头条的核心技术细节是什么？

2小时前

今日头条创立于2012年3月，到目前仅 6 年时间。从十几个工程师开始研发，到上百人，再到200余人。产品线由内涵段子，到今日头条&#xff0c

iOS仿今日头条顶部新闻分页

2小时前

仿今日头条顶部新闻分页近日闲来无事总是刷头条,突然发现了一个有趣的现象,如下图: 当你滑动或者点击分页的名字的时候,不管当时那个分页在哪,最后都会被滚动到最中间.我又去翻了其他的资讯类的app,发现基本很多都是这样做的.抱着求知的心态,

（android高仿系列）今日头条 --新闻阅读器（三）完结、总结篇

2小时前

从写第一篇今日头条高仿系列开始，到现在已经过去了1个多月了，其实大体都做好了，就是迟迟没有放出来，因为我觉得，做这个东西也是有个过

java爬虫系列（五）——今日头条文章爬虫实战

2小时前

文章目录项目源码爬虫目标爬虫设计思路爬取方式动态解析网页方式爬取解析接口方式爬取解析思路破解入口接口对比破解加密参数参数生成方式解析js 分析接口返回值解析原文地址 java项目解析基本功能队列和线程池操作界面——swagger2 总结

Django项目实践（爬取今日头条的头条热榜）

2小时前

本文按照下列项目来进行说明。 mysite2 - manage.py - mysite2 - app01 1、打开今日头条，对网页进行分析并爬取获取请求URL 分析网站的数据来源后。开始构造headers&a

命令行版今日头条——上班“摸鱼”的好帮手

2小时前

简介上班无聊怎么办？想刷新闻怎么办？怕被发现怎么办？ 命令行版今日头条帮你忙，摸鱼神器~ 喜欢请帮忙点下star 项目说明项目地址功能&a

python爬取今日头条瀑布流_连续动作：滚屏采集瀑布流网页—以头条新闻为例

2小时前

常见的网页大多数在页面下方会有翻页的按钮，比如“下一页”、“加载更多”，这类网页设置翻页就可以搞定，但是瀑布流网页没有这些按钮，而是随着鼠标滚动会不停的

利用鸿蒙开发新闻头条

2小时前

大家好，我是老王~ 本来计划要做一个本地数据库存储相关的项目，但是官方的小伙伴给我说，ArkUI数据库目前不支持最新的模拟器。所以只能另想其他的，想了大概一周，期间也在调研技术能否实现，纠结的很，想着要不断的突破自己，至少比上一次的

C++项目（1）：学生信息管理系统（简单教学版）

1小时前

严肃点参考了这篇文章又觉得还有点意义的同学，请在你们汇报的报告上，把这篇文章作为参考文献… 不然，以后小心被查说成“学术不断”、“学术不规范”…… 看见有人抄袭了本文

电子爱好者 - 最新技术资讯及电子产品介绍！

java新闻爬虫_java实现简单的爬虫之今日头条

更多相关文章

Android基于viewpager和tablayout实现类似今日头条和腾讯新闻的界面

头条php,基于PHP的免费新闻头条接口查询

（android高仿系列）今日头条 --新闻阅读器 （二）

java新闻爬虫_java实现简单的爬虫之今日头条

头条限流是什么原因_今日头条为什么会被限流 今日头条封禁有期限吗

ai爆文写作技巧，小白轻松上手今日头条掘金方法，可多平台

青龙面板----今日头条脚本修复版

仿今日头条小程序搭建

python 爬取今日头条热点新闻

Appium+Android SDK自动阅读今日头条极速版新闻

仿今日头条项目——首页（展示文章列表）

今日头条 mysql_今日头条的核心技术细节是什么？

iOS仿今日头条顶部新闻分页

（android高仿系列）今日头条 --新闻阅读器 （三） 完结 、总结 篇

java爬虫系列（五）——今日头条文章爬虫实战

Django项目实践（爬取今日头条的头条热榜）

命令行版今日头条——上班“摸鱼”的好帮手

python爬取今日头条瀑布流_连续动作：滚屏采集瀑布流网页—以头条新闻为例

利用鸿蒙开发新闻头条

C++项目（1）：学生信息管理系统（简单教学版）

发表评论

推荐文章

【2024年5月备考新增】《软考高项论文专题 （10）进度管理（合集）》

WIN10如何使用Free Pascal 解决乱码等不兼容问题

计算机录入中级职称,如何提前适应中级职称机考模式

VMware 主机模式下无法上网 或ping不通物理机

Excel 使用技巧集锦——163种技巧

热门文章

国科大邮箱绑定qq邮箱app ios

计算机由于exls表格经常卡,excel表格数据多总是卡-EXCEL表格中的不多，但是老是卡，怎么办？...

奥拉星插件flash下载手机版下载安装_奥拉星页游互通版H5

使用MATLAB将raw格式图片转换为txt

无线路由器WEP加密破解--蹭网(转)

Qtqml仿制爱奇艺UWP客户端

PCDN躺赚项目详谈系列一前期准备1

android WebView加载网页视频

在Linux服务器上如何配置用户的sudo权限，教你配置如何让用户只能读写文件、上传文件、下载文件，但是不能删除文件

Oracle Analyze

最新文章

linux运行微软运行库,Windows Desktop Runtime(微软官方运行库) V3.1.6

Windows Server 2008 R2微软官方下载

Windows 10 microsoft store微软商店 0x800700B7解决

在linux安装windows应用商店,Ubuntu 已在微软官方应用商店 Windows Store上免费提供下载...

如何在微软的下载商店找到下载的图片?

redis下载安装启动的详细步骤（Windows）

微软内存测试软件,内存检测工具Microsoft Windows Memory Diagnostic是用说明

微软Windows7自带tsmmc.msc远程桌面管理工具

Windows7不能使用MS-Speech语音库的解决方法

Windows10企业版找不到微软商店以及微软商店打不开问题解决

windows软件兼容性测试工具,win8.1软件兼容性检测微软官方有妙招

[下载]微软Windows命令行PowerShell 2.0

Windows10最新微软纯净安装版制作教程

云计算 第四章 微软云计算 Windows Azure

微软晓晓朗读录音工具windows-文字转语音

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

（android高仿系列）今日头条 --新闻阅读器（二）

头条限流是什么原因_今日头条为什么会被限流今日头条封禁有期限吗

（android高仿系列）今日头条 --新闻阅读器（三）完结、总结篇

【2024年5月备考新增】《软考高项论文专题（10）进度管理（合集）》

VMware 主机模式下无法上网或ping不通物理机

云计算第四章微软云计算 Windows Azure

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载