今日头条爬虫 java_Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻...|电子爱好者

admin管理员组
文章数量:1660702

0x0 背景

最近学习爬虫，分析了几种主流的爬虫框架，决定使用最原始的两大框架进行练手：

Jsoup&HttpUnit

其中jsoup可以获取静态页面，并解析页面标签，最主要的是，可以采用类似于jquery的语法获取想要的标签元素，例如：

//1.获取url地址的网页html

html = Jsoup.connect(url).get();

// 2.jsoup获取新闻标签

Elements newsATags = html.select("div#headLineDefault")

.select("ul.FNewMTopLis")

.select("li")

.select("a");

但是，有些网页(例如今日头条)并非是静态页面，而是在首页加载后通过ajax获取新闻内容然后用js渲染到页面上的。对于这种页面，我们需要使用htmlunit来模拟一个浏览器访问该url，即可获取该页面的html字符串。代码如下：

WebClient webClient = new WebClient(BrowserVersion.CHROME);

webClient.getOptions().setJavaScriptEnabled(true);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setActiveXNative(false);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setThrowExceptionOnScriptError(false);

webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

webClient.getOptions().setTimeout(10000);

HtmlPage htmlPage = null;

try {

htmlPage = webClient.getPage(url);

webClient.waitForBackgroundJavaScript(10000);

String htmlString = htmlPage.asXml();

return Jsoup.parse(htmlString);

} finally {

webClient.close();

}

0x1 搜狐、凤凰、网易爬虫

这三家的页面都是静态的，因此代码都差不多，只要分析页面标签找到对应的元素，提取出想要的内容即可。

爬虫基本步骤为以下四步：

(1)获取首页

(2)使用jsoup获取新闻标签

(3)从标签中抽取基本信息，封装成News对象

(4)根据新闻url访问新闻页面，获取新闻内容、图片等

1.爬虫接口

一个接口，接口有一个抽象方法pullNews用于拉新闻，有一个默认方法用于获取新闻首页：

public interface NewsPuller {

void pullNews();

// url:即新闻首页url

// useHtmlUnit:是否使用htmlunit

default Document getHtmlFromUrl(String url, boolean useHtmlUnit) throws Exception {

if (!useHtmlUnit) {

return Jsoup.connect(url)

//模拟火狐浏览器

.userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)")

.get();

} else {

WebClient webClient = new WebClient(BrowserVersion.CHROME);

webClient.getOptions().setJavaScriptEnabled(true);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setActiveXNative(false);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setThrowExceptionOnScriptError(false);

webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

webClient.getOptions().setTimeout(10000);

HtmlPage htmlPage = null;

try {

htmlPage = webClient.getPage(url);

webClient.waitForBackgroundJavaScript(10000);

Strin

本文标签：爬虫头条今日凤凰搜狐

版权声明：本文标题：今日头条爬虫 java_Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻... 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1729880885a1215902.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

Android基于viewpager和tablayout实现类似今日头条和腾讯新闻的界面

1小时前

简介在现在的安卓开发中，大部分需求会经常遇上viewpager和tablayout组合实现的功能，然后通过网络请求拿到数据然后显示在页面上，之前自己也在网上搜索过一些文章

今日头条API

1小时前

<ul id"getnownew"><ul> $(document).ready(function(){$.ajax({ url: "http:ic.snssdk2articl

推荐开源项目：react-toutiao - React 实现的今日头条

1小时前

推荐开源项目：react-toutiao - React 实现的今日头条去发现同类优质开源项目:https:gitcode 1. 项目介绍 react-toutiao 是一个基于 Facebook 的 R

爬取今日头条新闻

1小时前

转载：：https:blog.csdnweixin_39416561articledetails84672104

java新闻爬虫_java实现简单的爬虫之今日头条

1小时前

前言需要提前说下的是，由于今日头条的文章的特殊性，所以无法直接获取文章的地址，需要获取文章的id然后在拼接成url再访问。下面话不多说了，直接上代码。

今日头条 mysql_今日头条这么牛逼，用了什么技术？

1小时前

今日头条创立于2012年3月，到目前仅 6 年时间。从十几个工程师开始研发，到上百人，再到200余人。产品线由内涵段子，到今日头条&#xff0c

采集今日头条数据 python 爬虫 API接口

1小时前

今日头条是业界知名的技术牛人大团结的公司，今天我们来探讨一下如何规模化的采集获取今日头条的数据。我就一招：iDataAPI。今日头条数据接口（API&#xff09

python爬取今日头条手机app广告_今日头条App广告采集器的实现

1小时前

应客户需求，要对今日头条App内出现的广告商品进行提取，获取商品名称、价格区间、当前销量、卖家数据等信息。之前他们都是通过人工手动去提取的，效率很低，而且容易遗漏。现在需要通过程序来自动化采集以提高效率。今日头条App内两种类型的广告：一

Python递归爬取今日头条指定用户一个月内发表的所有文章，视频，微头条(2)

1小时前

感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的： ①　2000多本Python电子书（主流和经典的书籍应该都有了&

“今日头条”发展困境与未来发展策略

1小时前

本人产品新人一枚，近期闲来没事，于是查阅相关资料，进行了整合，现对“今日头条”这款App的发展困境与未来发展策略说说自己的看法，如

ai爆文写作技巧，小白轻松上手今日头条掘金方法，可多平台

1小时前

今天分享，今日头条原创文章是目前各平台补贴类项目最高的，每天要做的就是抽出10分钟，找—条相关文章，然后用AlI工具生成原创文章，

青龙面板----今日头条脚本修复版

1小时前

安卓: 今日头条极速版老用户每天几毛，新用户可能收益高点普通版定时： 1-5915 6-23 * * * 激进版定时： 1-595 * * * * 多用户跑的

【vue前端项目实战案例】Vue3仿今日头条App

1小时前

本文将开发一款仿“今日头条”的新闻App。该案例是基于 Vue3.0Vue RouterwebpackTypeScript 等技术栈实现的一款新闻资讯类App，适合有一定Vue框架使用经验的开发者进行学习。

今日头条接口

1小时前

推荐:http:ic.snssdk2articlev25stream?count20&min_behot_time1504621638&bd_latitude4.9E-324&bd_longitude4

今日头条 mysql_今日头条的核心技术细节是什么？

1小时前

今日头条创立于2012年3月，到目前仅 6 年时间。从十几个工程师开始研发，到上百人，再到200余人。产品线由内涵段子，到今日头条&#xff0c

iOS仿今日头条顶部新闻分页

1小时前

仿今日头条顶部新闻分页近日闲来无事总是刷头条,突然发现了一个有趣的现象,如下图: 当你滑动或者点击分页的名字的时候,不管当时那个分页在哪,最后都会被滚动到最中间.我又去翻了其他的资讯类的app,发现基本很多都是这样做的.抱着求知的心态,

揭秘！今日头条爆款文章打造秘诀：低粉作者如何逆袭，成为流量王者？一文带你掌握！

1小时前

大家好，我是网创有方的站长，今天特地对某头条作者的优质文章内容做了下分析。欢迎各位共同讨论，如果有什么想法的可以评论区留言或者私信讨论。下面开始咱们的正题&#xff1

java爬虫系列（五）——今日头条文章爬虫实战

1小时前

文章目录项目源码爬虫目标爬虫设计思路爬取方式动态解析网页方式爬取解析接口方式爬取解析思路破解入口接口对比破解加密参数参数生成方式解析js 分析接口返回值解析原文地址 java项目解析基本功能队列和线程池操作界面——swagger2 总结

Django项目实践（爬取今日头条的头条热榜）

1小时前

本文按照下列项目来进行说明。 mysite2 - manage.py - mysite2 - app01 1、打开今日头条，对网页进行分析并爬取获取请求URL 分析网站的数据来源后。开始构造headers&a

playwrite今日头条自动发帖

1小时前

目的大家好，我是watchpoints ，一个只为自己打工程序员， watchpoints是我github用户名 ，也是我的wechat 用户名&am

电子爱好者 - 最新技术资讯及电子产品介绍！

今日头条 爬虫 java_Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻...

更多相关文章

Android基于viewpager和tablayout实现类似今日头条和腾讯新闻的界面

今日头条API

推荐开源项目：react-toutiao - React 实现的今日头条

爬取今日头条新闻

java新闻爬虫_java实现简单的爬虫之今日头条

今日头条 mysql_今日头条这么牛逼，用了什么技术？

采集今日头条数据 python 爬虫 API接口

python爬取今日头条手机app广告_今日头条App广告采集器的实现

Python递归爬取今日头条指定用户一个月内发表的所有文章，视频，微头条(2)

“今日头条”发展困境与未来发展策略

ai爆文写作技巧，小白轻松上手今日头条掘金方法，可多平台

青龙面板----今日头条脚本修复版

【vue前端项目实战案例】Vue3仿今日头条App

今日头条接口

今日头条 mysql_今日头条的核心技术细节是什么？

iOS仿今日头条顶部新闻分页

揭秘！今日头条爆款文章打造秘诀：低粉作者如何逆袭，成为流量王者？一文带你掌握！

java爬虫系列（五）——今日头条文章爬虫实战

Django项目实践（爬取今日头条的头条热榜）

playwrite今日头条自动发帖

发表评论

推荐文章

2024HVV在即| 最新漏洞CVE库(1.5W)与历史漏洞POC总结分享！

计算机中所有文字信息都是,计算机文字 计算机文字与信息处理

专栏推介：《Hi3861网络编程实验》

傻瓜攻略（九）——MATLAB实现简单的多元线性回归（以炼钢转炉炉龄问题为例）

Yoga 13s 2021 AMD ACN版(82CY)原厂预装Windows1011系统镜像,出厂状态原装OEM系统

热门文章

京东_登录页面制作

华为数通HCIE面试看这个就够了系列——MPLS

【RK3588】关于 devfreq 和 cpufreq 的记录

《A five-factor asset pricing model》生肉消化

找不到d3dx9_43.dll,无法继续执行代码怎么解决

python删除系统中指定路径和时间的文件

Matlab 8时间序列ARIMA

linux基础知识点

云计算网络基础－金老师

HEU_KMS_Activator_v11.1.0

最新文章

Visio2013激活破解

Unraid安装KMS Docker激活Windows+Office

VAMT3管理工具:查看哪些客户端使用kms进行了激活

【无标题】win11 kms 所请求的操作需要提升权限。 页面不可用你的IT管理员已限制对此应用的某些区域的访问，并且你尝试访问的项目不可用。有关详细信息，请与IT支持人员联系。

在Ubuntu中自动运行KMS服务

教你一段代码激活计算机系统

如何激活Windows server服务器

KMS知识管理系统：企业智慧的引擎

KMSpico无法安装问题解决

HEU_KMS_Activator_v11.1.0

图解支付-金融级密钥管理系统：构建支付系统的安全基石_kms框架

10款你一定不知道的实用工具！

visio 2010 激活方法

激活VISIO2019专业版

KMS知识管理系统：提升企业知识管理与协作效率的利器

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

今日头条爬虫 java_Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻...

计算机中所有文字信息都是,计算机文字计算机文字与信息处理

【无标题】win11 kms 所请求的操作需要提升权限。页面不可用你的IT管理员已限制对此应用的某些区域的访问，并且你尝试访问的项目不可用。有关详细信息，请与IT支持人员联系。

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载