Java 爬取GooglePlay数据|电子爱好者

admin管理员组
文章数量:1604750

这里写目录标题

- 1. 前言
- - 获取网页HTML信息
  - 使用Xpath解析HTML
- 2. 开始实战
- - 1. 获取googlePlay的各个游戏的链接
  - 2. 获取goolePlay每个游戏的详细信息
- 3. 抓取进阶
- - 1. 如何通过抓取一大块再解析
  - 2. 如何通过regex匹配更多的数据
- 4. 爬取小技巧
- - 1. 爬取网页数据为中文

1. 前言

好久没有用Java进行数据抓取操作了，之前还是在2018年那个夏天，不过这次又遇到相同的需求了，所以就把整个过程记录下来，以后遇到了同样的情况就比较好操作。内容绝对干货，包括如何解析，如何爬取，如何解决遇到的问题。

获取网页HTML信息

我这里就是简单的http请求，所以就用Java库自带的HttpURLConnection类进行请求操作。具体操作如下

public static String getWebPageInfoByWebUrl(String webURL) throws Exception{
   
        URL url = new URL(webURL);
        System.out.println("webURL = " + webURL);
        HttpURLConnection httpURLConnection = (HttpURLConnection) url.openConnection() ;
        httpURLConnection.setRequestMethod("GET");
        BufferedReader reader = new BufferedReader(new InputStreamReader(httpURLConnection.getInputStream()));
        String line;
        StringBuilder response = new StringBuilder();
        while (true){
   
            line = reader.readLine();
            if (line == null || line.equals("null")){
   
                break;
            } else {
   
                response.append(line);
            }
        }
        reader.close();
        return String.valueOf(response);
    }

上面这个方法根据传入的url，返回获得的html页面信息。这里比较简单，没传什么header，proxy之类的，就简简单单抓个数据，如果有需要可自行添加。

使用Xpath解析HTML

回忆了很多解析方式，像什么xpath，javascript，regex，好像之前就xpath解析用的是比较多一点的。
然后接下来就是xpath解析，为了方便获取xpath表达式，直接从chrome商店下载一个 XPath Helper 插件。

XPath 咋使用呀
1-> 打开一个新选项卡并导航到任何网页。
2-> 按Ctrl-Shift-X(或在OS X上按Command-Shift-X)，或单击工具栏中的XPath Helper按钮，打开XPath Helper控制台。
3-> 当鼠标移到页面上的元素上时，按住Shift键。查询框将不断更新，以显示针对鼠标指针下方元素的XPath查询，结果框将显示当前查询的结果。
4.-> 如果需要，可以直接在控制台中编辑XPath查询。结果框将立即反映您的更改。

2. 开始实战

1. 获取googlePlay的各个游戏的链接

链接这个东西用Xpath直接选页面大概率是选不到的，我们直接先选中一个游戏，然后打开浏览器的控制台，看页面源码，一眼就可以看到我们需要的游戏链接地址，然后我们需要获得所有的游戏地址，就通过XPath Helper工具慢慢调试到我们想要的结果，最后可以看到当表达式为： //a[@class=‘Si6A0c Gy4nib’]/@href ，我们可以可以拿到我们的链接列表。

Java代码

import org.apache.commons.text.StringEscapeUtils;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;

import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;

public class HttpRequestUtil2 {
   
    
    public static void main(String[] args) throws Exception {
   
        // 获取googlePlay搜索结果游戏链接地址
        List<String> gameUrlList = getGameUrlList();
    }

    /**
     * 获取游戏网址列表
     * @return {@link List }<{@link String }>
     */
    private static List<String> getGameUrlList() throws Exception {
   
        // 获取googlePlay搜索结果网页信息
        String searchURL = "https://play.google/store/search?q=ludo&c=apps&hl=zh";
        String content = getWebPageInfoByWebUrl(searchURL);
        // 做一下网页处理 这样可以确保是 html页面
        content = content.replaceAll("<script [\\s|\\S]*? </scritp>", "");
        if (!content.startsWith("<?xml version=\"1.0\" encoding=\"UTF-8\"?>")) {
   
            content = "<?xml version=\"1.0\" encoding=\"UTF-8\"?>\n" + content;
        }
        TagNode clean = new HtmlCleaner().clean(content);
        String expression = "//a[@class='Si6A0c Gy4nib']/@href";
        Object[] objects = clean.evaluateXPath(expression);
        List<String> gameUrlList = new ArrayList<>(objects.length);
        for (Object objectTag : objects){
   
            String tagNodeHtmlString = getTagNodeHtmlString(objectTag);
            gameUrlList.add(tagNodeHtmlString);
            System.out.println(tagNodeHtmlString);
        }
        return gameUrlList;
    }

    /**
     * 通过 Web URL 获取网页信息
     * @param URL 网址
     * @return {@link String }
     */
    private static String getWebPageInfoByWebUrl(String URL) throws Exception{
   
        HttpURLConnection httpURLConnection = (HttpURLConnection) new URL(URL).openConnection();
        httpURLConnection.setRequestMethod("GET");
        BufferedReader reader = new BufferedReader(new InputStreamReader(httpURLConnection.getInputStream()));
        String line;
        StringBuilder response = new StringBuilder()

本文标签：数据 Java GooglePlay

版权声明：本文标题：Java 爬取GooglePlay数据内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1728464617a1159310.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Java 爬取GooglePlay数据

这里写目录标题

1. 前言

获取网页HTML信息

使用Xpath解析HTML

2. 开始实战

1. 获取googlePlay的各个游戏的链接

更多相关文章

【java代码获取系统时间和执行定时任务】

数据取证知识点记录（一）

【应用层协议】HTTPS协议 {加密通信；常见的加密方式：对称加密、非对称加密；数据摘要&amp;数据签名；HTTPS的加密过程探究：混合加密，MITM攻击，CA证书；HTTPS协议的工作原理、安全性及优势}

aircrack-ng 抓802.11数据帧详细流程

Android MQTT连接阿里云使用Json解析数据

Java JDK 1.6官方下载(jdk6.0) Win-32位官方正式版下载--Java免费学习网

java迅雷下载excel,excel官方下载-excel2018 官方版

thinking in java 迅雷_lg v35 thinkq刷韩版android9.0教程

如何配置googleplay谷歌后台的Auth登陆和支付权限

GooglePlay 金融品类政策更新（7月17号）

GooglePlay 新包提审十几天！依旧在审，问题在哪？

手动安装Android .aab（bundletool 如何使用）（.aab安装）（GooglePlay测试）

小米 Redmi 安装GooglePlay服务

上传到GooglePlay的Apk签名被改变

GooglePlay应用上架流程

GooglePlay Console语言设置

GooglePlay 最新aab的打包方式 Unity AndroidStudio

GooglePlay账号转移后出现的坑点

数据挖掘公开数据集【汇总】

《大数据基础编程、实验和教程案例》学习日志 第一章、第二章

发表评论

推荐文章

atikmpag.sys 导致蓝屏

瑞晟蓝牙来电语音软件下载_语音来电秀app下载-语音来电秀 安卓版v12.6-PC6安卓网...

现在的千兆光猫都自带路由功能，是否就不需要路由器了？

Bugku杂项——想蹭网先解开密码

下载googleplay应用

热门文章

揭秘移动硬盘RAW：原因、恢复策略与预防措施

移动硬盘坏了数据可以恢复吗 移动硬盘坏了怎么导出数据

路由器基础知识(一)

网络相关概念扫盲：公网IP和私网IP静态IP和动态IP路由器和交换机和网关

Ubuntu 搜狗输入法无法输入中文解决方案（不需要重装，不需要重启服务器）

最详细的windows下搭建sqli-labs靶场（附下载资源）

重磅！python获取同步输出的桌面网易云音乐歌词（内存偏移获取）

【历史上的今天】10 月 18 日：Internet Explorer 7 正式发布；全球首家网络银行开业；“美版红白机” NES 诞生

从Google play上下载apk

视频智能配音怎么弄？这些简单实用的智能配音方法你该知道

最新文章

使用PE U盘在VM Workstation中安装系统

使用U盘启动盘安装Ubuntu操作系统

Windows下实用软件集合

Recommended software

java 零基础教学------HelloWorld

windows无法从u盘启动也没有光驱，pxe安装操作系统方法

Linux系统安装后只能从U盘启动，解决办法

在U盘下安装ubuntu系统，从U盘启动Linux系统

安装deb程序到linux指定目录,deb文件怎么安装_怎么安装deb软件

Web_信息搜集（DAY2）

ThinkPad T440p安装 ubuntu-20.10 (一)(设置U盘启动盘)

中标麒麟系统u盘安装_优盘安装《中标麒麟7.0（龙芯）》

linux 怎么设置u盘权限设置,如何设置从U盘启动安装Linux

Eclipse

解决电脑低俗弹窗广告

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

【应用层协议】HTTPS协议 {加密通信；常见的加密方式：对称加密、非对称加密；数据摘要&数据签名；HTTPS的加密过程探究：混合加密，MITM攻击，CA证书；HTTPS协议的工作原理、安全性及优势}

《大数据基础编程、实验和教程案例》学习日志第一章、第二章

瑞晟蓝牙来电语音软件下载_语音来电秀app下载-语音来电秀安卓版v12.6-PC6安卓网...

移动硬盘坏了数据可以恢复吗移动硬盘坏了怎么导出数据

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载