新浪微博数据分析及社区发现方法研究|电子爱好者

admin管理员组
文章数量:1533913

2024年3月10日发(作者：)

新浪微博数据分析及社区发现方法研究

苟良

【摘要】目前随着新浪微博的普及,很多相关的研究由此展开.使用模拟登录新浪微

博的方法爬取7万多用户的200多万条微博.根据用户的互动情况使用熵力模型绘

制社交网络图,发现用户的互动特点.根据每位用户的微博内容,从词出发,使用TF-

IDF算法计算出词权值,使用K-means算法进行聚类,找出具有不同特点的群体,分

析每个群体的关键词.实验结果表明,所提出的方法能够有效挖掘用户群体.

【期刊名称】《现代计算机（专业版）》

【年(卷),期】2018(000)026

【总页数】5页(P8-12)

【关键词】新浪微博;社区发现;TF-IDF;K-means

【作者】苟良

【作者单位】新疆大学信息科学与工程学院,乌鲁木齐 830046

【正文语种】中文

0 引言

目前随着社交媒体的普及以及移动设备的飞速发展，新浪微博成了人们生活中必备

的社交工具。在每天都产生亿级别的数据量中，蕴含着巨大的价值。新浪微博是一

款为大众提供娱乐休闲生活服务的信息分享和交流平台，是一种开放的，可以快速

发布信息的社交平台。每一条信息（称为微博）被限制在140个字符之内，用户

与用户之间存在关注与被关注的关系，用户之间可以评论、点赞、转发别人的微博，

称之为互动。

目前对新浪微博中整体用户的数据研究[1-3]有很多。在社交网络发现算法[4]中，

值得一提的一类算法是凝聚类算法（Agglomeration Algorithms），这类算法是

通过构建一个将小的类簇合并为大的类簇的层次树得到的多层聚类算法。其中比较

著名的是Clauset A[5]等人提出的CNM[6]算法。随后，Yi Fan Hu[7]等人提出的

Yi Fan Hu算法在用户关系上将点与线引入力学公式，进行了社交网络构图的完善。

本文从新浪微博中选择了若干用户作为种子用户，从这些种子的粉丝开始，继续爬

取数据集中用户的粉丝的数据，通过此方法不断的遍历用户的粉丝，抓取了7万

多用户，收集了200多万条微博。然后使用熵力模型确定节点关系，借助

Gephi[8]工具进行绘图操作，绘制出了社交网络图，分析了数据集的特点，发现

了用户在信息传递中的位置与作用。最后对数据集用户进行了群体划分，找出了每

个群体的关键词。

1 数据收集与筛选

本文使用Python语言编写微博爬虫的程序，使用模拟登录的方法进行数据爬取，

具体思路如下：

首先在新浪微博的高级搜索中找出了若干用户作为种子用户，从这些种子用户的粉

丝开始，每位用户爬取前200名粉丝的数据，继续爬取数据集中用户的粉丝的数

据，重复此方法，如图1所示。

图1 获取数据流程图

通过此方法不断地遍历用户的粉丝，抓取了7万多用户，收集了200多万条微博。

2 数据集特征分析

本文分析用户之间的关系并没有从关注与被关注的用户关系中寻找答案，因为新浪

微博中存在不少“僵尸粉”，“营销号”等“spam user”存在，若只从单纯的关

注关系来分析，这类“spam user”会很大程度上干扰真实的互动结果，所以本文

主要从互动的用户（在微博下有点赞、评论、转发行为）入手，收集每个用户与其

互动的用户，称这类用户为该用户的互动圈。在数据集中，若用户i对用户j的微

博进行了评论（转发，点赞）行为，标记为 i→j。

2.1 熵力模型

本文使用熵力模型[9]确定节点之间的位置，该模型将节点位置问题（用户分布问

题）转换为节点间连线长度问题，引入熵H（x）模型的目的是寻找两节点之间的

距离关系，如公式（1）所示：

其中，E代表节点间连线，xi,xj代表节点i,j的度。在式（1）中，两节点之间的距

离由两节点的度的差值决定，度反映节点上连线的数值，所以该公式的思想是确定

互连的两节点之间的熵值，通过次公式遍历所有互连节点，如公式（2）：公式

（2）代表节点间的熵值由该节点与所有与其互连的节点共同决定。由此确定出所

有节点的距离（熵值）。

2.2 社交网络图

通过该模型借助Gephi绘图工具绘制社交网络图，以用户ID为节点，互动关系用

有向线表示，绘制出社交网络图，如图2所示：

图2 社交网络图

节点大小反映节点的度，即用户的互动圈大小，通常情况下节点大的用户群体互动

程度较高、粉丝数量较多、发布的微博数量较多。

3 用户社区发现研究方法

3.1 方法概述

传统的社群发现算法都是从社交媒体上用户间的社交网络中延伸而来，从个人节点

出发，计算与其有关联的节点，从而确定一个群体，这样做的好处是能较快地将互

相关注的人聚成一个群体。但是却忽略了一些较为重要的问题，一个群体的人发布

微博内容是否相似，兴趣是否一致，对事件的态度是否有差异。

针对这类问题，本文从用户的微博内容出发，以关键词为单位，对用户进行聚类计

算。通过聚类算法，找到包含关键词相似的用户并归为一类。这样做的目的是，可

以针对不同的关键词，定位到不同群体，了解不同群体所表述的内容，区分兴趣点，

缩小检索范围。

之所以从关键词的角度出发，是因为文本的基本单位是词，文本的中心思想由词来

表示，对关键词的提取能很大程度地反映文本内容的表达。所以定位到词，找到使

用相同词的不同用户，将这类用户聚为一个群体。

用户社群发现具有很大的利用价值，目前较频繁使用的好友推荐系统，广告定位系

统，产品推荐系统都可以在此基础上继续延伸。

我们所采用的数据集包括两部分，一是从抓取的7万多用户中随机选择了5万多

用户及其相关微博，二是为增加群体多样性，又从其他微博数据集中加入了3万

多用户及其相关微博。然后对每条微博进行归属分类，单独统计出每位用户发布的

微博，使用Jieba分词对中文部分进行分词，Jieba是包装于Python中的第三方

类库，其中主要使用到的原理有:

（1）为了达到高效的目的，底层使用Trie树结构进行词图扫描，在一句话中，对

于所有可能构成词的情况，全部建立有向无环图（DAG）。

（2）为了查找最大概率路径,采用了动态规划的方法。根据词频，找到最大概率切

分组合。

（3）当出现未记录词时，使用了基于HMM模型进行新词训练，使用了其中的

Viterbi算法。

之后是用TF-IDF算法计算所有词的词权值，将所得结果进行归一化处理后使用K-

means算法进行聚类统计，选取质心找出群体关键词，根据关键词进行集中分析。

3.2 TFF--IIDDFF算法

将微博文本使用分词算法进行词切割之后，最小单位从文本转变为词，并统计出每

位用户所使用的词，使用TF-IDF算法计算每个词的词权值。

TF-IDF算法是一种用来评估一个词对于一个文件的重要程度的算法。一个词的重

要程度分别由两部分决定。

（1）TF（Term Frequency）：

一个词在一个用户的微博中出现的次数与其对该用户的价值的大小成正比，如公式

（3）：

其中，tfi,j代表词i在微博j中的权值，ni,j是词i在文件dj中出现的次数，而分

母则是文件中所有词汇出现的次数总和。

（2）IDF（Inverse Document Frequency）：

逆文档频率，反映一个词的常见程度，若一个词很常见，说明该词并没有很好的分

类效果，从而权值较小。换句话说，一个词的权值与该词的常见程度成分反比，如

公式（4）：

其中，|D|是个人微博总数，分母表示包含词语ti的微博总数。

最后，可以计算出每个词（t）的 TF-IDF（t）=TF（t）*IDF（t）。

观察计算出的每个词的词频，由于文本数量庞大，而词数远小于文本数量，导致计

算出来的词权值趋近于零。为了解决数值较小影响计算的问题，本文选取[0-20]之

间的区间随机数代替词权，这里词权的大小与随机数的大小一一对应，以便接下来

的聚类计算。

3.3 K-mmeeaannss算法

通过TF-IDF算法计算出了每个用户使用词的权值之后，本文针对每个用户，选取

权值最大的10个词作为该用户的关键词，若有用户关键词数量不够10个，则补

零至10位，这样处理后，数据集转换为向量集，每位用户转为十维的向量，如下：

useri=[w ordi1,wordi2,wordi3,…,wordi10]

其中,useri代表用户i，wordij代表用户i的第j个关键词权值，使用K-means算

法进行聚类计算。

K-means算法是一种基于距离的无监督聚类算法，相似性以距离为指标进行聚类，

若两个对象的欧氏距离越近，则两个对象为一类的可能性就越大。K-means算法

的关键之处在于K值的选取，K代表初始质心的数量，也就是最终分类的数量。

K-means算法说明如下：

选定K个簇中心Uk的初值。由于K-means算法不能保证全局最优，而结果最优

通常与初始K值有较大关系，所以多次选取初值进行结果比较是较常用的方法；

遍历所有点，将每个点归类到与其最近的中心点簇中；

计算新的中心点，如公式（5）：

重复第二步，直到最大的步数。

图3 用户聚类图

针对本文数据集，聚类结果如图3所示：可以看到，图3中有较明显的聚类现象，

本文聚类结果分析如下节。

3.4 聚类结果统计

选取各类群体的质心，共找出七类群体，如表1所示：

表1 七类群体?

不同类的用户所使用的关键词具有一定的差异性，说明不同群体内发布的微博内容

有一定的区别。

1.第一类群体，“方便”、“别致”、“人气”、“补水”、“在家”、“拼命”、

“攀比”、“赶快”、“团队”等词突出微博内容的日常生活及工作性。

2.第二类群体，该类群体的关键词中评论性的副词较多，如“实在”、“由”、

“即”、“曾经”、“信任”、“精彩”也体现出微博内容具有一定的评论性质。

3.第三类群体，“想念”、“互粉”、“身体”、“多么”、“操心”、“可怕”、

“悲伤”、“精神”、“无论”、“追求”等关键词表示微博内容多在表达心理状

态。

4.第四类群体，“多云”、“春暖花开”、“阳光”、“整齐”等关键词说明该类

群体关注天气环境。

5.第五类群体，微博内容里多出现“摄影”、“画”、“天籁”、“阅读”等词，

突出该类群体对艺术类的侧重。

6.第六类群体，这类群体微博内容中的“人气”、“套装”、“这款”、“炒股”、

“新人”等词说明该类用户在微博内容上以商业为主，通过社交媒体进行产品销售

也是目前很常见的一种现象。

7.第七类群体，“城市”、“乡村”、“旅游”、“道路”、“我家”等展现出该

类群体倾向于旅游。

如上结果表明，本文所提出的方法能够挖掘出数据集中的不同群体，并找出该类群

体的特点。

4 结语

本文主要提出了一种新的数据爬取策略，引入熵力模型绘制社交网络图，发现了互

动人群的特点。在社群发现方面，从关键词的角度出发，找出每位用户发布微博时

使用的代表词，并通过聚类算法对用户进行了群体聚类，找出每个群体最具代表性

的关键词，分析群体特点。

参考文献：

【相关文献】

[1]赵英,范娇颖.大学生持续使用社交媒体的影响因素对比研究——以微信、微博和人人网为例[J].

情报杂志,2016,35（1）:188-195.

[2]张鲁民.面向社交网络的群体分析关键技术研究[D].北京:国防科学技术大学,2015.

[3]孙凌.社交网络中的信息与影响力传播模式研究[D].北京:北京交通大学,2017.

[4]Sun H,Esho O,Liu J,et ering Region Features Based on User's

Comments[C].Chinese National Conference on Social Media

ore:Springer Singapore,2016.

[5]Clauset A,Newman M E J,Moore g Community Structure in very Large

Networks[J].Physical Review E,2004,70（6 Pt 2）:066111.

[6]Newman M Algorithm for Detecting Community Structure in

Networks[J].Physical Review E Statistical Nonlinear&Soft Matter Physics,2003,69（6 Pt

2）:066133.

[7]Hu izing Data with Graphs and Maps[J],2012.

[8]Sen F,Wigand R,Agarwal N,et Structures Analysis:Identifying Influential Sets of

Individuals in a Social Network[J].Social Network Analysis&Mining,2016,6（1）:1-22.

[9]Gansner E R,Hu Y,North S.A Maxent-Stress Model for Graph Layout[C].IEEE Pacific

Visualization Computer Society,WA,USA,2012.

本文标签：用户群体进行使用算法

版权声明：本文标题：新浪微博数据分析及社区发现方法研究内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1710047154a245599.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

新浪微博数据分析及社区发现方法研究

更多相关文章

hdoop面试题6后面的面试题各公司面试题,算法数据结构相关面试题后面没看阿善有用...

生成式对抗网络（GAN）-（Generative Adversarial Networks）算法总结（从原始GAN到....目前）

matlab的雷劈数算法,寻找雷劈数

揭秘：超越99%的GPT用户，只需掌握这两个神奇提示词

B端产品--用户体验实战

单目标应用：足球联赛竞争算法（Soccer league competition algorithm，SLC）求解多仓库多旅行商问题MD-MTSP（可更改旅行商个数及起点）

OR Paper Weekly(一) | 用机器学习生成列生成的列，元启发式算法=动物世界？看OR68年发文数据，哪国位居榜首？

【笔记】Win10 安装系统跳过创建用户，直接启用 Administrator

wi8ndows无法加载,Win7无法加载用户配置文件怎么办？

Win7 用户文件夹转移方法

左神算法笔记之贪心算法和暴力递归

算法 64式 8、动态规划算法整理

Apriori算法进行关联分析

计算机登录界面没有用户显示不出来,笔记本电脑登录页面不显示 怎么解决

电脑开机后右下角出现一个金色小锁，显示无法连接到windows用户，该怎么办？

周鸿祎：做到这五点，才算是好用户体验

周鸿祎：需格外注意的五点用户体验

用户体验的5个注意事项

做到这五点，才算是好用户体验 -- 转自周鸿祎在UPA用户体验大会上的演讲

共识算法论文——Paxos Made Simple

发表评论

推荐文章

华为畅玩5X无Root查看已保存WiFi热点密码教程

如果告诉ChatGPT，人类将会关闭它，它会悲伤吗？

英语翻译太难？我一怒之下用爬虫写了两个翻译脚本

java + selenium无头浏览器使用及网站破解、逆向步骤

make的常见错误信息

热门文章

Ubuntu查看AMD显卡使用情况

linux ubuntu 五笔输入法,ubuntu下安装fcitx五笔输入法

Windows10 java环境变量的配置详细教程（Windows10 和Windows11）

Windows 10 子系统Linux重启(不重启Win10)

移动硬盘读取出错结构损坏的成因与解决策略

HCIE-Security Day37：理论学习：信息安全防范与趋势

希尔伯特及其《几何学基础》电子版（英文PDF），

zoom如何使用网页版登录

浏览器测试基本跑分网站

2021-2-20：请你说说分布式系统 BASE 理论是什么？

最新文章

ThoughtWorks面试体验

ThoughtWorks咨询师们的博客

maven的pom 提示错误 Failure to transfer com.thoughtworks.xstream:xstream:jar:

探索ThoughtWorks Each：优雅的Scala Monadic编程库

JMeter导入jmx运行脚本时出现这样的错误jmeter.save.SaveService: Conversion error com.thoughtworks.xstream.converters...

Chain of Thought (CoT) 系列论文：大模型思维链，提升 LLM 的推理能力

Tree-of-Thought Puzzle Solver 学习资料汇总 - 一个使用LLM求解复杂推理任务的框架

Thoughtworks2019校园招聘来啦～～内推福利篇 了解一下

Maven错误问题解决 Failure to transfer com.thoughtworks.xstream:xstream:jar:1.3.1 from https:repo.maven

“Chain of Thought Reasoning“ 和 “Chain Prompts“ 是什么

Failure to transfer com.thoughtworks.xstream:xstream:jar:1.3.1 from http:repo1.maven.orgmaven2 wa

论文笔记(2)：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Challenging BIG-Bench tasks and whether chain-of-thought can solve them阅读笔记

C# 生成二维码 两种方式ThoughtWorks.QRCodeZXing

深度思考（Deep Thought）：智能部署的未来之选

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

计算机登录界面没有用户显示不出来,笔记本电脑登录页面不显示怎么解决

Thoughtworks2019校园招聘来啦～～内推福利篇了解一下

C# 生成二维码两种方式ThoughtWorks.QRCodeZXing

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载