2020年文档相似性算法：初学者教程|电子爱好者

admin管理员组
文章数量:1530303

作者|Masatoshi Nishimura 编译|VK 来源|Towards Data Science

如果你想知道2020年文档相似性任务的最佳算法，你来对了地方。

在33914篇《纽约时报》文章中，我测试了5种常见的文档相似性算法。从传统的统计方法到现代的深度学习方法。

每个实现少于50行代码。所有使用的模型都来自互联网。因此，你可以在没有数据科学知识的情况下，开箱即用，并且得到类似的结果。

在这篇文章中，你将学习如何实现每种算法以及如何选择最佳算法。内容如下：

最佳的定义
实验目标陈述
数据设置
比较标准
算法设置
选出赢家
对初学者的建议

你想深入自然语言处理和人工智能。你想用相关的建议来增加用户体验。你想升级旧的现有算法。那么你会喜欢这个文章的。

数据科学家主张绝对最好

你可能会搜索术语“最佳文档相似性算法”（best document similarity algorithms）。

然后你将从学术论文，博客，问答中得到搜索结果。一些侧重于特定算法的教程，而另一些则侧重于理论概述。

在学术论文中，一个标题说，这种算法的准确率达到了80%，而其他算法的准确率仅为75%。好啊。但是，这种差异是否足以让我们的眼睛注意到它呢？增加2%怎么样？实现这个算法有多容易？科学家倾向于在给定的测试集中追求最好，而忽略了实际意义。

在相关的问题问答中，狂热的支持者占据了整个话题。有人说现在最好的算法是BERT。这个算法概念是如此具有革命性，它打败了一切。另一方面，愤世嫉俗者称一切都取决于工作。有些答案早在深度学习之前就有了。看看这个Stackoverflow（https://stackoverflow/questions/8897593/how-to-compute-the-similarity-between-two-text-documents）。2012年是投票最多的一年，很难判断它对我们到底意味着什么。

谷歌会很乐意投入数百万美元购买工程师的能力和最新的计算能力，仅仅是为了将他们的搜索能力提高1%。这对我们来说可能既不现实也没有意义。

性能增益和实现所需的技术专业知识之间有什么权衡？它需要多少内存？它以最少的预处理可以运行多快？

你想知道的是一种算法在实际意义上是如何优于另一种算法的。

这篇文章将为你提供一个指导方针，指导你在文档相似性问题应该实现哪种算法。

各种算法，通篇流行文章，预训练模型

本实验有4个目标：

通过在同一个数据集上运行多个算法，你将看到算法与另一个算法的公平性以及公平程度。
通过使用来自流行媒体的全文文章作为我们的数据集，你将发现实际应用程序的有效性。
通过访问文章url，你将能够比较结果质量的差异。
通过只使用公开可用的预训练模型，你将能够设置自己的文档相似性并得到类似的输出。

“预训练模型是你的朋友。-Cathal Horan”

数据设置-5篇基础文章

本实验选取了33914篇《纽约时报》的文章。从2018年到2020年6月。数据主要是从RSS中收集的，文章的平均长度是6500个字符。

从这些文章中选择5个作为相似性搜索的基础文章。每一个代表一个不同的类别。

在语义类别的基础上，我们还将度量书面格式。更多的描述在下面。

Lifestyle, Human Interest：How My Worst Date Ever Became My Best(https://www.nytimes/2020/02/14/style/modern-love-worst-date-of-my-life-became-best.html)
Science, Informational：A Deep-Sea Magma Monster Gets a Body Scan(https://www.nytimes/2019/12/03/science/axial-volcano-mapping.html)
Business, News：Renault and Nissan Try a New Way After Years When Carlos Ghosn Ruled(https://www.nytimes/2019/11/29/business/renault-nissan-mitsubishi-alliance.html)
Sports, News：Dominic Thiem Beats Rafael Nadal in Australian Open Quarterfinal(https://www.nytimes/2020/01/29/sports/tennis/thiem-nadal-australian-open.html)
Politics, News：2020 Democrats Seek Voters in an Unusual Spot: Fox News(https://www.nytimes/2019/04/17/us/politics/fox-news-democrats-2020.html)

判断标准

我们将使用5个标准来判断相似性的性质。如果你只想查看结果，请跳过此部分。

标签的重叠
节
小节
文风
主题

标签是最接近人类判断内容相似性的工具。记者自己亲手写下标签。你可以在HTML标题中的news_keywords meta标记处检查它们。使用标签最好的部分是我们可以客观地测量两个内容有多少重叠。每个标签的大小从1到12不等。两篇文章的标签重叠越多，就越相似。

第二，我们看这个部分。这就是《纽约时报》在最高级别对文章进行分类的方式：科学、政治、体育等等。在网址的域名后面会进行显示，例如nytimes/…

第二部分是小节。例如，一个版块可以细分为world，或者world可以细分为Australia。并不是所有的文章都包含它，它不像以上那2个那么重要。

第四是文风。大多数文档比较分析只关注语义。但是，由于我们是在实际用例中比较推荐，所以我们也需要类似的写作风格。例如，你不想在学术期刊的“跑鞋和矫形术”之后，从商业角度阅读“十大跑鞋”。我们将根据杰斐逊县学校的写作指导原则对文章进行分组。该列表包括人类兴趣、个性、最佳（例如：产品评论）、新闻、操作方法、过去的事件和信息。

5个候选算法

这些是我们将要研究的算法。

Jaccard
TF-IDF
Doc2vec
USE
BERT<

本文标签：相似性算法初学者文档教程

版权声明：本文标题：2020年文档相似性算法：初学者教程内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1723873073a953845.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

2020年文档相似性算法：初学者教程

数据科学家主张绝对最好

各种算法，通篇流行文章，预训练模型

数据设置-5篇基础文章

判断标准

5个候选算法

更多相关文章

电脑win7系统安装教程 电脑win7系统安装步骤

最详细的教程，教你如何彻底关闭Chrome浏览器自动更新

如何查看Chrome浏览器的页面缓存内容【详细教程】

Fl Studio20 Win中文永久版（附安装教程）

ChemDraw怎么激活？ChemDraw激活教程

EndNote20安装教程（非常详细）从零基础入门到精通，看完这一篇就够了(2)

闪讯利用openwrt路由器拨号教程（四）

linux显卡驱动安全模式,win7在安全模式安装显卡驱动的详细教程

怎么给笔记本重装系统图文教程

零刻SER8 AMD 8845Hs Ryzen AI 本地部署大语言模型教程！

86五笔输入法教程详解

电脑自动开机win11设置教程

内存取证-volatility工具的使用 （史上更全教程，更全命令）

【教程】在UEFI启动方式下，通过GRUB2引导，直接从硬盘ISO文件安装Windows10和Ubuntu双系统

三星 android 模拟器下载地址,GalaxyOfWar电脑版下载 安卓模拟器图文安装教程

【IntelliJ IDEA 2024 激活及安装教程，亲测可以使用】

2021最新IDEA初级入门详细教程流出，开发组小伙伴怒赞

IDEA2020.3的详细安装教程

idea2021安装教程

Windows10 java环境变量的配置详细教程（Windows10 和Windows11）

发表评论

推荐文章

旧电脑装html5,老式电脑安装Win10还是Win7系统流畅?

win10中maven的安装与配置

Chrome浏览器数据迁移

AMD R7 5800H安装mac os big sur 11.6

MVC 洋酒销售系统的设计与实现java jsp 程序设计 课程设计 毕业设计-附源码02135

热门文章

win10定时开机(Win10定时开机关机)

win10 android软件下载,windows10模拟器安卓版

MateBook 14 2023款 i5,i7 集显 触屏(KLVG-XX)预装oem原厂Win11系统下载

云漾AI创作平台 ChatGPT+AI绘画平台+支持GPT4.0+Midjourney绘画

win10安装过程修改esp分区吗_win7win10无损修改UEFI启动模式让系统5秒开机支持ghost版...

CommonJS、AMD、CMD、ES6模块化区别详细总结

AMD OpenCL Accelerated Parallel Processing (APP) Software Development Kit (SDK)

暴风影音：欢迎百度加入播放器客户端队伍

VirtualBox虚拟机U盘启动方法

Windows系统自带图标位置

最新文章

ubuntu18下安装搜狗拼音输入法并配置

Ubuntu22.04 安装搜狗拼音输入法

Ubuntu 安装搜狗拼音输入法

Ubuntu下搜狗拼音输入法打不出汉字的解决方法

搜狗拼音输入法新加词库的基本使用

如何用搜狗拼音输入法输入各种上下标

Linux下安装搜狗拼音输入法（Ubuntu18.04.2 LTS）

卸载搜狗拼音输入法linux,Ubuntu下使用搜狗拼音输入法

搜狗拼音输入法皮肤设置【笔记】

ubuntu下搜狗拼音输入法不见了

Android中文输入的新选择——搜狗拼音输入法

ubuntu安装搜狗拼音输入法

ubuntu安装配置搜狗拼音输入法

特殊的搜狗拼音输入法

搜狗拼音输入法提示缺少gdiplus.dll文件怎么办？搜狗拼音输入法提示缺少gdiplus.dll文件定制化解决方案

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

电脑win7系统安装教程电脑win7系统安装步骤

内存取证-volatility工具的使用（史上更全教程，更全命令）

三星 android 模拟器下载地址,GalaxyOfWar电脑版下载安卓模拟器图文安装教程

MVC 洋酒销售系统的设计与实现java jsp 程序设计课程设计毕业设计-附源码02135

MateBook 14 2023款 i5,i7 集显触屏(KLVG-XX)预装oem原厂Win11系统下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载