Python3自然语言处理（5）——预处理|电子爱好者

admin管理员组
文章数量:1584186

Python3自然语言处理（5）——预处理

注：转载请联系博主，或关注微信公众号"引文空间"，后台提出转载申请，等待回复。否则将举报抄袭！

1.分词
当一个文档或者一个长字符串需要处理的时候，你首先要做的是将它拆分成一个个单词和标点符号，我们称这个过程为分词。接下来我们将了解NLTK中可用分词器的类型以及它们的用法。
创建一个名为tokenizer.py的文件并添加如下代码：


from nltk.tokenize import LineTokenizer,SpaceTokenizer,TweetTokenizer
from nltk import word_tokenize

我们将从LineTokernizer开始介绍。添加以下三行代码：

str1='My name is Maximus Decimus, commander of the Armies of the North, General of the Felix Legions and loyal servant to the true emperor, Marcus Aurelius. \nFather to a murdered son, husband to a murdered wife. \nAnd I will have my vengeance, in this life or the next.'
lTokenizer=LineTokenizer()
print('Line tokenizer output:',lTokenizer.tokenize(str1))

顾名思义，该分词器应该将输入的字符串拆分成行（非句子）。让我们看看分词器的输出效果：

Line tokenizer output: ['My name is Maximus Decimus, commander of the Armies of the North, General of the Felix Legions and loyal servant to the true emperor, Marcus Aurelius. ', 'Father to a murdered son, husband to a murdered wife. ', 'And I will have my vengeance, in this life or the next.']

如上所示，它返回了一个包含三个字符串的列表。这意味着给定的输入已经根据换行符的位置被拆分成了三行。LineTokernizer的作用是将输入的字符串拆分成行。
现在我们来看SpaceTokenizer。顾名思义，它是根据空格符来分词的。加入以下几行：

rawText='By 11 o\'clock on sunday, the doctor shall open the dispensary.'
sTokenizer=SpaceTokenizer()
print('Space Tokenizer output:',sTokenizer.tokenize(rawText))

sTokenizer是SpaceTokenize类的一个对象，调用tokenize()方法我们将看到如下输出：

Space Tokenizer output: ['By', '11', "o'clock", 'on', 'sunday,', 'the', 'doctor', 'shall', 'open', 'the', 'dispensary.']

正如期望的那样，输入的rawText被空格符""拆分。
接下来，调用word_tokenize()方法，示例如下：

print('Word Tokenizer output:',word_tokenize(rawText))

结果如下：

Word Tokenizer output: ['By', '11', "o'clock", 'on', 'sunday', ',', 'the', 'doctor', 'shall', 'open', 'the', 'dispensary', '.']

如上所示，SpaceTokenizer和word_tokenize()的区别是显而易见的。
最后我们介绍一下TweetTokernizer，处理特殊字符串的时候可以使用该分词器：

tTokenizer=TweetTokenizer()
print('Tweet Tokenizer output:',tTokenizer.tokenize("This is a coool #dummysmiley: :-) :-P <3"))

Tweets包含我们想要保持完整的特殊单词、特殊字符、标签、笑脸符号等。上述代码的运行结果如下：

Tweet Tokenizer output: ['This', 'is', 'a', 'coool', '#dummysmiley', ':', ':-)', ':-P', '<3']

正如我们看到的，Tokenizer保持特殊字符的完整性而没有进行拆分，笑脸符号也保持原封不动。这是一种特殊且比较少见的类，当需要的时候可以使用它。

2.词干提取
词干是没有任何后缀的词的基本组成部分，词干提取器的作用是去除后缀并输出词的词干。
创建一个名为stemmers.py的文件，并添加以下导入行：

from nltk import PorterStemmer,LancasterStemmer,word_tokenize

在进行词干提取之前，我们首先需要对输入文本进行分词，使用以下代码来完成这一步：

raw='My name is Maximus Decimus, commander of the Armies of the North, General of the Felix Legions and loyal servant to the true emperor, Marcus Aurelius. Father to a murdered son, husband to a murdered wife. And I will have my vengeance, in this life or the next.'
tokens=word_tokenize(raw)

分词列表包含输入字符串raw产生的所有分词。
首先使用PorterStemmer，添加如下三行代码：

porter=PorterStemmer()
pStems=[porter.stem(t) for t in tokens]
print(pStems)

首先初始化词干提取器，然后对所有的输入文本应用该词干提取器，最后打印输出结果。通过观察输出结果，我们可以了解到更多信息：

['My', 'name', 'is', 'maximu', 'decimu', ',', 'command', 'of', 'the', 'armi', 'of', 'the', 'north', ',', 'gener', 'of', 'the', 'felix', 'legion', 'and', 'loyal', 'servant', 'to', 'the', 'true', 'emperor', ',', 'marcu', 'aureliu', '.', 'father', 'to', 'a', 'murder', 'son', ',', 'husband', 'to', 'a', 'murder', 'wife', '.', 'and', 'I', 'will', 'have', 'my', 'vengeanc', ',', 'in', 'thi', 'life', 'or', 'the', 'next', '.']

正如你在输出结果中看到的，所有的单词都去除了“s”“es”“e”“ed”“al”等后缀。
接下来使用LancasterStemmer，与porter相比较，它更容易出错，因为它包含更多要去除的尾缀：

lancaster=LancasterStemmer()
lStems=[lancaster.stem(t) for t in tokens]
print(lStems)

进行相似实验，用LancasterStemmer代替PorterStemmer。输出结果如下：

['my', 'nam', 'is', 'maxim', 'decim', ',', 'command', 'of', 'the', 'army', 'of', 'the', 'nor', ',', 'gen', 'of', 'the', 'felix', 'leg', 'and', 'loy', 'serv', 'to', 'the', 'tru', 'emp', ',', 'marc', 'aureli', '.', 'fath', 'to', 'a', 'murd', 'son', ',', 'husband', 'to', 'a', 'murd', 'wif', '.', 'and', 'i', 'wil', 'hav', 'my', 'veng', ',', 'in', 'thi', 'lif', 'or', 'the', 'next', '.']

我们将在输出部分讨论它们的差别，但是很容易就能看出该分词器对尾缀的处理优于Porter。尾缀如“us”“e”“th”“eral”“ered”等。
通过比较这两种词干提取器的输出，我们发现在去除尾缀方面lancaster做得更加彻底。它尽可能多地去除尾部字符，而porter相对来说尽可能少地去除尾部字符。

3.词形还原
一个词元是一个词的中心词，或者简单地说是一个词的基本组成。我们已经了解了什么是词干，但是与词干提取过程不同的是，词干是通过去除或替换尾缀获得的，而词元获取是一个字典匹配过程。由于词形还原是一个字典映射过程，因此词形还原相对于词干提取来说，是一个更复杂的过程。
创建一个名为lemmatizer.py的文件并添加如下代码：

from nltk import word_tokenize,WordNetLemmatizer

在进行任何词干提取之前，我们首先需要对输入文本进行分词，使用如下代码来完成：

raw='My name is Maximus Decimus, commander of the armies of the north, General of the Felix legions and loyal servant to the true emperor, Marcus Aurelius. Father to a murdered son, husband to a murdered wife. And I will have my vengeance, in this life or the next.'
tokens=word_tokenize(raw)

现在我们使用词形还原器lemmatizer，添加如下三行代码：

lemmatizer=WordNetLemmatizer()
lemmas=[lemmatizer.lemmatize(t) for t in tokens]
print(lemmas)

运行程序，上述三行代码的输出如下所示：

['My', 'name', 'is', 'Maximus', 'Decimus', ',', 'commander', 'of', 'the', 'army', 'of', 'the', 'north', ',', 'General', 'of', 'the', 'Felix', 'legion', 'and', 'loyal', 'servant', 'to', 'the', 'true', 'emperor', ',', 'Marcus', 'Aurelius', '.', 'Father', 'to', 'a', 'murdered', 'son', ',', 'husband', 'to', 'a', 'murdered', 'wife',<

本文标签：自然语言

版权声明：本文标题：Python3自然语言处理（5）——预处理内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1727933337a1138648.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Python3自然语言处理（5）——预处理

Python3自然语言处理（5）——预处理

更多相关文章

ChatGPT：自然语言处理的新纪元与OpenAI的深度融合

OpenAI私有自然语言处理模型、ChatGPT官方模型、百度智能云UNIT模型定制三者的使用方式、应用场景及区别

全网最详细中英文ChatGPT-GPT-4示例文档-从0到1快速入门自然语言指令创建调用OpenAI代码——官网推荐的48种最佳应用（附pythonnode.jscurl命令源代码，小白也能学）

自然语言处理从入门到应用——自然语言处理的应用任务

自然语言处理中,中文优劣势.chatGPT,采访实录

NLP：自然语言处理技术最强学习路线之NLP简介(岗位需求必备技能)、早期中期近期应用领域(偏具体应用)、经典NLP架构(偏具体算法)概述、常用工具库框架产品、环境安装(更新中)

用 AudioGPT 输入自然语言，可以让 ChatGPT 唱歌了？

请查收！顶会AAAI 2020录用论文之自然语言处理篇

大模型应用解决方案：基于ChatGPT和GPT-4等Transformer架构的自然语言处理

自然语言处理之文本预处理

自然语言处理实战之微博情感偏向分析

自然语言处理学习——论文分享——A Mutual Information Maximization Perspective of Language Representation Learning

Python深度学习实践：运用自然语言生成编写故事

Plugins和function-call 使用自然语言连接一切

如何有效利用 LLM（大型语言模型）进行 B2B NLP（自然语言处理）—— LLM与人工智能和机器学习的有效结合，可以优化特定用例的工作流程

[转]机器学习科普文章：“一文读懂机器学习，大数据自然语言处理算法全有了”

读懂人工智能、机器学习、深度学习、大数据，自然语言处理……

【招聘】搜狗输入法-自然语言处理研究员

自然语言处理系统NLP之拼写纠错

Python3自然语言处理（5）——预处理

发表评论

推荐文章

qq音乐专属格式转换_将网易云音乐专用的无损音乐格式转换成全平台通用的无损格式...

【渝粤题库】陕西师范大学200591 英语语法

使用html页面实现简单的算法并通过百度网盘实现访问

修改路由器管理员密码

U盘文件剪切丢失如何挽救？专家教你两招轻松恢复

热门文章

高层建筑电气设计说明书

浏览器被2345劫持 打开本地页面显示2345首页

win11桌面出现ie图标且无法删除，打开是2345主页：解决方法

浏览器内核概述

pdf转格式怎么转换？其实很简单，看这里就会！

微信实现电脑远程关机

您目前无法访问 XXX ，因为此证书已被撤消。网络错误和攻击行为通常是暂时的，因此，此网页稍后可能会恢复正常

在 Create-React-App 中使用 TypeScript(汉化)

Microsoft Office如何打开Visual Basic编辑器（macOS）

跟《经济学人》学英文：2024年08月03日这期 Vienna’s social housing, lauded by progressives, pushes out the poor

最新文章

编曲软件FL Studio 20.99中文版2023最新免费下载

python3中文版下载手机版,python3.0中文版下载

第五章 Windows 7备份与恢复

win10和win7游戏测试软件,Win10系统和Win7玩游戏哪个更快？评测在这里！

在计算机上怎么搜共享打印机,如何共享电脑中的打印机？共享电脑打印机步骤...

python3手机中文版下载,python中文手机版安装

手机版腐蚀rust_腐蚀Rust下载腐蚀Rust中文版下载-游迅网

一键GHOST 硬盘版的安装运行教程

计算机无法安装hp网络打印机,安装HP网络打印机步骤

无线打印机服务器安装步骤,【DDwifi打印服务器】Windows 10系统添加打印机步骤（离线安装打印机驱动）...

python中文版下载官网-Python下载 v3.8.3 官方中文版

python3ide下载手机安卓版,python3ide下载安卓中文版

一键硬盘安装ghost win10系统

服务器系统比win10流畅么,win10比win7快吗_win7跟win10哪个更流畅一些

win7安装打印机 计算机,win7添加网络打印机的详细步骤【图解】

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

浏览器被2345劫持打开本地页面显示2345首页

win7安装打印机计算机,win7添加网络打印机的详细步骤【图解】

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载