admin管理员组

文章数量:1590328

  大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。

  本文主要介绍了Python Unicode实战,希望能对学习Python的同学们有所帮助。

文章目录

  • 1. 各种编码的简要发展史
  • 2. Python Unicode实战
    • 2.1 操作单个字符
      • 2.1.1 判断单个字符所属类型
      • 2.1.2 判断单个字符是否属于中文
      • 2.1.3 判断是否是空白符
      • 2.1.4 判断是否是控制符
      • 2.1.5 是否为标点符号
    • 2.2 字符串处理
      • 2.2.1 将文本转换成Unicode
      • 2.2.2 清理文本中的无效字符
      • 2.2.3 清理文本中的重音符号
      • 2.2.4 将字符串中的文本和标点符号进行划分
      • 2.2.5 对文本进行分词

  首先说明一下,本文代码以Python3版本为主(暂时不考虑和Python2的代码兼容)。

1. 各种编码的简要发展史

  最早的ASCII使用8位二进制(字节)来对字符进行编码,其中8位二进制可以表示2^8=256个字符。其中0~127用来表示英文字母、数字、控制字符等符号,可详见链接:https://ttssh2.osdn.jp/manual/4/en/macro/appendixes/ascii.html。这样一来,英文在计算机中的表示和存储就迎刃而解了。与此同时,128~255也暂时闲置下来了。

  随着计算机的逐渐发展,其他国家也需要将本国的语言在计算机中进行表示。部分国家使用12

本文标签: 实战PythonUnicode