【如何训练一个中英翻译模型】LSTM机器翻译seq2seq字符编码（一）|电子爱好者

admin管理员组
文章数量:1532460

系列文章

【如何训练一个中英翻译模型】LSTM机器翻译seq2seq字符编码（一）
【如何训练一个中英翻译模型】LSTM机器翻译模型训练与保存（二）
【如何训练一个中英翻译模型】LSTM机器翻译模型部署（三）
【如何训练一个中英翻译模型】LSTM机器翻译模型部署之onnx（python）（四）

训练一个翻译模型，我们需要一份数据集，以cmn.txt数据集为例：
取前两行数据来看看，如下：

Wait!	等等！
Hello!	你好。

对于中译英，我们希望让网络输入：“Wait!”，输出：“等等！”，输入：“Hello!”，输出：“你好。”
那么问题来了，这样的数据要如何输入网络进行训练呢？
显然需要进行编码，大白话说就是用“0101…”这样的数据来表示这些文字（为了方便表达，后面称为字符）。
先假设，我们的训练数据只取第一行，那就是只有“Wait! 等等！”，那么，我们开始对它进行编码，读取cmn.txt文件，并取第一行数据中英文分别保存在target_texts ，input_texts，,然后将所有的字符取出来，中英文字符并分别保存在target_characters ，input_characters

input_texts = [] # 保存英文数据集
target_texts = [] # 保存中文数据集
input_characters = set() # 保存英文字符，比如a,b，c
target_characters = set() # 保存中文字符,比如，你，我，她
with open(data_path, 'r', encoding='utf-8') as f:
    lines = f.read().split('\n')# 一行一行读取数据
for line in lines[: min(num_samples, len(lines) - 1)]: # 遍历每一行数据集（用min来防止越出）
    input_text, target_text = line.split('\t') # 分割中英文
    # We use "tab" as the "start sequence" character
    # for the targets, and "\n" as "end sequence" character.
    target_text = '\t' + target_text + '\n'
    input_texts.append(input_text)
    target_texts.append(target_text)
    for char in input_text: # 提取字符
        if char not in input_characters:
            input_characters.add(char)
    for char in target_text:
        if char not in target_characters:
            target_characters.add(char)
            
input_characters = sorted(list(input_characters)) # 排序一下
target_characters = sorted(list(target_characters))
num_encoder_tokens = len(input_characters) # 英文字符数量
num_decoder_tokens = len(target_characters) # 中文文字数量
max_encoder_seq_length = max([len(txt) for txt in input_texts]) # 输入的最长句子长度
max_decoder_seq_length = max([len(txt) for txt in target_texts])# 输出的最长句子长度

print('Number of samples:', len(input_texts))
print('Number of unique input tokens:', num_encoder_tokens)
print('Number of unique output tokens:', num_decoder_tokens)
print('Max sequence length for inputs:', max_encoder_seq_length)
print('Max sequence length for outputs:', max_decoder_seq_length)

可以得到这样的数据：

#原始数据：Wait!	等等！

input_texts =  ['Wait!'] 
target_texts =  ['\t等等！\n']

input_characters = ['!', 'W', 'a', 'i', 't']
target_characters = ['\t', '\n', '等', '！']

然后我们就可以开始编码啦。
先对input_characters 于target_characters 进行编号，也就是

['!', 'W', 'a', 'i', 't']
 0    1    2   3  4
['\t', '\n', '等', '！']
  0    1    2    3

代码如下：

input_token_index = dict([(char, i) for i, char in enumerate(input_characters)])
target_token_index = dict([(char, i) for i, char in enumerate(target_characters)])

编号完之后就是：

input_token_index =
 {
   '!':   0,
   'W': 1,
   'a':   2,
   'i':    3,
   't':    4
 }
target_token_index =
 {
   '\t':  0,
   '\n': 1,
   '等': 2,
   '！': 3
 }

有了input_token_index 与target_token_index ，我们就可以开始对输入输出进行编码，先来看输入。
假设我们的输入只有一个字符W，那么根据input_token_index 对W进行编码就如下：

可看到W用向量01000表示了，只有W的那个位置被标为1，其余标为0
依次类推对Wait!进行编码，结果如下：

对中文进行编码也是一样的操作：

因此输入输出分别可以用encoder_input_data与decoder_input_data这两个矩阵来表示了，这两个矩阵里面的值是一堆01

['!', 'W', 'a', 'i', 't']
encoder_input_data
[[[0. 1. 0. 0. 0.]    W
  [0. 0. 1. 0. 0.]    a
  [0. 0. 0. 1. 0.]    i
  [0. 0. 0. 0. 1.]    t
  [1. 0. 0. 0. 0.]]]  !
  
target_texts通过编码得到
['\t', '\n', '等', '！']
decoder_input_data
[[[1. 0. 0. 0.]      \t
  [0. 0. 1. 0.]      等
  [0. 0. 1. 0.]      等
  [0. 0. 0. 1.]      !
  [0. 1. 0. 0.]]]    \n

为了进一步说明，我们这时候将训练集改为2，也就是num_samples = 2，那么

input_texts =  ['Wait!', 'Hello!']
target_texts = ['\t等等！\n', '\t你好。\n']
input_characters = ['!', 'H', 'W', 'a', 'e', 'i', 'l', 'o', 't']
target_characters = ['\t', '\n', '。', '你', '好', '等', '！']

分别对输入输出的内容进行编码，可得到：

encoder_input_data = 
[[[0. 0. 1. 0. 0. 0. 0. 0. 0.]  # 第一句 Wait!
  [0. 0. 0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 1.]
  [1. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0.]]

 [[0. 1. 0. 0. 0. 0. 0. 0. 0.]  # 第二句 Hello
  [0. 0. 0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 1. 0.]
  [1. 0. 0. 0. 0. 0. 0. 0. 0.]]]

decoder_input_data = 
[[[1. 0. 0. 0. 0. 0. 0.]    # 第一句 \t等等！\n
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]
  [0. 1. 0. 0. 0. 0. 0.]]

 [[1. 0. 0. 0. 0. 0. 0.]    # 第二句 \t你好。\n
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 1. 0. 0. 0. 0. 0.]]]

到这里，我们就清楚了这些文字用向量是怎么表示的，有了向量我们可以进行计算，也就是可以搭建一个网络来训练这些数据了，这个网络的输入是一堆0 1矩阵，输出也是一堆0 1矩阵，输入矩阵在输入字符那里索引得出这个矩阵是什么句子，而输出矩阵在输出字符那里索引得出这个句子代表什么句子，因此我们就可以来训练一个翻译模型了。
总结下来：翻译模型实际上就是输入一个0 1矩阵，输出另外一个0 1矩阵。
句子->输入矩阵->运算->输出矩阵->句子

下面是相应的代码：

# mapping token to index， easily to vectors
# 处理方便进行编码为向量
# {
#   'a': 0,
#   'b': 1,
#   'c': 2,
#   ...
#   'z': 25
# }
input_token_index = dict([(char, i) for i, char in enumerate(input_characters)])
target_token_index = dict([(char, i) for i, char in enumerate(target_characters)])

# np.zeros(shape, dtype, order)
# shape is an tuple, in here 3D
encoder_input_data = np.zeros( # (12000, 32, 73) （数据集长度、句子长度、字符数量）
    (len(input_texts), max_encoder_seq_length, num_encoder_tokens),
    dtype='float32')
decoder_input_data = np.zeros( # (12000, 22, 2751)
    (len(input_texts), max_decoder_seq_length, num_decoder_tokens),
    dtype='float32')
decoder_target_data = np.zeros( # (12000, 22, 2751)
    (len(input_texts), max_decoder_seq_length, num_decoder_tokens),
    dtype='float32')

# 遍历输入文本（input_texts）和目标文本（target_texts）中的每个字符，
# 并将它们转换为数值张量以供深度学习模型使用。
#编码如下
#我，你，他，这，国，是，家，人，中
#1  0  0   0  1   1  0   1  1，我是中国人
#1  0   1  0  0   1  1   1  0，他是我家人
# input_texts contain all english sentences
# output_texts contain all chinese sentences
# zip('ABC','xyz') ==> Ax By Cz, looks like that
# the aim is: vectorilize text, 3D
# zip(input_texts, target_texts)成对取出输入输出，比如input_text = 你好，target_text = you good

for i, (input_text, target_text) in enumerate(zip(input_texts, target_texts)):
    for t, char in enumerate(input_text):
        # 3D vector only z-index has char its value equals 1.0
        encoder_input_data[i, t, input_token_index[char]] = 1.
    for t, char in enumerate(target_text):
        # decoder_target_data is ahead of decoder_input_data by one timestep
        decoder_input_data[i, t, target_token_index[char]] = 1.
        if t > 0:
            # decoder_target_data will be ahead by one timestep
            # and will not include the start character.
            # igone t=0 and start t=1, means
            decoder_target_data[i, t - 1, target_token_index[char]] = 1.

在进行模型推理的时候，你同样需要相同的一份input_token_index 与target_token_index ，那么就需要将input_characters与target_characters保存下来，在推理之前，将你输入的内容进行编码，因为只有同一份位置编码，你的网络才能认识，要不然全乱套了，下面是将input_characters与target_characters保存为txt与读取的方法：

# 将 input_characters保存为 input_words.txt 文件
with open('input_words.txt', 'w', newline='') as f:
    for char in input_characters:
        if char == '\t':
            f.write('\\t\n')
        elif char == '\n':
            f.write('\\n\n')
        else:
            f.write(char + '\n')


# 将 target_characters保存为 target_words.txt 文件
with open('target_words.txt', 'w', newline='') as f:
    for char in target_characters:
        if char == '\t':
            f.write('\\t\n')
        elif char == '\n':
            f.write('\\n\n')
        else:
            f.write(char + '\n')


# 从 input_words.txt 文件中读取字符串
with open('input_words.txt', 'r') as f:
    input_words = f.readlines()
    input_characters = [line.rstrip('\n') for line in input_words]

# 从 target_words.txt 文件中读取字符串
with open('target_words.txt', 'r', newline='') as f:
    target_words = [line.strip() for line in f.readlines()]
    target_characters = [char.replace('\\t', '\t').replace('\\n', '\n') for char in target_words]


#字符处理，以方便进行编码
input_token_index = dict([(char, i) for i, char in enumerate(input_characters)])
target_token_index = dict([(char, i) for i, char in enumerate(target_characters)])

本文标签：机器翻译中英字符模型 LSTM

版权声明：本文标题：【如何训练一个中英翻译模型】LSTM机器翻译seq2seq字符编码（一）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1726844086a1086869.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

【如何训练一个中英翻译模型】LSTM机器翻译seq2seq字符编码（一）

系列文章

更多相关文章

开源最强模型 Llama3 发布：看看羊驼提示词

FSP语言学习（十）：用时态逻辑进行模型检查

Coze玩转ChatGPT-4，大模型玩家招募中

ChatYuan元语AI: 类似ChatGPT功能型对话大模型 部署实践

【AMD GPU】使用A卡进行ai模型训练

揭秘英伟达A100、A800、H100、H800 GPU如何实现高性能大模型的百倍训练加速

搜狗拼音输入法4.2_巧用搜狗快速输入特殊字符与表情字符画

【从零开始构建GPT模型】（四）Linux篇：基于Linux内核的Ubuntu系统安装教程

现代模型论之基础

二十世纪模型论发展迅猛，势不可挡

ChatGPT的API接口的模型有多少种？这些模型都有什么功能或者在应用场景上有什么区别？【模型介绍使用与调用接口方法】

国内的几款强大的智能—AI语言模型

国产ChatGPT科大星火大模型v3.5使用教程

聊聊当下火热的通用人工智能--ChatGPT引爆的大模型时代

LLM大语言模型(典型ChatGPT)入门指南

【ChatGPT 等国内大模型人工智能访问链接汇总】

【网安AIGC专题11.1】12 CODEIE用于NER和RE：顶刊OpenAI API调用、CodeX比chatgpt更好：提示工程设计+控制变量对比实验（格式一致性、模型忠实度、细粒度性能）

刚刚，OpenAI发布了o1模型，国内可用

智能语言大模型简介

基于Transformer的翻译模型（英-＞中）

发表评论

推荐文章

Win7蓝屏代码0x00000ed怎么解决

win10+Tensorflow-gpu 1.9.0+cuda9.0+cudnn7环境配置血泪史

视频编辑软件会声会影2025旗舰版即将来临

centos7无法读取移动硬盘

移动硬盘恢复数据多少钱？恢复几率有多大？

热门文章

Android使用Chrome浏览器进行抓包

解决谷歌chrome浏览器双击没反应，不能启动（亲测好用）

Chrome浏览器地址栏显示完整网址 不隐藏httphttps的设置方法 87版本可用

电脑黑屏只有鼠标能动

【计算机毕业设计】103宠物领养系统

计算机网络总结（大全）

arm64以及amd64和龙芯4000下安装pyqt：

安装ubuntu18.04双系统时boot manager没有识别出U盘启动项

Ubuntu 14.10安装和卸载搜狗拼音输入法

java开发用win7好还是win10_Win10和Win7各有优点，大家不要再纠结哪个系统更好了！...

最新文章

Win7音频系统底层API

关于联想新电脑安装win7系统的一些问题

苹果笔记本(Macbook)删除OS X系统 安装win7方法【MacBook Proair Mac OS X】

Win7重建100M BCD系统保留分区

VMware虚拟机安装操作系统（win10）

win7安装软件时提示：无法启动此程序，因为计算机中丢失api-ms-win-core-path- l1-1-0.dll

Hyper-V 2016 上安装windows7激活重启后黑屏无法进入系统

【搜集+亲测】无法注册Flash Player的Activex控件最终解决方法（亲测，WIN7 64位系统）

【原创】 ES5高效封装WIN10系统教程2020系列（五）常用软件安装及设置

安装Win7分区时多了个128Mb的MSR分区

windows-sys16：vmware安装win10系统详细教程

Win7不用激活就能使用一年的办法

【Clover】服务器环境中通过Clover boot引导黑群晖DSM（Linux）+Win系统的解决方案与常见bug排查

苹果台式一体机笔记本安装win7双系统攻略教程

浅谈WIN7系统Aero peek预览桌面功能失效原因及恢复方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

ChatYuan元语AI: 类似ChatGPT功能型对话大模型部署实践

Chrome浏览器地址栏显示完整网址不隐藏httphttps的设置方法 87版本可用

苹果笔记本(Macbook)删除OS X系统安装win7方法【MacBook Proair Mac OS X】

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载