admin管理员组文章数量:1534215
一、前言
1、Skip-Thought-Vector论文
2、本文假设读者已了解Skip-Gram-Vector和RNN相关基础,以下文章可做参考:
(1)RNN古诗词生成
(2)Skip-Gram-Vector
(3)LSTM/GRU门控机制
二、实战
1、数据处理
(1)网络小说《神墓》,基于版权原因,请自行寻找数据源
(2)先对特殊符号进行处理,将整本小说按行分割成一个列表
def _process_words(file_list):
words = ''.join(file_list)
vocab = sorted(set(words))
mask = vocab[:110]+vocab[-57:]
mark = ['!', ',', ':', ';', '?', '~', '…', '、', '。', '.', '?', ';', ':', '.', ',', '!']
for m in mask:
words = words.replace(m, '\\') if m in mark else words.replace(m, '')
return words
(3)分割后的句子可能出现较多重复且意义不大的句子(如,啊,哈哈,等),对模型产生噪音。这里把高频句子剔除,用以下公式计算删除该句子的概率:
其中f(w)代表该句子出现的概率,t为一个阈值。
def _process_sentence_list(sentence_list, t=1e-5, threshold=0.5):
sentence_count = Counter(sentence_list)
total_count = len(sentence_list)
# 计算句子频率
sentence_freqs = {w: c / total_cou
本文标签: 神经网络SKIPThoughtSentence2Vec
版权声明:本文标题:基于Skip-Thought的Sentence2Vec神经网络实现 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dongtai/1726876553a1088418.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论