admin管理员组

文章数量:1530018

文章目录

  • tianchi电商搜索competition
    • 一、环境配置&实践数据下载
    • 二、解决方法
      • 2.1 tf-idf
      • 2.2 dssm

tianchi电商搜索competition

比赛:地址

大体思路:
这个搜索召回的问题
baseline就是dssm

一、环境配置&实践数据下载

环境是阿里云提供的jupyter
打算使用自己的机器,当然之后可以试试阿里云免费的gpu

二、解决方法

2.1 tf-idf

先用jieba分词,然后tf-idf可以提取核心词,计算query和doc的相关性得分。
但是比赛规定query和sku都是长度为128的向量,这个无法得到向量啊。
tf-idf的核心词用one-hot编码,长度也不合适。

果然是用word2vec,只是根据tf-idf去掉不重要的词。

2.2 dssm

先快速搞完dssm作为baseline吧。2022-03-19还没有开始,周六加班也不是理由。

本文标签: tianchicompetition