admin管理员组

文章数量:1630604

©PaperWeekly 原创 · 作者 | 李煜东

单位 | 深圳大学

研究方向 | 多模态机器学习

论文 CSL: A Large-scale Chinese Scientific Literature Dataset 发表在自然语言处理顶会 COLING 2022 上,由中国地质大学(北京)、深圳大学和腾讯 AI Lab 合作完成。 

该工作提出了首个中文科学文献数据集-CSL,包含约 40 万条中文论文,具有广泛的领域分类和细粒度学科标签,能用于构建多种 NLP 任务,例如文本摘要、关键词生成和文本分类等。

论文标题:

CSL: A Large-scale Chinese Scientific Literature Dataset

收录会议:

COLING 2022

论文链接:

https://arxiv/abs/2209.05034

数据集链接:

https://github/ydli-ai/CSL

引言

随着科学文献出版数量的增加,NLP 工具在科学文献写作、检索和归档上都起到愈发重要的作用。例如࿰

本文标签: 中文文献科学数据COLING