admin管理员组

文章数量:1579086

EMNLP2021

Introduction

不平衡样本分类可以通过对少数样本过采样或是对多数样本欠采样的方式解决,或者使用GAN进行采样使得采样之后的数据仍然遵循原始数据分布。当然,之前读过的数据增强MixText也是一种方法。
但是,少数类的困难样本通常很难被分类,因为它们嵌入到与多数类重叠的语义区域。比如,如图所示:

如Traditional Embedding展示的那样,红色的重叠区域的样本识别往往是困难的,因为它们在表面形式(例如,n-gram或语法)方面与Mahority样本相似。例如,在数据集Yelp.P中,

my parents didn’t want to go back to beautiful Miami

这是一个困难样本,这是一个表示否定的句子。但是,这与表示积极情绪的句子(M

本文标签: EmbeddingMutualDifficultSamplesSemantically