admin管理员组

文章数量:1579446

                                   酒店评论数据分析

英文文本多分类(实验过程仅供参考)

实验任务:

对酒店评论进行情感分析,具体评分存入 Testing data;此实验看似为评论情感打分,实则做文本分类。可使用模型:朴素贝叶斯,SVM,XGBoost,逻辑回归……

实验步骤

数据清洗(去停用词,词干提取)——>特征提取(词袋模型,tfidf)——>模型训练——>预测结果

数据集展示:

Training Data:

实验过程

自然语言处理:

1、读取数据(使用pandas库中的read_csv()方法读取训练数据,输出数据为DataFrame型),并输出数据规模

​
df = pd.read_csv(r'D:\Documents\作业\机器学习\任务\Training data.csv')
df = df[['Review', 'Rating']]
print("数据总量: %d " % len(df))

​

运行结果:

2、数据清洗,查看空值个数

print("在 review 列中总共有 %d 个空值." % df['Review'].isnull().sum())
print("在 rating 列中总共有 %d 个空值." % df['Rating'].isnull().sum())
df[df.isnull().values == True]
df = df[pd.notnull(df['Review'])]

3、统计各类别的值,并输出

# 统计各类别的值
d = {'Rating': df['Rating'].value_counts().index, 'count': df['Rating'].value_counts()}
df_Rating = pd.DataFrame(data&

本文标签: 英文文本酒店数据