Kaggle实战入门（二）之房价预测Housing Prices Competition|电子爱好者

admin管理员组
文章数量:1529463

这是博主第二个kaggle项目，Housing Prices Competition。这个项目是基于波士顿房价改编的数据集对房子的价格进行预测。虽然是基于波士顿房价数据集，但改编过后有着80多个数据特征，还是有一定难度的。下面给大家分享一下我的做法把，同样地在kaggle上排到了前10%的成绩。

Part1.数据导入和初步分析

先来初步观察一下我们这次要用到的数据集

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(font_scale=1)
train=pd.read_csv('train.csv')
test=pd.read_csv('test.csv')
train.head()

可以看到我们这一次使用的数据集的特征数目是比较多的，有81个特征。
看到那么多的特征数，我们自然而然的会想到，81个特征里面是不是每一个都对我们的房价有着很重要的影响呢，所以接下来我们就来看一下每一个特征对房间的影响程度到底有多少。

corr=train.drop('Id',1).corr().sort_values(by='SalePrice',ascending=False).round(2)
print(corr['SalePrice'])

使用train.corr()参数来查看我们每一个特征对于’SalePrice’之间的影响程度

画出热点图（颜色越深就说明这个特征对我们的房价影响越大）

plt.subplots(figsize=(15, 8))
sns.heatmap(corr, vmax=.8, square=True);

提取出前十个重要的特征，再次画出他们的热点图

cols =corr['SalePrice'].head(10).index
cm = np.corrcoef(train[cols].values.T)
sns.set(font_scale=1)
hm = sns.heatmap(cm, annot=True, yticklabels=cols.values, xticklabels=cols.values)
plt.show()

到这里，我们就可以清楚的看到对于房价影响最深的10个特征分别是：OverallQual（房屋的整体材料饰物的评分），GrLivArea（房子的面积），TotalBsmtSF（地下室总面积），GarageCars（车库的容量），1stFlrSF（1楼的面积），GarageArea（车库的面积），FullBath（地面上浴室的数量），TotRmsAbvGrd（地上不包括浴室的房间数），YearBuilt（房子建造的年龄）。
我们可以画出这十个特征与房价之间的依赖图，看下他们到底是怎样影响我们的房价的。

sns.pairplot(train[corr['SalePrice'].head(10).index],kind='reg')

从我们的依赖图中可以看到有几个特征对于房价的影响是线性相关的（GrLivArea，TotalBsmtSF，1stFlrSF，GarageArea），房价会随着这几个特征的上升而上升，这就是我们81个特征当中的关键特征。kaggle社区上有参赛者会直接选择使用这十个特征来进行建模，这是可行的做法，但获得的分数并不会太高。

Part2.数据处理

将训练集和数据集的数据进行合并，开始我们的数据处理

trainrow=train.shape[0]
testrow=test.shape[0]
testids=test['Id'].copy()
y_train=train['SalePrice'].copy()
data=pd.concat((train,test)).reset_index(drop=True)
data=data.drop('SalePrice',1)
data=data.drop('Id',axis=1)

(1).异常值的处理
在数据集当中有两个特征(GrLivArea,GarageYrBlt)是有离群值和异常值的，所以我们优先处理了这两个特征。

sns.scatterplot(x='GrLivArea',y='SalePrice',data=train)

从散点图可以看到房价是随着居住面积的增加而上涨的，这符合我们的常识。但是右下角出现了两个离群值，面积增加了但是房价并没有增加。这是我们所不希望看到的情况，所以我们要将这两个离群值去掉。

train=train.drop(train.loc[(train['GrLivArea']>4000) &

本文标签：实战房价入门 kaggle Prices

版权声明：本文标题：Kaggle实战入门（二）之房价预测Housing Prices Competition 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1726692926a1080898.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Kaggle实战入门（二）之房价预测Housing Prices Competition

Part1.数据导入和初步分析

Part2.数据处理

更多相关文章

【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce

Jenkins + Django 完整实战，细化到每一步操作

Service Mesh入门实战

sql注入---入门到进阶

JAVAWEB开发之权限管理(二)——shiro入门详解以及使用方法、shiro认证与shiro授权

这可能是最为详细的Docker入门吐血总结

开发C++视频编辑器 OpenCV3.2 &amp; FFmpeg &amp; Qt5实战

【Python】实战100例

渗透测试即时入门（一）

Kaggle Titanic Competition-第一部分

试试让ChatGPT 4.0告诉我们Fluent如何快速入门？

虚拟化linux内存复用技术,【虚拟化实战】VM设计之二内存机制

QQ邮箱登录PC布局实战笔记四

Django项目实战——8—(判断用户是否登录并返回JSON、Django发送邮件的配置、生成邮箱验证链接、验证邮箱后端逻辑)

巧用小程序·云开发实现邮件发送功能丨实战

EndNote20安装教程（非常详细）从零基础入门到精通，看完这一篇就够了(2)

如何发布个人网站（入门全套，小白专用，Linux服务器）

两万字长文总结，梳理 Java 入门进阶那些事（推荐收藏）

FT2004(D2000)开发实战之AMD R5 230显卡驱动适配

FT2004(D2000)开发实战之AMD HD8570显卡驱动适配

发表评论

推荐文章

用计算机连接路由器,用路由器怎么连接两台电脑

solidity合约验证

一芯FC1178BCFC1179主控U盘量产修复指南

macwindows用Chrome浏览器截取长图

使用Python自动打开Chrome浏览器

热门文章

【云域网络社区】云域网络社区APP

支付宝沙箱版app登入失败账户不存在问题

微信中如何实现APP分享链接判断，实现在朋友圈分享的下载链接在默认浏览器或者苹果商店（App Store）打开

计算机蓝屏代码0x0000007b,电脑开机出现蓝屏代码0x0000007b怎么办?

【效率提升】谷歌浏览器搜索技巧

从在固态盘装系统到安装mysql到可以跑程序的踩坑集

python第三方插件登陆——QQ

【解决】在Chrome浏览器Cookies内，给项目手动添加token，会报红且无法保存

清除Chrome浏览器DNS缓存

输入法：QQ五笔输入法在Excel2010首次输入时，会在单元格内容产生一个空格

最新文章

计算机怎么关闭开机自启应用,如何关闭电脑开机自动启动的软件程序

windows计算机无法打开,电脑无法运行Win11是怎么回事？

win10 电脑开机底部任务栏无反应（鼠标一直转圈，部分图标不显示）

电脑开机一两秒就断电怎么办？

电脑开机出现黑屏，出现“windows 未能启动，原因可能更改了硬件或者软件，解决此类问题的步骤”

windows电脑改造为linux

查看电脑开机关机记录

电脑设置开机自启动软件

计算机常年开机,电脑长时间开机的危害

插入安装光盘并重新启动计算机,电脑开机时显示 插入windows安装光盘并重新启动计算机 怎么解决 急救...

玩转电脑|如何取消开机按 CTRL+ALT+DEL 登陆系统

电脑关机 重启 开机怎么看日志

计算机系统不升级设置,笔记本电脑怎么设置不更新系统？

电脑引导,电脑常见开机引导错误的解决方法

电脑开机内存占用过高处理

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

开发C++视频编辑器 OpenCV3.2 & FFmpeg & Qt5实战

插入安装光盘并重新启动计算机,电脑开机时显示插入windows安装光盘并重新启动计算机怎么解决急救...

电脑关机重启开机怎么看日志

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载