admin管理员组

文章数量:1663190

业务指标和数据分析报告

1)业务指标

2、如何做数据分析报告?
数据分析思维:漏斗思维,分类思维,平衡思维,A/B test等
相关性和因果关系的区别, 通过案例可以分析出来

excel

应用Excel函数最重要的能力是学会搜索
需要掌握的核心技能有:

常用函数的使用,基础图表的制作,数据透视表,vlookup

清洗处理类

主要是文本、格式以及脏数据的清洗和转换。
Trim
清除掉字符串两边的空格。
MySQL有同名函数,Python有近似函数strip。

=Concatenate(单元格1,单元格2……)合并单元格中的内容
MySQL有近似函数concat。

=Replace(指定字符串,哪个位置开始替换,替换几个字符,替换成什么)
替换掉单元格的字符串,清洗使用较多。
MySQL中有同名函数,Python中有同名函数。

Substitute
和replace接近,区别是替换为全局替换,没有起始位置的概念

Left/Right/Mid
=Mid(指定字符串,开始位置,截取长度)
截取字符串中的字符。Left/Right(指定字符串,截取长度)。left为从左,right为从右,mid如上文示意。
MySQL中有同名函数。

Len/Lenb
返回字符串的长度,在len中,中文计算为一个,在lenb中,中文计算为两个。
MySQL中有同名函数,Python中有同名函数。

=Find(要查找字符,指定字符串,第几个字符)
查找某字符串出现的位置,可以指定为第几次出现,与Left/Right/Mid结合能完成简单的文本提取
MySQL中有近似函数 find_in_set,Python中有同名函数。

Search
和Find类似,区别是Search大小写不敏感,但支持*通配符

Text
将数值转化为指定的文本格式,可以和时间序列函数一起看

关联匹配类

在进行多表关联或者行列比对时用到的函数,越复杂的表用得越多。多说一句,良好的表习惯可以减少这类函数的使用。

Lookup
=Lookup(查找的值,值所在的位置,返回相应位置的值)
最被忽略的函数,功能性和Vlookup一样,但是引申有数组匹配和二分法。

Vlookup
=Vlookup(查找的值,哪里找(表),找哪个位置的值,是否精准匹配)
=Vlookup( lookup_value ,table_array,col_index_num,[range_lookup] )

Index
=Index(查找的区域,区域内第几行,区域内第几列)
和Match组合,媲美Vlookup,但是功能更强大。

Match
=Match(查找指定的值,查找所在区域,查找方式的参数)
和Lookup类似,但是可以按照指定方式查找,比如大于、小于或等于。返回值所在的位置。

Offset
=Offset(指定点,偏移多少行,偏移多少列,返回多少行,返回多少列)
建立坐标系,以坐标系为原点,返回距离原点的值或者区域。正数代表向下或向左,负数则相反。

逻辑运算类

数据分析中不得不用到逻辑运算,逻辑运算返回的均是布尔类型,True和False。很多复杂的数据分析会牵扯到较多的逻辑运算

IF
经典的如果但是,在后期的Python中,也会经常用到,当然会有许多更优雅的写法。也有ifs用法,取代if(and())的写法。
MySQL中有同名函数,Python中有同名函数。

And
全部参数为True,则返回True,经常用于多条件判断。
MySQL中有同名函数,Python中有同名函数。

Or
只要参数有一个True,则返回Ture,经常用于多条件判断。
MySQL中有同名函数,Python中有同名函数。

IS系列
常用判断检验,返回的都是布尔数值True和False。常用ISERR,ISERROR,ISNA,ISTEXT,可以和IF嵌套使用。

计算统计类

常用的基础计算、分析、统计函数,以描述性统计为准。具体含义在后续的统计章节再展开。

Sum/Sumif/Sumifs
统计满足条件的单元格总和,SQL有中同名函数。
MySQL中有同名函数,Python中有同名函数。

Sumproduct
统计总和相关,如果有两列数据销量和单价,现在要求卖出增加,用sumproduct是最方便的。

MySQL中有同名函数。
Count/Countif/Countifs
统计满足条件的字符串个数
MySQL中有同名函数,Python中有同名函数。

Max
返回数组或引用区域的最大值
MySQL中有同名函数,Python中有同名函数。

Min
返回数组或引用区域的最小值
MySQL中有同名函数,Python中有同名函数。

Rank
排序,返回指定值在引用区域的排名,重复值同一排名。
SQL中有近似函数row_number() 。

Rand/Randbetween
常用随机抽样,前者返回0~1之间的随机值,后者可以指定范围。
MySQL中有同名函数。

Averagea
求平均值,也有Averageaif,Averageaifs
MySQL中有同名函数,python有近似函数mean。

=Quartile(指定区域,分位参数)
计算四分位数,比如1100的数字中,25分位就是按从小到大排列,在25%位置的数字,即25。参数0代表最小值,参数4代表最大值,13对应25、50(中位数)、75分位

Stdev
求标准差,统计型函数,后续数据分析再讲到

Substotal
=Substotal(引用区域,参数)
汇总型函数,将平均值、计数、最大最小、相乘、标准差、求和、方差等参数化,换言之,只要会了这个函数,上面的都可以抛弃掉了。

Int/Round
取整函数,int向下取整,round按小数位取数。
round(3.1415,2) =3.14 ;
round(3.1415,1)=3.1

时间序列类
专门用于处理时间格式以及转换,时间序列在金融、财务等数据分析中占有较大比重。时机序列的处理函数比我列举了还要复杂,比如时区、分片、复杂计算等。这里只做一个简单概述。

Year
返回日期中的年
MySQL中有同名函数。

Month
返回日期中的月
MySQL中有同名函数。

Weekday
=Weekday(指定时间,参数)
返回指定时间为一周中的第几天,参数为1代表从星期日开始算作第一天,参数为2代表从星期一开始算作第一天(中西方差异)。我们中国用2为参数即可。
MySQL中有同名函数。

Weeknum
=Weeknum(指定时间,参数)
返回一年中的第几个星期,后面的参数类同weekday,意思是从周日算还是周一。
MySQL中有近似函数 week。

Day
返回日期中的日(第几号)
MySQL中有同名函数。

Date
=Date(年,月,日)
时间转换函数,等于将year(),month(),day()合并
MySQL中有近似函数 date_format。

Now
返回当前时间戳,动态函数
MySQL中有同名函数。

Today
返回今天的日期,动态函数
MySQL中有同名函数。

Datedif
=Datedif(开始日期,结束日期,参数)
日期计算函数,计算两日期的差。参数决定返回的是年还是月等。
MySQL中有近似函数 DateDiff。

NumPy(Numeric Python)系统

Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。

NumPy提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些本来使用C++,Fortran或Matlab等所做的任务。

包含

一个强大的N维数组对象 ndarray
广播功能函数
整合 C/C++/Fortran 代码的工具
线性代数、傅里叶变换、随机数生成等功能

组合

NumPy 通常与 SciPy(Scientific Python)和 Matplotlib(绘图库)一起使用, 这种组合广泛用于替代 MatLab,是一个强大的科学计算环境,有助于我们通过 Python 学习数据科学或者机器学习。

SciPy 是一个开源的 Python 算法库和数学工具包。

SciPy 包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。

Matplotlib 是 Python 编程语言及其数值数学扩展包 NumPy 的可视化操作界面。它为利用通用的图形用户界面工具包,如 Tkinter, wxPython, Qt 或 GTK+ 向应用程序嵌入式绘图提供了应用程序接口(API)。

注意

1、import numpy 和 from numpy import *两种方式都是引入numpy库中的所有函数、函数、对象、变量等,两者的区别在于调用其中内容时不同.以调用numpy中的random模块为例,第一种方式要用numpy.random,第二种方式只用random即可。但是请特别注意:pep标准推荐使用第一种方式,请在日常使用中尽量使用第一种方法,就比如numpy中random 标准库中也有random,但是两者的功能是不同的,使用第二种方式容易造成混淆

使用

1、numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)
object 数组或嵌套的数列
dtype 数组元素的数据类型,可选
copy 对象是否需要复制,可选
order 创建数组的样式,C为行方向,F为列方向,A为任意方向(默认)
subok 默认返回一个与基类类型一致的数组
ndmin 指定生成数组的最小维度

ndarray 对象由计算机内存的连续一维部分组成,并结合索引模式,将每个元素映射到内存块中的一个位置。内存块以行顺序(C样式)或列顺序(FORTRAN或MatLab风格,即前述的F样式)来保存元素。

numpy 支持的数据类型比 Python 内置的类型要多很多,基本上可以和 C 语言的数据类型对应上,其中部分类型对应为 Python 内置的类型。

numpy 的数值类型实际上是 dtype 对象的实例,并对应唯一的字符,包括 np.bool_,np.int32,np.float32,等等。

数据类型对象 (dtype)

数据类型对象是用来描述与数组对应的内存区域如何使用,这依赖如下几个方面:

数据的类型(整数,浮点数或者 Python 对象)
数据的大小(例如, 整数使用多少个字节存储)
数据的字节顺序(小端法或大端法)
在结构化类型的情况下,字段的名称、每个字段的数据类型和每个字段所取的内存块的部分
如果数据类型是子数组,它的形状和数据类型
字节顺序是通过对数据类型预先设定"<“或”>“来决定的。”<“意味着小端法(最小值存储在最小的地址,即低位组放在最前面)。”>"意味着大端法(最重要的字节存储在最小的地址,即高位组放在最前面)。

dtype 对象是使用以下语法构造的:

numpy.dtype(object, align, copy)
object - 要转换为的数据类型对象
align - 如果为 true,填充字段使其类似 C 的结构体。
copy - 复制 dtype 对象 ,如果为 false,则是对内置数据类型对象的引用

举例:import numpy as np
#int8, int16, int32, int64 四种数据类型可以使用字符串 ‘i1’, ‘i2’,‘i4’,‘i8’ 代替
dt = np.dtype(‘i4’)
print(dt)
输出结果为:
int32

概率论及统计学知识

需要掌握的核心技能有:

描述性统计(平均值,标准差,中位数)

概率(独立事件,相关事件,期望,包括贝叶斯)

概率分布(离散概率分布,连续概率分布)

统计推断(抽样,置信区间,假设检验)
均值:均值概念最为简单,即所有采样点的值相加再除以采样个数。
方差:是各个数据分别与其平均数之差的平方的和的平均数,用字母D表示。在概率论和数理统计中,方差(Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着重要意义。
标准差公式是一种数学公式。标准差也被称为标准偏差,或者实验标准差,公式如下所示:标准差=方差的算术平方根=s=sqrt(((x1-x)^2 +(x2-x)^2 +…(xn-x)^2)/n)。
偏度(Skewness): 是对Sample构成的分布的对称性状况的描述。计算时间序列 xx 的偏度,偏度用于衡量 xx 的对称性。若偏度为负,则 xx 均值左侧的离散度比右侧强;若偏度为正,则 xx均值左侧的离散度比右侧弱。对于正态分布(或严格对称分布)偏度等于 00。
偏度(Skewness)用来描述数据分布的对称性,正态分布的偏度为0。计算数据样本的偏度,当偏度<0时,称为负偏,数据出现左侧长尾;当偏度>0时,称为正偏,数据出现右侧长尾;当偏度为0时,表示数据相对均匀的分布在平均值两侧,不一定是绝对的对称分布,此时要与正态分布偏度为0的情况进行区分。当偏度绝对值过大时,长尾的一侧出现极端值的可能性较高。
峰度(Kurtosis)用来描述数据分布陡峭或是平滑的情况。正态分布的峰度为3,峰度越大,代表分布越陡峭,尾部越厚;峰度越小,分布越平滑。很多情况下,为方便计算,将峰度值-3,因此正态分布的峰度变为0,方便比较。在方差相同的情况下,峰度越大,存在极端值的可能性越高。
print(s.skew())%偏度计算
print(s.kurt())%峰度计算

显著性水平:显著性水平是在进行假设检验时事先确定一个可允许的作为判断界限的小概率标准。检验中,依据显著性水平大小把概率划分为二个区间,小于给定标准的概率区间称为拒绝区间,大于这个标准则为接受区间。

值:P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。

总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。

误差条 error bar。在实验中单次测量总是难免会产生误差,为此我们经常测量多次,然后用测量值的平均值表示测量的量,并用误差条来表征数据的分布,其中误差条的高度为±标准误。

条件概率,条件概率是指事件A在另外一个事件B已经发生条件下的发生概率,换句话说,事件A发生的概率要考虑事件B的影响。

使用我们已有的一些知识或信念(通常称为先验)来帮助我们计算相关事件的概率。
其中A和B是事件,P(A | B)是B事件在事件A已经发生时发生的条件概率(P(B | A)具有类似的含义,但A和B的作用相反)和P(A)和P(B)分别是事件A和事件B的边际概率。
从一包传统的扑克牌中挑选一张牌。包装中有52张卡片,其中26张为红色,26张为黑色。如果我们知道卡片是红色的,那么卡片为4的概率是多少?
为了将其转换为我们在上面看到的数学符号,我们可以说事件A是选择的卡片是4,事件B是卡片是红色的。因此,在我们的例子中,上式中的P(A | B)是P(4 | red),这是我们想要计算的。我们之前已经得出这个概率等于1/13(有26张红牌,其中2张是4),但让我们用贝叶斯定理来计算。
我们需要在等式右侧找到要求的概率。他们是:
P(B | A)= P(红色| 4)= 1/2
P(A)= P(4)= 4/52 = 1/13
P(B)= P(红色)= 1/2
当我们将这些数字代入贝叶斯定理的方程时,得到1/13,这是我们期待的答案。
右侧的P(A)是已知的先验表达式。在我们的例子中,这是P(A =冰淇淋销售),即出售冰淇淋的(边际)概率,无论外面的天气类型如何。P(A)被称为先验,因为我们可能已经知道出售冰淇淋的边际概率。例如,我可以查看一些数据,该数据显示,在某个商店的某个商店里,有30个人实际购买了冰淇淋。所以我的P(A =冰淇淋销售)= 30/100 = 0.3,在我了解天气之前。这就是贝叶斯定理允许我们合并先验信息的方法。

给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即“模型已定,参数未知”。例如,我们知道这个分布是正态分布,但是不知道均值和方差;或者是二项分布,但是不知道均值。 最大似然估计(MLE,Maximum Likelihood Estimation)就可以用来估计模型的参数。MLE的目标是找出一组参数,使得模型产生出观测数据的概率最大:
代替事件A叫法,我们通常会用Θ,这个符号叫做Theta。Theta是我们感兴趣的,它代表了一组参数。因此,如果我们试图估计高斯分布的参数值,则Θ表示平均值μ和标准偏差σ(在数学上写为Θ= {μ,σ})。
代替事件B叫法,我们用数据y ={y1,y2,…,yn}。这些代表数据,即我们拥有的观察集。我将明确地使用等式中的数据来希望使等式变得不那么神秘。
所以现在贝叶斯模型形式的定理写成:

我们已经看到P(Θ)是先验分布。它代表了我们对参数真实价值的信念,就像我们的分布代表了我们对出售冰淇淋概率的看法一样。
左侧的P( Θ|data)称为后验分布。这是在我们计算右侧的所有内容并将观察到的数据考虑在内之后表示我们对参数值的信念的分布。

我们先根据以往的经验预估一个’先验概率’P(A),然后加入新的信息(实验结果B),这样有了新的信息后,我们对事件A的预测就更加准确。

因此,贝叶斯定理可以理解成下面的式子:
后验概率(新信息出现后的A概率) = 先验概率(A概率) x 可能性函数(新信息带来的调整)

1.全概率公式
这个公式的作用是计算贝叶斯定理中的P(B)。
第1步. 分解问题
1)要求解的问题是什么?
2)已知条件是什么?
第3步,求贝叶斯公式中的2个指标
1)求先验概率
2)求可能性函数
3)带入贝叶斯公式求后验概率

为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。

因为它假定所有的特征在数据集中的作用是同样重要和独立的,正如我们所知,这个假设在现实世界中是很不真实的,因此,说是很“朴素的”。

朴素贝叶斯分类是一种十分简单的分类算法,其思想是朴素的,即:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

回归分析

线性回归

利用大量的样本D=(xi,yi)通过有监督的学习,学习到由x到y的映射f,利用该映射关系对未知的数据进行预估,因为y为连续值,所以是回归问题。

线性回归主要用来解决连续值预测的问题,而逻辑回归用来解决分类的问题,输出的属于某个类别的概率。

损失函数

逐步最小化损失函数的过程,损失函数用来衡量参数选择的准确性。损失函数定义为:

这个公式计算的是线性回归分析的值与实际值的距离的平均值。显然,损失函数得到的值越小,损失也就越小。

梯度下降

损失函数的定义是一个凸函数,可以使用凸优化的一些方法:
梯度下降:逐步最小化损失函数的过程。如果下山的过程,找准下山方向(梯度),每次迈进一步,直至山地。如果有多个特征,对应多个参数θ,需要对每一个参数做一次迭代

Logistic回归(逻辑回归)

监督学习,解决二分类问题。与线性回归不同,逻辑回归主要用于解决分类问题
分类的本质:在空间中找到一个决策边界来完成分类的决策

逻辑回归:线性回归可以预测连续值,但是不能解决分类问题,我们需要根据预测的结果判定其属于正类还是负类。所以逻辑回归就是将线性回归的(−∞,+∞)
(−∞,+∞)结果,通过sigmoid函数映射到(0,1)。

逻辑回归损失函数:对数损失函数
线性回归的损失函数为平方损失函数,如果将其用于逻辑回归的损失函数,则其数学特性不好,有很多局部极小值,难以用梯度下降法求最优。
Sigmoid函数

逻辑回归首先把样本映射到[0,1]之间的数值,这就归功于sigmoid函数,可以把任何连续的值映射到[0,1]之间,数越大越倾向于0,越小越趋近与1.sigmoid函数公式如下:


判定边界:对多元线性回归方程求sigmoid函数
找到一组θ,假设得到 -3 + X1 + X2 = 0的直线,把样本分为两类。把(1,1)带入g函数,概率值<0.5,就判定为负样本。这条直线就是判定边界,如下图:

LR的优点:
LR是以概率的形式输出结果,不只是0和1的判定
LR的可解释强,可控性高
训练快,feature engineering之后效果赞
因为结果是概率,可以做ranking model
添加feature简单

LR的应用场景:
CTR预估、推荐系统的learning to rank
一些电商搜索排序基线
一些电商的购物搭配推荐
新闻ap排序基线

虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层sigmoid函数(非线性)映射,即先把特征线性求和,然后使用sigmoid函数来预测。

这主要是由于线性回归在整个实数域内敏感度一致,而分类范围,需要在[0,1]之内。而逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,其回归方程与回归曲线如下图所示。逻辑曲线在z=0时,十分敏感,在z>>0或z<<0处,都不敏感,将预测值限定为(0,1)。

利用正则化解决过拟合问题

方法一:尽量减少选取变量的数量
方法二:正则化
正则化中我们将保留所有的特征变量,但是会减小特征变量的数量级(参数数值的大小θ(j))。
正则化的作用:
① 控制参数变化幅度,对变化大的参数惩罚(实际上,这些参数的值越小,通常对应于越光滑的函数,也就是更加简单的函数。因此 就不易发生过拟合的问题。)
② 限制参数搜索空间

术语"泛化"指的是一个假设模型能够应用到新样本的能力
决策树

实际上就是寻找最纯净的划分方法,这个最纯净在数学上叫纯度,纯度通俗点理解就是目标变量要分得足够开。

实际决策树算法往往用到的是,纯度的另一面也即不纯度,不纯度的选取有多种方法,每种方法也就形成了不同的决策树方法,比如ID3算法使用信息增益作为不纯度;C4.5算法使用信息增益率作为不纯度;CART算法使用基尼系数作为不纯度。

决策树要达到寻找最纯净划分的目标要干两件事,建树和剪枝
建树:
(1)如何按次序选择属性
ID3算法用的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系数。决策树方法是会把每个特征都试一遍,然后选取那个,能够使分类分的最好的特征,也就是说将A属性作为父节点,产生的纯度增益(GainA)要大于B属性作为父节点,则A作为优先选取的属性。

K-means方法是一种非监督学习的算法,它解决的是聚类问题。

适用范围:
K-menas算法试图找到使平凡误差准则函数最小的簇。当潜在的簇形状是凸面的,簇与簇之间区别较明显,且簇大小相近时,其聚类结果较理想。前面提到,该算法时间复杂度为O(tkmn),与样本数量线性相关,所以,对于处理大数据集合,该算法非常高效,且伸缩性较好。但该算法除了要事先确定簇数K和对初始聚类中心敏感外,经常以局部最优结束,同时对“噪声”和孤立点敏感,并且该方法不适于发现非凸面形状的簇或大小差别很大的簇。

缺点:
1、聚类中心的个数K 需要事先给定,但在实际中这个 K 值的选定是非常难以估计的,很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适;
2、Kmeans需要人为地确定初始聚类中心,不同的初始聚类中心可能导致完全不同的聚类结果。(可以使用K-means++算法来解决)

本算法的时间复杂度:O(tkmn),其中,t为迭代次数,k为簇的数目,m为记录数,n为维数;
空间复杂度:O((m+k)n),其中,k为簇的数目,m为记录数,n为维数。

1、算法简介:K-means方法是聚类中的经典算法,数据挖掘十大经典算法之一;算法接受参数k,然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足聚类中的对象相似度较高,而不同聚类中的对象相似度较小。

2、算法思想:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直到得到最好的聚类结果。

3、算法描述:
(1)适当选择c个类的初始中心;
(2)在第k次迭代中,对任意一个样本,求其到c各中心的距离,将该样本归到距离最短的那个中心所在的类;
(3)利用均值等方法更新该类的中心值;
(4)对于所有的C个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束;否则继续迭代。

KNN(K-Nearest Neighbor)介绍

算法思路:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN是一种memory-based learning,也叫instance-based learning,属于lazy learning。即它没有明显的前期训练过程,而是程序开始运行时,把数据集加载到内存后,不需要进行训练,就可以开始分类了。 具体是每次来一个未知的样本点,就在附近找K个最近的点进行投票。

KNN和K-Means的区别

特征构建比较麻烦,需要一定的经验。 特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征;而特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集。两者都能帮助减少特征的维度、数据冗余,特征提取有时能发现更有意义的特征属性,特征选择的过程经常能表示出每个特征的重要性对于模型构建的重要性。

本文标签: 分析师数据何成