admin管理员组

文章数量:1530361

序列与数据框

一、Series构造:

1、同质的列表或元组构建:
指定索引值构建:

序列的索引可以通过按位置赋值的方式进行改变:

2、字典构建:通过字典构建产生的series索引为字典的键:
按照想要的顺序指定字典键的顺序使生成的索引顺序满足要求

3、通过Numpy中的一维数组构建
4、通过DataFrame中的某一列构建

二、序列的索引

获取一维数组的所有索引方法都可以应用在序列上;相对于数组索引,序列还可以使用标签索引(行名称),异于普通python切片,使用标签切片索引可以包含尾部,如obj[a:c],包含索引为c的部分。
序列的布尔索引

序列通过标签、行号、行号切片、标签列表,行号列表索引

三、序列常用属性

values:series1.values 获取由series1的值组成的数组
index:series1.index 获取series1的索引
dtype: series1.dtype 返回series1的值的类型
size:series1.size 返回series1值个数
name: series1.name=‘a’,将series1序列名称改为a; series1.index.name=‘b’;将series1序列索引名称改为b

四、序列常用的函数与方法

数组的数学和统计函数可以应用到序列对象上,另外序列还有自身的方法。
例:
np.mean(series1) #使用数组的方法
series1.mean() #使用自身的方法
如果需要进行数学函数的运算,一般首选numpy模块,因为pandas模块在这方面比较缺乏,如果对序列做统计运算,既可以用numpy模块中的函数,也可以使用序列的方法,一般首选序列方法,因为序列方法更丰富,如计算偏度,峰度等,numpy模块没有。

数学操作中,序列具有自动对齐索引特性



五、数据框构造及编辑

数据框实际是一个数据集,数据框的行代表每一条观测,列代表各个变量。各变量的数据类型可以不同。

(1)pd.DataFrame()函数构造数据框:

1、嵌套列表或元组:
每一个元素作为一行观测,行和列的标签是可选参数
2、二维数组:
类似嵌套列表或元组,数组每一行作为一条观测
3、字典:
字典的键为列名,值为每一行,可以指定列的顺序,如果传入的列不包含在字典中,将产生缺失值


4、Series构成的字典:
每个值成为一列,每个序列的行索引联合起来形成DataFrame的行索引
5、字典构成的字典:
每个内部字典成为一列,内部字典的键联合起来形成DataFrame的行索引
6、字典或序列组成的列表:
列表中的一个元素形成数据框的一行,字典的键或序列的索引联合起来形成数据框的列标签

(2

本文标签: 入门pandas