admin管理员组

文章数量:1530987

2023年12月18日发(作者:)

计量经济学可见内容

第一章

( 1 )经济模型

理论模型:凯恩斯的绝对收入理论

实证模型:回归模型

建模方法

结构方法:理论到模型,先验的

简化方法:数据到模型,依赖理论少

大数据时代:简化方法将用的多

(2)变量类型 p28

STA TA 中的变量可以划分为三类:分别是数值型,字符型和日期型。变量类型可通过 help

data typ显e示。

(一) 数值型变量: 数值型变量按其精度又可分为五种类型: byte、in long、floa、t double。

(二)字符串变量:字符变量通常是一些需要用文字描述的信息,如:姓名、住址等。

(三) 日期型变量: 在 STA TA 中, 1960 年 1 月 1 日被认为是第 0 天, 因此 1959 年 12 月

31 日为第-1 天

(3)显示数据类型 p30 (指出哪个变量是什么类型)

. des

obs:

vars:

size:

21

7

1,050

STATA

§Ï。¼ÆÁ¿¾­¼Ãѧ

1980 Census data for NE and NC states

14 Jun 2022 08:48

value

storage

display

variable

name

type

format

label

variable label

state

State

str13

%-13s

region cenreg Census region

byte

%-8.0g

pop

1980 Population, '000

double

%8.1f

popurb

double %8.1f

float

%9.2f

double

%8.1f

double

%8.1f

1980 Urban population,

'000

Median age, years

Marriages, '000

Divorces, '000

medage

marr

divr

Sorted by:

( 4 ) 指出指标的含义 p34

观测值序号

生成新的数据(generate可简写成 gen)

Clear

Set obs 1000

Gen x=_n

Gen y=x+100

设置观测值的组数

_n 为观察值得序号

gen 产生新变量

replace改变现有变量

Generate创建一个新的变量。 如: generate y=(y1+y2+y3+y4)/4

表示创建一个新的变量 y 是y1,y2.y3,y4的平均数。

又如: generate x1= n x2 )表示创建一个变量 x1 是 x2 的自然对数。

Replace替代一个现有变量。

如: replace X1= X1*100 表示“将 X1 变量转换为当前数值的 100 倍”

又如: replace x1 = 0 if x1

“当 x1=y 时,将其记为 0 ”

注意:在 STATA 中“== ”才是逻辑关系运算符。 “=” 则表示“让左边的值与右边相等”

用于创建新变量。

* gen urbanized= popurb/ pop

. sum urbanized

Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------

urbanized | 21 .6667691 .1500842 .3377319 .8903645

表示城市化率水平

replace urbanized=100* urbanized

. sum urbanized

Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------

urbanized | 21 66.67691 15.00843 33.77319 89.03645

百分数形式

sort(gsor命t)令 样本按照某个变量的取值排序。

如:sort x1 “表示样本按照 x1 做升序罗列”gsort -x1 “表示样本按照 x1 做降序罗列”

order命令 该命令用于控制变量与变量之间的顺序。

如: order x3 x2 x1“表示将 x3 变量排在第一列,而 x1 变量则排在第三位”

( 5 ) if exp p37 数学符号的表达式 、 if exp的范围

[if ex]示命令只针对满足 exp (普通是一个逻辑表达式)的观测;

[in rang]示命令只针对处在 range指定的范围内的观测,如 in 5指执行的范围是第 5 个观

测, in -5指执行的范围是倒数第 5 个观测, in 5/12指执行的范围是从第 5 到第 12 个观测;

[in rang][if ex]当于从一个大样本中挑出符合条件的小样本,其用处体现在两个方面。

首先是数据清理阶段,找出那些有明显的错误或者有缺失的观测。 其次是在数据处理和分析阶 段,找出有特殊兴趣或者意义的观测。

[if ex]示命令只针对满足 exp (普通是一个逻辑表达式)的观测;

[if ex]大地体现了 Stata的灵便性。逻辑表达式 exp 普通由以下成份构成:

■ 变量名

■ 数字,字符,表示缺失值的“.”

■ 关系运算符: == (等于), !=, ~= (不等于),> (大于),< (小于),>= (大于或者等 于),<= (小于或者等于)

■ 逻辑运算符: & (与), |(或者),~(非)

以下是一些应用的例子:

if age > 65 & age <( e 大于 65,小于 85 的观测)

if place ==“Canada” & pop ~= . (place为“Canada”并且 pop 不缺失的观测)

if year==1994 | year==199(7year为 1994 或者 1997 的观测)

if ~(pop==. & year==.()排除 pop 和 year都缺失的观测)

( 6 ) by varlistp40 命令、结果、含义

by 是不少命令的前缀。 [by varlist表:]示对 varlis(t分类变量)中的每一类分别执行命令。

事实上, Stata的不少命令带有不同的前缀。

例子:分区域对其他变量进行统计 by region,sort: sumedage marr divr

基本格式: [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [using filename]

options]

其中, 符号 [ 表]示可选项。 command 为 Stata的命令函数, varlis为t变量, [if exp、][in range]

用于设定变量或者观测值, [weight用]于设定观测值的权重, [using filename表]示使用的数据

文件, options表示命令的选项,不同命令的选项也不同。

[by varlist表:]示对 varlis(t分类变量)中的每一类分别执行命令( command )。

比如, 线性回归模型的命令 regress的格式为: . regress depvar [indepvars] [if] [in] [weight]

[, options] 用户可以输入如下命令: . regress depr dcpi drgdp if depr<20

-> region = NE

Variable Obs

9

9

9

Mean

31.23333

44.47922

19.30433

Std. Dev.

1.023474

47.56717

19.57721

Min

29.4

5.226

2.623

Max

32.2

144.518

61.972

medage

marr

divr

-> region = N Cntrl

Variable Obs Mean Std. Dev. Min Max

medage

marr

divr

12

12

12

29.525

47.43642

24.33583

.7008113

35.29558

19.684

28.3

6.094

2.142

30.9

109.823

58.809

( 7 ) 数据类型转换 p47 地区分类(怎么分类、描述)

第三章 经济数据的组织和整理

(1)四种类型数据 P2

横截面:给定时期,不同个体

时间序列:给定个体,不同时期, ttse设t置日期变量

混合横截面时间序列:

面板数据

横截面数据与标识符变量

在同一时间,不同统计单位相同统计指标组成的数据列。

次序任意

标识符变量:各自独立的 ID

例如, 为了研究某一行业各个企业的产出与投入的关系, 我们需要关于同一时间截面上各个

企业的产出 Q 和劳动 L、资本投入 K 的横截面数据。这些数据的统计对象显然是不同的,

因为是不同企业的数据。但是关于产出 Q 和投入 L、K 的解释、统计口径和计算方法仍然

要求相同,即本企业的 Q 、L、K 在统计上要求可比。

在分析横截面数据时,应主要注意两个问题:

一是异方差问题, 由于数据是在某一时期对个体或者地域的样本的采集, 不同个体或者地域本身 就存在差异;

二是数据的一致性,主要包括变量的样本容量是否一致、样本的取样时期是否一致、数据的

统计标准是否一致。

时间序列数据

在不同时间点上采集到的数据,这种数据反映了某一事物、现象等随时间的变化状态或者程度。

如我国国内生产总值从 1949 到 2022 的变化就是时间序列数据。

时间序列数据是同一对象跨时间的观察值的向量 所以必须按照一定顺序(X1, X2, ..., Xt)

横截面数据普通是同一时点对不同对象的观察值的集合 顺序的改变应该不影响计量的结果

{X1, X2, ..., Xn}

时间序列算符

声明时间序列: tsset命令

use stata-press/data/r11/wpi1 ,clear

tsset t

list in 1/20

gen Lwpi = /*一阶滞后*/

gen L2wpi =

gen Fwpi = /*一阶超前*/

gen Fwpi =

gen Dwpi = /*一阶差分*/

gen D2wpi =

list in 1/10

list in -10/-1

混合横截面时间序列数据 Pool Data

每一个变量都有个体和时间下标

有些数据既有横截面数据的特点又有时间序列的特点, 但每一时点的样本不同。 例如中国人

民银行自 1995 年起,每季度在全国各地储蓄所调查储户的一些看法,不同的季度构成时间

序列, 而每一个季度调查的样本构成横截面, 又因为储户人群都是流动的, 所以各个季度调查 的样本是不同的,这样获得的数据就是混合横截面数据集

collapse的用处是计算某个数据库的一些统计量,再把它存为只含有这些统计量的数据库。

用到这个命令的机会不多,我使用它是因为它可以计算中位数和从 1 到 99 的百分位数,这

些统计量在常规的数据描述命令中没有。如果要计算中位数,其命令的语法如下 collapse

(median) (( 变量名) ), by((变量名) )

面板数据(Panel) 不同个体在不同时间的表现数据

平衡面板:每一个个体在每一个时间都可观测

非平衡面板

定义面板数据变量 sort panelvar timeva sset panelvar timevar(encode)

iis panelvar tis timevar

(2) 总体组间、组内 P15 (只考有结果的)

列示出样本中主要变量的基本统计量,命令为: xtsum invest mvalue kstock

( 3)非平衡数据 p20 (看那里不平衡)

采用 STATA 自带的范例数据, 文件名为 grunfeld.d。ta里面包含了六个变量,其中 company

和 year分别表示样本公司的代码和观察的年份,相当于我们前面提到的截面变量和时间变

量;invest表示公司的投资额; mvalue 表示公司的市场价值; kstock表示公司的资本存量。

考 总 体 组 间 、 组 内

非 平 衡 数 据 ( 看 哪 里 不 平 衡 )

(补充)

( 1 )什么是假设检验 p2

假设检验也叫显著性检验,是统计判断的基本内容之一。 在实践中, 我们往往会遇到这样的

问题: 我们根据样本观测得到的一些结论、 根据经验积累得到的一些认识, 以及由此得到的

一些判断是否成立?

例如, 居民的收入水平是否提高 农作物的产量是否增加 产品的质量是否上升 经济发展的地

区差别是否存在 现象之间的数量关系是否成立 事物的发展是否具有某种规律等

( 2)三种形式

正 态 性 检 验 结 果

T 检 验 结 果 反 映 了 什 么 ?

(4)是否接受原假设 p16

( 5 )检验工资水平 (结果是?)

( 6)第一步:正态性检验 p25

性 检

(7) P值检验 p27

第三步:两独立样本t检验

ttest 变量名, by(分组变量名) [unequal]

ttesti#obs1 #mean1 #sd1 #obs2 #mean2 #sd2 [,unequal]

unequal 表示假设两组方差不齐,如不选表示假设两组方差达到齐性

ttest x,by(g)

ttest x,by(g)

ttest 变量名, by(分组变量名) [unequal]

ttesti#obs1 #mean1 #sd1 #obs2 #mean2 #sd2 [,unequal]

unequal 表示假设两组方差不齐,如不选表示假设两组方差达到齐性

结论: t= -1.8066,双侧 P=0.0839>0.05,不拒绝 H0 ,差别没有统计学意义,还不能认为病

人于正常人的尿中 17 酮类固醇排出量不同。

(8) 什么是方差分析? P41

1、方差分析的基本原理是在 20 世纪 20 年代由英国统计学家 Ronald 在r进行实验设

计时为解释实验数据而首先引入的

2、检验多个总体均值是否相等(通过分析数据的误差,判断各总体均值是否相等)

3、研究分类型自变量对数值型因变量的影响 (一个或者多个分类型自变量、两个或者多个 (k

个) 处理水平或者分类、一个数值型因变量)

4、有单因子方差分析和双因子方差分析

单因子方差分析:涉及一个分类的自变量

双因子方差分析:涉及两个分类的自变量

1、如果只考虑“超市位置”对销售额是否有显著影响,实际上也就是要判断不同位置超市

的销售额均值是否相同

若它们的均值相同,意味着“超市位置”对销售额没有显著影响;若均值不全相同,则

意味着“超市位置”对销售额有显著影响

“超市位置”就是分类自变量, “销售额”则是数值因变量。 “超市位置”是要检验的对

象,称为因子(factor,)商业区、居民小区、写字楼是因子的 3 个取值,称为水平(level或者)处 理(treatmen。t)每一个因子水平下得到的销售额为样本观测值

2、方差分析要解决的问题就是判断超市的位置对销售额是否有显著影响。设商业区、居民

小区和写字楼 3 个位置超市的销售额均值是否相同

误差的大小用均方 (mean square来)表示,也称为方差 (variance)

平方和除以相应的自由度

总平方和(SST)的自由度为n-1;组内平方和(SS 组内)的自由度为n-k ;组间平方和(SS 组间)

的自由度为 k-1

组内平方和除以相应的自由度结果称为组内方差 (within-group varian;ce)

误差的大小用均方 (mean square来)表示,也称为方差 (variance)

平方和除以相应的自由度

总平方和(SST)的自由度为n-1;组内平方和(SS 组内)的自由度为n-k ;组间平方和(SS 组间)

的自由度为 k-1

组内平方和除以相应的自由度结果称为组内方差 (within-group varian;ce)

组间平方和除以相应的自由度结果称为组间方差 (between-group variance)

P41 方差分析的概念(组间、组内、总体)

方差分析的基本原理 p45

(误差分析)

判断原假设是否成立,就是判断组间方差与组内方差是否有显著差异

若原假设成立,组间均方与组内均方的数值就应该很接近,它们的比值就会接近 1

若原假设不成立,组间均方会大于组内均方,它们之间的比值就会大于 1

当这个比值大到某种程度时, 就可以说不同水平之间存在着显著差异, 即自变量对因变量有

影响

方 差

基 本

假 设

p47

One

way

54 方(

差 是

否 相

等)

结论:

分 组

设 置

没 有

显 著

意 义

p57

P63

值 判

小结 单因素方差分析

两因素方差分析

oneway x g,t sch bon

anova x g b

第4章 线

性 回

相 关

系 数

p13

P19

不 独

立,显

相 关

系 数

的 显

著 性

检 验

p21

线 性

回归

P42

离 方

差 和

的 分

P43

判 定

系 数

( 方

法)

P44

P45

意义

P49

Ss 残

Df

Ms

方差

(写出模型、表达含义、边际效应)

P49

检 测

回 归

共 线

P62

检 验

方法

P 80

约束

本文标签: 数据变量是否命令统计