第五章：量化研究专题（第五篇：数据处理专题：去极值、标准化、中性化）|电子爱好者

admin管理员组
文章数量:1536044

导语：一般的数据预处理中常提及到三类处理：去极值、标准化、中性化。我们将向大家讲述这常见的

三种数据处理操作。

一、去极值

　　在分析上市公司当季净利润同比增长率数据时，我们往往会被其中一些公司的数据干扰，如图中江

西长运，2017 三季度净利润同比增长率高达32836.04% ！而实际上大部分公司的当季净利润同比增长

率的数值都远远达到这个值的百分之一。那么数据去极值操作就显得尤为关键，可以剔除掉数据干扰项，

提高数据结论的准确性。

　　一般去极值的处理方法就是确定该项指标的上下限，然后超过或者低于限值的数据统统即为限值。

其中上下限数值判断标准有三种，分别为 MAD 、 3σ、百分位法。

以沪深300 成分股的pe 值为原始数据，向大家阐述MAD 、 3σ、百分位法。

import numpy as np

import pandas as pd

import math

from statsmodels import regression

import statsmodels.api as sm

import matplotlib.pyplot as plt

date='20180125'

stock=get_index_stocks('000300.SH',date)

q = query(

valuation.symbol,

valuation.pe_ttm,

valuation.current_market_cap

).filter(valuation.symbol.in_(stock))

data = get_fundamentals(q,date=date)

data.columns = [['symbol','pe_ratio','market_cap']]

data = data.set_index(data.symbol.values)

del data['symbol']

data['1/PE'] = 1/data['pe_ratio']

data.head()

pe_ratio market_cap 1/PE

----------------------- Page 165-----------------------

000001.SZ 10.59 2.402355e+11 0.094429

000002.SZ 18.61 3.903084e+11 0.053735

000008.SZ 54.53 1.661121e+10 0.018339

000060.SZ 27.51 2.613508e+10 0.036350

000063.SZ -115.27 1.237605e+11 -0.008675

将1/PE 的数据分布，运用绘图函数展示出来：

fig = plt.figure(figsize = (20, 8))

ax = data['1/PE'].plot.kde(label = 'Original_PE')

ax.legend()

下图是 20180125 的沪深300 指数成分股 1/PE 的数据分布：

1. MAD 法：

　　MAD 又称为绝对值差中位数法，是一种先需计算所有因子与平均值之间的距离总和来检测离群值的

方法，处理的逻辑：

第一步，找出所有因子的中位数 Xmedian

第二步：得到每个因子与中位数的绝对偏差值 Xi−Xmedian

第三步：得到绝对偏差值的中位数 MAD

第四步：确定参数 n ，从而确定合理的范围为 [Xmedian−nMAD,Xmedian nMAD]，并针对超出合理

范围的因子值做如下的调整：

<

本文标签：极值专题第五章数据处理第五篇

版权声明：本文标题：第五章：量化研究专题（第五篇：数据处理专题：去极值、标准化、中性化）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1726917466a1090291.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

第五章：量化研究专题（第五篇：数据处理专题：去极值、标准化、中性化 ）

更多相关文章

中考英语阅读理解专题训练含答案

马斯克的极值意识思考逻辑

物联网控制APP入门专题（四）---使用android studio制作一个控制页面的APP框架

Armbian专题——YOLO目标识别

Python 实战 | ChatGPT + Python 实现全自动数据处理可视化

chatgpt赋能python：Python噪音数据处理：一个有效的解决方案

【专题】2024汽车营销白皮书-破局重生 聚势腾飞报告合集PDF分享（附原数据表）...

【行业专题报告】 汽车、二手车-专题资料

海量数据处理商用短链接生成器平台 - 11

鸟哥的Linux私房菜(服务器)- 第五章、 Linux 常用网络指令

Shader(Windows2018版)-杨振-专题视频课程

OpenGL萌谷手册(进阶级2018版)-杨振-专题视频课程

OpenGLES萌谷手册(Android2018版)-杨振-专题视频课程

OpenGLES（Android2018版）-杨振-专题视频课程

【无线网络技术专题（六）】企业无线网络设备介绍

【python入门到精通专题】1.知识与环境准备

【专题】2024年国产AI大模型应用报告合集PDF分享（附原数据表）

【深耕 Python】Data Science with Python 数据科学（10）pandas 数据处理（一）

分布式事务专题-基本理论（CAP、BASE）

【Chain-of-Thought 专题】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

发表评论

推荐文章

原装linux系统装win7系统,网购本自带Linux系统，要重装win7旗舰要到店里去吗？

【树莓派】解决树莓派4B不连接显示器开机后，用VNC无法显示画面 （cannot currently show the desktop）问题

Portraiture2024免费版PS磨皮插件

智能手机上的显卡 解读ARM架构主流的GPU

Nvidia系列之英伟达数据中心加速卡GPU大全，H200、H100、 L4、A100、V100、A800、Tesla T4、Tesla P40、Tesla M60

热门文章

【新手提问导读】提问的艺术_提问的艺术

苹果ＭＡＣ电脑怎么只装ＷＩＮ7系统

电脑开机出现“拒绝访问”，重启后又正常的处理办法

计算机专业英语词汇1695词（35天记忆）

DL之RNNLSTMGRU：《Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling门控循环神经网

jmeter导入jmx文件报错：missing class com.thoughtworks.xstream.converters.ConversionException

【转贴】中标麒麟操作系统（龙芯版）与360安全浏览器完成产品兼容性互认证测试...

怎么将chrome console控制台中变量原样的复制出来并保存下载到本地

不需要手机号，怎样注册邮箱账号

第五章：量化研究专题（第五篇：数据处理专题：去极值、标准化、中性化 ）

最新文章

Sustainable Software Development: An Agile Perspective

论文阅读综述：自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

掌握学习体验的新篇章：Leemons 开源平台

ESG: Sustainability Reporting

2013年EI 新目录中新增的期刊

RV1126过温保护以及驱动分析

[读论文] Electric Drive Technology Trends, Challenges, and Opportunities for Future Electric Vehicles

可持续农业生态系统中的核心微生物组

Back to Brazil and sustainable Curitiba

0507写作02

如何查询外文文献？

[论文阅读] 对话式推荐系统的进展与挑战：综述(Advances and Challenges in Conversational Recommender Systems: ASurvey)-01

文献解读|生物炭和细菌接种生物炭增强了污染土壤中镉和铜的固定化和酶活性

Title: “The Role of Technology in Sustainable Development: Opportunities and Challenges“

【EI会议征稿通知】2024年智能计算与数据分析国际学术会议（ICDA 2024)

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

第五章：量化研究专题（第五篇：数据处理专题：去极值、标准化、中性化）

【专题】2024汽车营销白皮书-破局重生聚势腾飞报告合集PDF分享（附原数据表）...

【行业专题报告】汽车、二手车-专题资料

【树莓派】解决树莓派4B不连接显示器开机后，用VNC无法显示画面（cannot currently show the desktop）问题

智能手机上的显卡解读ARM架构主流的GPU

第五章：量化研究专题（第五篇：数据处理专题：去极值、标准化、中性化）

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载