2021 数据挖掘与大数据分析复习笔记电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南|电子爱好者

admin管理员组
文章数量:1547083

狼狈不堪的数据挖掘期末课程复习结束辽
给这门课程画上一个句号吧！
虽然之后主要方向是搞开发了但是万一以后想去搞大数据捏~

这是我总结的这门课程的部分章节内容

为了总结下这门课程所学也让之后有缘找到的学弟学妹们（如果这个课还在的话）能更好地复习吧~
分享一下复习笔记

2021.6.23出了成绩来更新一波
最后这门课的成绩是89 简单了解了下在班里大概算是中等水平吧？
期末考试中的好多题目在笔记里都是有体现的（有复习需求的）大家可以下载下来根据自己的理解进行增删进行学习理解
没有复习需求的也可以看着玩玩hhh

下面的只是一个概况
没有插图片（图片都在本地一个个粘过来太麻烦惹！）
如果有兴趣的
可以戳这里下载完整的课程ppt与笔记

文章目录

题型
第一章数据挖掘与大数据简介
- 复习提纲
- 1.基本概念
- 2.数据挖掘主要任务
- 3.【重要！】KDD过程（知识发现过程）
- 最后一道题的一个思路
- 4.数据挖掘的挑战
第二章认识数据与数据预处理
- 复习提纲
- 1.属性类型
- 2.【重要！选填题】数据的统计描述
- - 中心趋势度量
  - 数据的散布
- 3.【重点上机实习】（数据的）相似性度量
- - 1.标称属性数据
  - 2.二元变量属性数据
  - 3.序数型变量数据
  - 4.数值属性数据
- 4.【重点！】数据预处理
- - 为什么要挖掘？
  - 数据预处理的主要任务：
  - 【重点】数据清理（数据的填充方法重点！）
  - 数据集成
  - 数据归约
  - 数据变换
  - 数据离散化
第三章关联规则挖掘
- 复习提纲
- 1.定义以及一些概念
- 2.Apriori算法
- 3.FP-growth算法
- - - 如何构造FP树？
- 4 支持度、置信度及兴趣因子
第四章分类/回归
- - 复习提纲
- 1.基本概念
- 监督学习 VS 无监督学习
- 【重要！】模型分类
- - 生成模型
  - 判别模型：
  - 二者的区别
- 2.决策树（DT）
- 【重要！】决策树的优缺点
- 【重要！】构建决策树的方法
- 【重要！】**属性选择基本准则：**
- - 【重要！】信息增益（ID3）：
  - 【重要！】信息增益率（C4.5）：
  - Gini指数（CART）
- 3.【重要！】过拟合问题和解决
- - 过拟合的解决策略
- 【重要！】在决策树中如何避免过拟合
- 4.【重要！】KNN
- 【重要！】KNN的优点和缺点
- - 基本思想
  - 优缺点
- 5.朴素贝叶斯
- 6.【重要！】SVM支持向量机
- 【重要！】SVM的优缺点
- - 什么是支持向量？
- 7.人工神经网络
- 8.集成学习
- 9.分类评价指标
10.练习题
第五章聚类分析和噪声检测
- 复习提纲
- 1.什么是聚类
- 2.聚类算法分类
- 3.【重要！】KMEANS
- 【*】KMEANS优缺点
- 3.【重要！】DBSCAN
- 缺点
- 4.什么是离群点
- 5.离群点种类
- 6.LOF 离群（异常/孤立）点检测
第六章大数据分析
- 复习提纲
- 1.哈希技术
- 【重点】Min哈希（最小哈希）
- 【重点！】会算签名矩阵！
- 【重要】LSH（局部敏感哈希）
- - 原因：
  - 哈希的思想：
- **2.** 数据流挖掘
- 【重点】如何检测概念漂移
- **3.** 【重点】Hadoop/spark的基本概念！

题型

选择题——单选、多选
大题——2道计算题大部分是简答题最后一题是综合题

决策树的流程

聚类有哪些类型

数据挖掘的任务有哪些~

关联规则挖掘

分类/预测与回归

聚类分析

孤立点检测

第一章数据挖掘与大数据简介

复习提纲

1.基本概念
- 什么是大数据
- 什么是数据挖掘
2.数据挖掘主要任务
3.KDD过程（数据挖掘是核心）
4.DM的挑战

1.基本概念

什么是大数据

无法在 一定时间内用常规软件工具 对其内容进行 抓取、管理、处理 的数据集合

是要更新处理模式才能具有更强的决策力、洞察发现力、流程优化能力来适应海量、高增长率和多样化的信息资产

什么是数据挖掘

从大量的数据中挖掘那些 令人感兴趣的、有用的、隐含的、先前未知的、可能有用的模式或知识。

关键是 “从大量的数据中挖掘令人感兴趣的模式或知识”

2.数据挖掘主要任务

【1】关联（规则）分析 如挖掘空气质量和气象条件之间的关系

【2】聚类分析 将数据归为不同的类形成新的类别进行分析

【3】分类预测回归 找出描述和区分数据类或者概念的模型让该模型可以预测未知的对象类标签

【4】离群点分析分析孤立而原本会被当作噪音丢弃的数据在欺骗检测中通过孤立点分析得到的结论

这些内容之后章节都会讲到！

3.【重要！】KDD过程（知识发现过程）

最后一道题的一个思路

KDD ：从数据中获取知识

【1】数据清理：消除噪声和删除不一致数据

【2】数据集成：多种数据源可以组合在一起

【3】数据选择：从数据库中提取与分析任务相关的数据

【4】数据变换：把数据变换和统一成适合挖掘的形式

【5】数据挖掘 ：核心步骤，使用智能方法提取数据模式

知识发现的核心！

【6】模式评估：根据兴趣度度量，识别代表知识的真正有趣的模式

【7】知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识

注意数据挖掘是核心

4.数据挖掘的挑战

数据容量 Scale of Data — VOLUMN

数据实时性 Data Stream — VELOCITY

数据多样性 Different format of data different sources — VARIETY

数据不确定性 Uncertainty, missing value

第二章认识数据与数据预处理

复习提纲

1.属性类型
2.数据的统计描述
- 中心性
- - 均值
  - 众数
  - 中位数
  - 中列数
- 散度
- - 极差
  - 最大
  - 最小
  - 四分位
  - 百分位
  - 方差
3.相似性度量
- 标称 d(i, j) = #不同/#总
- 数值
- - 欧式
  - 曼哈顿
- 数据标准化/归化
- - 最大最小法
  - Z-Score
- 其他相似性
- - 余弦
  - 马
  - 相关子数
  - KL散度
4.数据预处理
清理 -> 集成 ->归约 -> 变换 -> 离散化
- 清理：缺值、噪声
- 集成：冗余分析、卡方检验
- 归约：采样 PCA/特征筛选（没太看懂
- 变换：最大最小法

1.属性类型

分类型
- 标称型
- 标称型目标变量的结果只在有限目标集中取值，比如真与假(标称型目标变量主要用于分类)
- - 例: ID 号、眼球颜色、邮政编码
- - 特殊：二元
- 序数型
- - 例: 军阶、 GPA、用 {tall, medium, short}表示的高
数值型
数值型目标变量则可以从无限的数值集合中取值，如0.555，666.666等 (数值型目标变量主要用于回归分析)
- 区间
- - 例: 日历、摄氏或华氏温度.
- 比率
- - 例: 开氏温度、长度、计数
**标称属性**的值是一些符号和事物的名称（比如头发的颜色）

标称：意味着“与名称相关”

二元属性 是标称的一种 1代表有 0代表没有

如果是对称的说明无权重（例如男女性别）

如果是非对称的说明有权重（例如检测结果为阴性/阳性）

数值属性：区间、比率

2.【重要！选填题】数据的统计描述

中心趋势度量：均值（中列数）、众数、中位数、 —— （中心性描述）

数据的散布：**极差、四分位数、四分位数极差、五数概括、盒图 **—— （散布描述）

中心趋势度量

均值(mean)

均值 = 总和/个数

加权平均：考虑权重的均值

- 中列数：

数据集的最大和最小值的平均值

中位数(median)

有序数据值的中间值。

大数据：近似值估计（线性插值方法）

众数：（mode）

在集合中出现最频繁的值。（一个数据集中可能有多个众数）

对于非对称的单峰数据,有以下经验关系：

mean-mode ~ 3 * (mean-median)即为 均值 - 众数近似等于 3*(均值 - 中间数)

选填可能会考！

数据的散布

方差
标准差
极差

max-min

四分位数(quantile)
四分位数极差（距离）

IQR=Q3-Q1

本文标签：大数期末据分析数据挖掘高分

版权声明：本文标题：2021 数据挖掘与大数据分析复习笔记电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1727187292a1101075.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

软件测试期末复习

19天前

一、选择题下列__不属于软件缺陷 （ A ） A. 测试人员主观认为不合理的地方 B. 软件表达到产品说明书标明的功能 C. 软件出现了产品说明书指明不会出现的错误 D. 软件功能超出产品说明书

大数据分析是精准医疗发展助推器

18天前

——2016年中国精准医疗产业演进及投资价值研究精准医疗旨在根据个体基因、分子、细胞差异提供个性化治疗方案，成为人类疾病治疗和健康管理的发展方向。作为当前大健康产业发展最为活跃的细分领域，精准医疗

大数据分析是精准医疗发展助推器成跨界重要领域

18天前

精准医疗是未来的发展方向，大数据分析是精准医疗发展助推器，是跨界合作的重要领域。医疗大数据的收集处理，对生命科学、临床医学、临床药理有着重要意义，可以对

光电技术与光纤基础期末复习笔记

18天前

光电复习一.基础知识（1.）光电检测系统组成：光源，信息载体，光学系统，光电探测器，信息处理装置（2）.幅射度学（下标e): （3.）光度学（下标v） 1.视见函数V(波长r）在波长为555nm的绿色光最大，为1，其

Linux期末知识点汇总

17天前

Linux期末知识点汇总 Linux内核主要由五个子系统组成：进程调度，内存管理，虚拟文件系统，网络接口，进程间通信。Vi的工

web网页设计期末课程大作业：游戏网站设计主题——电竞游戏介绍响应式网页(7页) HTML+CSS+JavaScript HTML5期末大作业...

17天前

1.临近期末, 你还在为HTML网页设计结课作业,老师的作业要求感到头大？HTML网页作业无从下手？ 网页要求的总数量太多？ 2.没有合适的模板？等等一

HTML期末学生大作业-奶茶网页作业html+css+javascript(1)

16天前

在线美食会员专享美味食谱更多更多内容欢迎关注milkTea 甜甜の奶茶新鲜の水果茶美滋滋の刨冰香喷喷の小吃Welcome to MilkTea_ccc 详情咨询了解更多 milkTea会员目前很多奶茶加盟店都在运用

计算机408+数据库【适合考研复试或期末复习】

14天前

写在前面，这是自己准备考研复试，看的一些视频，总结下来的知识点。当然如果这篇文章能够帮助到你，可以点赞收藏，如果写的不妥的地方&a

美国2011高分魔幻大片《哈利·波特与死亡圣器(下)》蓝光BD1080p720p免费下载...

13天前

中文片名: 哈利·波特与死亡圣器(下) 英文片名: Harry Potter and the Deathly Hallows: Part 2 国家地区: 美国影片类型: 动作片资源格式: 720P,1080P 上影时间: 2011

javascript网页设计期末作业购物网站

11天前

诚接C语言、C、Java、Python、HTML、JavaScript、vue、MySQL相关编程作业， 标价10-20每份，如有需要请加文章最下方QQ。下载地址：htt

【西南科大】需求工程期末复习导向理论作业2

9天前

一、简答题 1.需求分析的根本任务是什么？需求分析阶段需要执行哪些活动？ 答：需求分析的根本任务： 1）、建立分析模型 2&am

python在大数据分析中的应用

9天前

每个人都喜欢Python，如果您打算开始从事数据科学事业，我们可以肯定Python在您心中已经占有特殊的位置。它直观且易于在任何平台上运行，并且具有大量令人惊叹的库和工具。与

用户查询意图检测（CIKM Competition数据挖掘竞赛夺冠算法陈运文）

5天前

原文出处背景 CIKM Cup(或者称为CIKM Competition)是ACM CIKM举办的国际数据挖掘竞赛的名称。CIKM全称是International Conference on Information and Knowled

【物流及供应链管理】北邮国际学院大三下期末复习

5天前

物流及供应链（2022）大纲 T1: Introduction to Logistics and Supply Chain Management物流和供应链管理简介供应链管理理论&#xf

软件安全期末总结

4天前

写在前面所用教材：彭国军等人编著的第一版博客地址：https:blog.csdnzss192 说明：博客为根据老师所画重点有针对性的总结&#xff0c

NoSql期末试题复习题

3天前

文章目录知识点选择题判断题简答题预判老师的预判，复习用知识点第一章绪论 1、Nosql背景为了改变关系型数据库的不足，适应当前大数据库时代海量的非结构化数据存储的需要&#xf

软件项目管理期末复习（看这一篇就够了）

16小时前

软件项目管理考试复习

软件体系结构期末复习(快速入门考试)

2小时前

软件体系结构汇总总结篇幅较长耐心食用~~ 第一章基本概念 1.发展史 2.软件架构三要素(组成派)：组件连接体约束 3.软件架构是一系列重要决策的集合(决策派) 3.软件架构是科学和艺术(其他观点)等

软件工程期末复习题

2小时前

软件工程概述例题分析【例1】软件是计算机系统中与硬件相互依存的另一部分，它是包括( A )、( B )及( C )的完整集合。其中，( A )是按事先设计的功能和性能要求执行的指令序列。(

【大数据处理技术】期末复习整理

2小时前

所用教材：《大数据技术原理与应用——概念、存储、处理、分析与应用（第2版）》，由厦门大学计算机科学系林子雨编著。教材官网：htt

电子爱好者 - 最新技术资讯及电子产品介绍！

2021 数据挖掘与大数据分析复习笔记 电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南

文章目录

题型

第一章 数据挖掘与大数据简介

复习提纲

1.基本概念

2.数据挖掘主要任务

3.【重要！】KDD过程（知识发现过程）

最后一道题 的 一个思路

4.数据挖掘的挑战

第二章 认识数据与数据预处理

复习提纲

1.属性类型

2.【重要！选填题】数据的统计描述

中心趋势度量

数据的散布

更多相关文章

软件测试期末复习

大数据分析是精准医疗发展助推器

大数据分析是精准医疗发展助推器 成跨界重要领域

光电技术与光纤基础期末复习笔记

Linux期末知识点汇总

web网页设计期末课程大作业：游戏网站设计主题——电竞游戏介绍响应式网页(7页) HTML+CSS+JavaScript HTML5期末大作业...

HTML期末学生大作业-奶茶网页作业html+css+javascript(1)

计算机408+数据库【适合考研复试或期末复习】

美国2011高分魔幻大片《哈利·波特与死亡圣器(下)》蓝光BD1080p720p免费下载...

javascript网页设计期末作业 购物网站

【西南科大】需求工程期末复习导向理论作业2

python在大数据分析中的应用

用户查询意图检测（CIKM Competition数据挖掘竞赛夺冠算法陈运文）

【物流及供应链管理】北邮国际学院大三下期末复习

软件安全期末总结

NoSql期末试题复习题

软件项目管理期末复习（看这一篇就够了）

软件体系结构期末复习(快速入门考试)

软件工程期末复习题

【大数据处理技术】期末复习整理

发表评论

推荐文章

win8右下角网络图标不见了_笔记本连接wifi的图标不见了怎么办_win8右下角wifi图标不见了的解决方法...

Dell戴尔灵越Inspiron 16 Plus 76407630笔记本电脑原装Windows11下载，恢复出厂开箱状态预装OEM系统

在VMware WorkStation中安装Windows Server 2016

linux真机系统连了wifi但上不了网？

html+css一些面试题和诡异的问题

热门文章

《Adobe Photoshop CC经典教程（彩色版）》—第4课4.4节重新排列图层

vb 获取php的返回值,.NET_VB.NET调用MySQL存储过程并获得返回值的方法，本文实例讲述了VB.NET调用MySQL - phpStudy...

基于Raspbian（树莓派）搭建web安全练习环境（一）

关于Sovits的本地部署

Tuxera NTFS2023Mac电脑免费U盘硬盘读写工具

win7双系统kali linux系统,[原创] win7 &amp;&amp; kali 双系统！

电脑退域后登陆不上_域控重装后工作站未正常退出域，同时缺少本地登录账户无法进入系统问题的一种解决办法。...

微软允许永久在家办公后，发现微软像极了“微商”！

NB-IoT技术发展史漫谈（NB-IoT专栏—拓展篇1）

精心推荐8款实用国产软件，非常强大

最新文章

解决笔记本电脑开机后屏幕暗灰

计算机黑屏启动超慢,电脑启动黑屏,要等待很久才能进入操作界面?为什么?

【静电保护】 笔记本开机黑屏 键盘灯亮

笔记本外接显示器时打开Disney+出现黑屏，无信号输入。需要重新插拔HDMI线才可以显示

VMware虚拟机中摄像头打开显示黑屏或者摄像头打开无法弹出窗口的解决办法

电脑只有一个guest登录选项或者不小心点击了guest账户登录，并且登录以后电脑一直闪屏或者黑屏的解决办法

解决笔记本或者联想小新，用着用着忽然熄屏或者黑屏的问题

计算机windows8黑屏怎么办,详解笔记本电脑出现电源拔出就黑屏的win8处理教程

计算机屏幕闪烁黑屏,显示器屏幕一闪一闪的黑屏怎么办_电脑屏幕黑屏一闪一闪如何解决...

【硬件】笔记本外接显示屏以前正常，最近隔一段时间就黑屏

你的电脑打不开摄像头问题

python打开摄像头黑屏怎么办_临时解决pygame启动时黑屏问题

使用腾讯会议时电脑黑屏解决方案

Windows 10笔记本电脑的任务栏突然卡住,鼠标点击不了,之后又界面黑屏了解决办法

手机黑屏时闪屏怎么回事_电脑总是黑屏，闪屏是怎么回事啊

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

2021 数据挖掘与大数据分析复习笔记电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南

第一章数据挖掘与大数据简介

最后一道题的一个思路

第二章认识数据与数据预处理

大数据分析是精准医疗发展助推器成跨界重要领域

javascript网页设计期末作业购物网站

win7双系统kali linux系统,[原创] win7 && kali 双系统！

【静电保护】笔记本开机黑屏键盘灯亮

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载