admin管理员组

文章数量:1547083

狼狈不堪的数据挖掘期末课程复习结束辽
给这门课程画上一个句号吧!
虽然之后主要方向是搞开发了 但是万一以后想去搞大数据捏~

这是我总结的这门课程的部分章节内容

为了总结下这门课程所学 也让之后有缘找到的学弟学妹们(如果这个课还在的话)能更好地复习吧~
分享一下复习笔记

2021.6.23出了成绩来更新一波
最后这门课的成绩是89 简单了解了下 在班里大概算是中等水平吧?
期末考试中的好多题目在笔记里都是有体现的 (有复习需求的)大家可以下载下来 根据自己的理解进行增删 进行学习理解
没有复习需求的也可以看着玩玩hhh

下面的 只是一个概况
没有插图片(图片都在本地 一个个粘过来太麻烦惹!)
如果有兴趣的
可以戳这里下载完整的课程ppt与笔记

文章目录

  • 题型
  • 第一章 数据挖掘与大数据简介
    • 复习提纲
    • 1.基本概念
    • 2.数据挖掘主要任务
    • 3.【重要!】KDD过程(知识发现过程)
    • 最后一道题 的 一个思路
    • 4.数据挖掘的挑战
  • 第二章 认识数据与数据预处理
    • 复习提纲
    • 1.属性类型
    • 2.【重要!选填题】数据的统计描述
      • 中心趋势度量
      • 数据的散布
    • 3.【重点 上机实习】(数据的)相似性度量
      • 1.标称属性数据
      • 2.二元变量属性数据
      • 3.序数型变量数据
      • 4.数值属性数据
    • 4.【重点!】数据预处理
      • 为什么要挖掘?
      • 数据预处理的主要任务:
      • 【重点】数据清理(数据的填充方法重点!)
      • 数据集成
      • 数据归约
      • 数据变换
      • 数据离散化
  • 第三章 关联规则挖掘
    • 复习提纲
    • 1.定义以及一些概念
    • 2.Apriori算法
    • 3.FP-growth算法
        • 如何构造FP树?
    • 4 支持度、置信度及兴趣因子
  • 第四章 分类/回归
      • 复习提纲
    • 1.基本概念
    • 监督学习 VS 无监督学习
    • 【重要!】模型分类
      • 生成模型
      • 判别模型:
      • 二者的区别
    • 2.决策树(DT)
    • 【重要!】决策树的优缺点
    • 【重要!】构建决策树的方法
    • 【重要!】**属性选择基本准则:**
      • 【重要!】信息增益(ID3):
      • 【重要!】信息增益率(C4.5):
      • Gini指数(CART)
    • 3.【重要!】过拟合问题和解决
      • 过拟合的解决策略
    • 【重要!】在决策树中如何避免过拟合
    • 4.【重要!】KNN
    • 【重要!】KNN的优点和缺点
      • 基本思想
      • 优缺点
    • 5.朴素贝叶斯
    • 6.【重要!】SVM支持向量机
    • 【重要!】SVM的优缺点
      • 什么是支持向量?
    • 7.人工神经网络
    • 8.集成学习
    • 9.分类评价指标
  • 10.练习题
  • 第五章 聚类分析和噪声检测
    • 复习提纲
    • 1.什么是聚类
    • 2.聚类算法分类
    • 3.【重要!】KMEANS
    • 【*】KMEANS优缺点
    • 3.【重要!】DBSCAN
    • 缺点
    • 4.什么是离群点
    • 5.离群点种类
    • 6.LOF 离群(异常/孤立)点检测
  • 第六章 大数据分析
    • 复习提纲
    • 1.哈希技术
    • 【重点】Min哈希(最小哈希)
    • 【重点!】会算签名矩阵!
    • 【重要】LSH(局部敏感哈希)
      • 原因:
      • 哈希的思想:
    • **2.** 数据流挖掘
    • 【重点】如何检测概念漂移
    • **3.** 【重点】Hadoop/spark的基本概念!

题型

  • 选择题——单选、多选
  • 大题——2道计算题 大部分是简答题 最后一题是综合题
  • 决策树的流程
  • 聚类有哪些类型
  • 数据挖掘的任务有哪些~
    • 关联规则挖掘
    • 分类/预测 与 回归
    • 聚类分析
    • 孤立点检测

第一章 数据挖掘与大数据简介

复习提纲

  • 1.基本概念
    • 什么是大数据
    • 什么是数据挖掘
  • 2.数据挖掘主要任务
  • 3.KDD过程(数据挖掘是核心)
  • 4.DM的挑战

1.基本概念

  • 什么是大数据

无法在 一定时间内用常规软件工具 对其内容进行 抓取、管理、处理 的数据集合

是要更新处理模式才能具有更强的决策力、洞察发现力、流程优化能力 来适应海量、高增长率和多样化的信息资产

  • 什么是数据挖掘

大量的数据中挖掘那些 令人感兴趣的、有用的、隐含的、先前未知的、可能有用的 模式或知识

关键是 “从大量的数据中挖掘令人感兴趣的模式或知识”

2.数据挖掘主要任务

【1】关联(规则)分析 如挖掘空气质量和气象条件之间的关系

【2】聚类分析 将数据归为不同的类 形成新的类别进行分析

【3】分类 预测 回归 找出描述和区分数据类或者概念的模型 让该模型可以预测未知的对象类标签

【4】离群点分析分析孤立而原本会被当作噪音丢弃的数据 在欺骗检测中通过孤立点分析得到的结论

这些内容之后章节都会讲到!

3.【重要!】KDD过程(知识发现过程)

最后一道题 的 一个思路

KDD : 从数据中获取知识

【1】数据清理:消除噪声和删除不一致数据

【2】数据集成:多种数据源可以组合在一起

【3】数据选择:从数据库中提取与分析任务相关的数据

【4】数据变换:把数据变换和统一成适合挖掘的形式

【5】数据挖掘 :核心步骤,使用智能方法提取数据模式

知识发现的核心!

【6】模式评估:根据兴趣度度量,识别代表知识的真正有趣的模式

【7】知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识

注意 数据挖掘 是核心

4.数据挖掘的挑战

数据容量 Scale of Data — VOLUMN

数据实时性 Data Stream — VELOCITY

数据多样性 Different format of data different sources — VARIETY

数据不确定性 Uncertainty, missing value

第二章 认识数据与数据预处理

复习提纲

  • 1.属性类型
  • 2.数据的统计描述
    • 中心性
      • 均值
      • 众数
      • 中位数
      • 中列数
    • 散度
      • 极差
      • 最大
      • 最小
      • 四分位
      • 百分位
      • 方差
  • 3.相似性度量
    • 标称 d(i, j) = #不同/#总
    • 数值
      • 欧式
      • 曼哈顿
    • 数据标准化/归化
      • 最大最小法
      • Z-Score
    • 其他相似性
      • 余弦
      • 相关子数
      • KL散度
  • 4.数据预处理
  • 清理 -> 集成 ->归约 -> 变换 -> 离散化
    • 清理:缺值、噪声
    • 集成:冗余分析、卡方检验
    • 归约:采样 PCA/特征筛选(没太看懂
    • 变换:最大最小法

1.属性类型

  • 分类型
    • 标称型
    • 标称型目标变量的结果只在有限目标集中取值,比如真与假(标称型目标变量主要用于分类)
      • 例: ID 号、眼球颜色、邮政编码
      • 特殊:二元
    • 序数型
      • 例: 军阶 、 GPA、用 {tall, medium, short}表示的高
  • 数值型
  • 数值型目标变量则可以从无限的数值集合中取值,如0.555,666.666等 (数值型目标变量主要用于回归分析)
    • 区间
      • 例: 日历、摄氏或华氏温度.
    • 比率
      • 例: 开氏温度、长度、计数
  • **标称属性**的值是一些符号和事物的名称(比如头发的颜色)

标称:意味着“与名称相关”

  • 二元属性 是标称的一种 1代表有 0代表没有

    如果是对称的说明无权重(例如男女性别)

    如果是非对称的说明有权重(例如检测结果为阴性/阳性)

数值属性:区间、比率

2.【重要!选填题】数据的统计描述

中心趋势度量均值(中列数)、众数、中位数、 —— (中心性描述)

数据的散布**极差、四分位数、四分位数极差、五数概括、盒图 **—— (散布描述)

中心趋势度量

  • 均值(mean)

均值 = 总和/个数

加权平均:考虑权重的均值

    • 中列数:

数据集的最大和最小值的平均值

  • 中位数(median)

有序数据值的中间值。

大数据 :近似值估计(线性插值方法)

  • 众数:(mode)

在集合中出现最频繁的值。(一个数据集中可能有多个众数)

对于非对称的单峰数据,有以下经验关系:

mean-mode ~ 3 * (mean-median)即为 均值 - 众数 近似等于 3*(均值 - 中间数)

选填可能会考!

数据的散布

  • 方差
  • 标准差
  • 极差

max-min

  • 四分位数(quantile)
  • 四分位数极差(距离)

IQR=Q3-Q1

本文标签: 大数期末据分析数据挖掘高分