Apriori算法进行关联分析|电子爱好者

admin管理员组
文章数量:1531791

设全集U = {a, b, c, d, e},其元素a,b, c, d, e称为项.

数据集：

D = [
	{a, b},
	{b, c, d},
	{d, e}，
	{b, c, e}，
	{a，b, c, d}
]

项的集合如{a，b}称为项集(cell)，包含k个项的集合称为k项集.

数据集D中包含项集A的集合占所有元素集的比例称为A的支持度(support).如{a}的支持度为2/5.

若项集满足人为设定的最小支持度，则称为频繁集.

频繁集的任意子集一定是频繁集, 非频繁集的超集一定为非频繁集.

定义关联规则{a} -> {b}的可信度(confidence)为：support({a} U {b}) / support({a}).

关联分析的目的在于寻找频繁集以及关联规则。

寻找频繁集

非频繁集的超集一定为非频繁集，我们从空集开始根据包含关系构建一棵树：

根据数据集创建单项集：

def createUnit(dataSet):  # create cell with one element
    universe = []
    for cell in dataSet:
        for item in cell:
            if not [item] in universe:
                universe.append([item])
    return map(frozenset, universe)

遍历每一个项集中的每一项，将项添加到全集中, 最后使用map由全集创建单项集.

使用frozenset而非set，是因为frozenset可以在dict中作为键，而set不能.

从候选集中筛选频繁集：

def filterCandidates(dataSet, candidates, limit):
    cellCount = {}
    for cell in dataSet:
        for candidate in candidates:
            if candidate.issubset(cell):
                if not candidate in cellCount:
                    cellCount[candidate] = 1
                else:
                    cellCount[candidate] += 1
    cellNum = len(dataSet)
    selected = []
    supports = {}
    for cell in cellCount:
        support = float(cellCount[cell]) / cellNum
        if support >= limit:
            selected.insert(0, cell)
        supports[cell] = support
    return selected, supports

该方法接受三个参数, 数据集dataSet, 候选集列表candidates, 和最小支持度limit.

遍历dataSet中的所有项集，统计各候选集超集的个数，用于计算候选集的支持度.

过滤所有候选集，返回支持度达到要求的项集(频繁集).

根据k-1项集创建所有k项集：

def createKCell(origins, k):
    cells = []
    originCount = len(origins)
    for i in range(originCount):
        for j in range(i + 1, originCount):
            list1 = list(origins[i])[:k - 2]
            list2 = list(origins[j])[:k - 2]
            list1.sort()
            list2.sort()
            if list1 == list2:  # if first k-2 elements are equal
                cells.append(origins[i] | origins[j])  # set union
    return cells

该方法接受两个参数,k-1项集列表origins和k. 通过并集运算建立k项集.

从单项集开始寻找频繁集:

def apriori(dataMat, limit=0.5):
    units = createUnit(dataMat)
    dataSet = map(set, dataMat)
    origin, supports = filterCandidates(dataSet, units, limit)
    candidates = [origin]
    k = 2
    while (len(candidates[k - 2]) > 0):
        cellK = createKCell(candidates[k - 2], k)
        cellK, supportK = filterCandidates(dataSet, cellK, limit)
        supports.update(supportK)
        candidates.append(cellK)
        k += 1
    return candidates, supports

寻找关联规则

频繁集之间存在着关联规则:

实现filterRules方法获得可信度满足要求的规则, 每条规则用三元组来描述:(A, B, confidence)代表规则A->B的可信度为confidence.

def filterRules(cells, consequences, supports, bigRuleList, limit=0.7):
    prunedConsequences = []
    for consequence in consequences:
        confidence = supports[cells] / supports[cells - consequence]
        if confidence >= limit:
            rule = (cells - consequence, consequence, confidence)
            bigRuleList.append(rule)
            prunedConsequences.append(consequence)
return prunedConsequences

该方法接受5个参数:

cells:频繁集列表
consequences: 所有可放在规则右侧的元素组成的列表
supports: cells中各频繁集的支持度
bigRuleList: 已知规则的列表, 该方法会将满足要求的规则添加到该列表中
limit: 规则可信度的下限

该方法返回满足条件的规则的右侧元素组成的列表.

当规则右侧的元素的数目大于2时, 尝试对其进行合并:

def rulesFromConseq(cells, consequences, supports, bigRuleList, limit=0.7):
    m = len(consequences[0])
    if len(cells) > (m + 1):  # try further merging
        new_consequences = createKCell(consequences, m + 1)
        new_consequences = filterRules(cells, new_consequences, supports, bigRuleList, limit)
        if len(new_consequences) > 1:  # need at least two sets to merge
            rulesFromConseq(cells, new_consequences, supports, bigRuleList, limit)

该方法的参数与filterRules方法相同, 使用递归来实现.

利用上面两个工具函数来编写寻找关联规则的方法:

def generateRules(cells, supports, limit=0.7):
    bigRuleList = []
    for i in range(1, len(cells)):
        for cell in cells[i]:
            consequences = [frozenset([item]) for item in cell]
            if i > 1:
                rulesFromConseq(cell, consequences, supports, bigRuleList, limit)
            else:
                filterRules(cell, consequences, supports, bigRuleList, limit)
    return bigRuleList

接受频繁集列表及其支持度作为参数, 遍历各频繁集根据给定的可信度范围寻找关联规则.

编写test方法进行测试:

def test():
    dataSet = [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
    cells, supports = apriori(dataSet, 0.5)
    # print(cells)
    rules = generateRules(cells, supports)
    print(rules)
    # units = createUnit(dataSet)
    # print(units)
    # cells, supports = filterCandidates(dataSet, units, 0.5)
    # print(cells, supports)
    # cells = createKCell(selected, 2)
    # print(cells)

顺便展示一下各函数的用法, 完整代码可以看这里

转载于:https://wwwblogs/Finley/p/5858123.html

本文标签：算法 Apriori

版权声明：本文标题：Apriori算法进行关联分析内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1726826330a1086120.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

算法【已解决】RuntimeError: Trying to backward through the graph a second time (or directly access saved

11天前

问题描述书接上回，也是在攻防项目中遇到的问题RuntimeError: Trying to backward through the graph a second time (or directly access s

算法导论第三版参考答案

11天前

1.1-1 Give a real-world example that requires sorting or a real-world example that requires computing a convex hull. Sor

《算法导论》第二章-第3节_练习（参考答案）

11天前

算法导论（第三版）参考答案：练习2.3-1，练习2.3-2，练习2.3-3，练习2.3-4，练习2.3-5，练习2.3-6，练习2.3-7 Exercise 2.3-1 Using Figure 2.4 as a model, illus

操作系统学习笔记（七）---银行家算法小结

11天前

银行家算法： Allocation（已分配资源） Request（还需要的资源） Availiable（当前可用资源） Max（每个进程的最大需求） work（？） finish（进程i是否完成）（注意进程完成后会释放资源）

hnuoj 13377 Book Club（匈牙利算法）

10天前

Book ClubTime Limit: 5000ms, Special Time Limit:12500ms, Memory Limit:65536KBTotal submit users: 35, Accepted users: 17P

【算法】布隆过滤器

10天前

一、引言在现实世界的计算机科学问题中，我们经常需要判断一个元素是否属于一个集合。传统的做法是使用哈希表或者直接遍历集合，但这些方法在数据量较大时效率低下。布隆过滤器（Blo

算法训练营重编码_完成编码训练营后的第一年，我学到了教训。

10天前

算法训练营重编码 by Mario Hoyos 通过马里奥·霍约斯(Mario Hoyos)完成编码训练营后的第一年，我学到了教训。 (Lessons I learned the first year after

量化投资与算法交易

10天前

作者：禅与计算机程序设计艺术 1.简介量化投资（Quantitative investment）和算法交易（Algorithmic Trading），两者是近几年兴起的两个热门词汇。市场对这两个词汇的认识也是逐渐加深。在过去几年里，

2021新型面试题-血虐面试官斩获字节跳动Offer！Android 精选版面试题级答案（Android+Java+算法+性能优化+四大组件...）

10天前

前言双非本科，自认为技术水平不差，8月从美图实习离职回学校，各种倒霉的事不断，到现在11月，为了找个好的环境复习，9月又在学校附近租了房，基本是没有面试通知就学不进去，前面由于过于自信，也没拿个保底的offer，也只去湖大跑过一次58到

调用QQTIM算法实现获取当前登陆账号和ClientKey

7天前

调用QQTIM算法实现获取当前登陆账号和ClientKey 本文为看雪论坛优秀文章；看雪论坛作者ID：揰掵佲 https:bbs.pediythread-255014.htm 由于通过网

通用固定长度编码格式的字符串查找算法的实现

7天前

通用固定长度编码格式的字符串查找算法的实现字符串的查找是数据库应用中必不可少的操作，而且每种数据库产品（ORACLE、DB2、SYBASE、MS SQL SERVER、MYSQL等等&#

Essential Matrix 的求解算法--Nister 五点算法以及原理

6天前

转自知乎龙睛尤洋 1. 原理 Nister的论文主要是奇奇怪怪的符号比较多，比较容易理解错。翻了下之前看的时候的笔记，分享出来，看看会不会有帮助。阅读本文前&

k均值聚类算法 k会变化么_基于聚类k均值算法的ai电影推荐系统

5天前

k均值聚类算法 k会变化么 In this article, we’ll build an artificial intelligence movies recommendation system by using k-means algo

算法很美

5天前

写在前面技术是开源的，知识是共享的，让我们用技术改变命运文章目录算法：一、位运算的奇巧淫技算法： An algorithm is a seri

JLM PACK Core SDK：国产发明专利算法可文件追踪管控的文件压缩包工具SDK介绍

3天前

基于自主发明专利的杰林码哈希算法、对称加密算法和无损压缩算法的可文件追踪管控且支持linux和windows的文件压缩包工具SDK1.0版发布，下载链接为： JLM PACK CSDN下载链接

圆周率的算法，椭圆周长的近似公式怎么推来的？

2天前

圆周率的算法古人计算圆周率，一般是用割圆法。即用圆的内接或外切正多边形来逼近圆的周长。Archimedes用正96边形得到圆周率小数点后3位的精度；刘徽用正3072边形得到5位精度&#

文档相似算法_2020年最佳文档相似性算法入门指南

2天前

文档相似算法 If you want to know the best algorithm on document similarity task in 2020, you’ve come to the right place. 如果您想知

智能优化算法-资源竞争算法Competition Over Resources(附Matlab代码)

1天前

引言介绍一种基于动物群体竞争行为的新的优化方法--资源竞争算法Competition Over Resources,COR，用以解决现实世界中的优化问题。该成果于发表在IEEE INCos2014 参考文献 S

左程云算法笔记总结-基础篇

20小时前

基础01(复杂度、基本排序) 认识复杂度和简单排序算法时间复杂度 big O 即 O(f(n)) 常数操作的数量写出来，不要低阶项，只要最高项，并且不要最高项的系数

NDT-MCL定位算法论文解读

2小时前

点击上方“3D视觉工坊”，选择“星标” 干货第一时间送达来源丨计算机视觉SLAM 作者丨Realcat 标题：Normal Distributions Transform Monte-Carlo

电子爱好者 - 最新技术资讯及电子产品介绍！

Apriori算法进行关联分析

寻找频繁集

寻找关联规则

更多相关文章

算法【已解决】RuntimeError: Trying to backward through the graph a second time (or directly access saved

算法导论第三版参考答案

《算法导论》第二章-第3节_练习（参考答案）

操作系统学习笔记（七）---银行家算法小结

hnuoj 13377 Book Club（匈牙利算法）

【算法】布隆过滤器

算法训练营 重编码_完成编码训练营后的第一年，我学到了教训。

量化投资与算法交易

2021新型面试题-血虐面试官斩获字节跳动Offer！Android 精选版面试题级答案（Android+Java+算法+性能优化+四大组件...）

调用QQTIM算法实现获取当前登陆账号和ClientKey

通用固定长度编码格式的字符串查找算法的实现

Essential Matrix 的求解算法--Nister 五点算法以及原理

k均值聚类算法 k会变化么_基于聚类k均值算法的ai电影推荐系统

算法很美

JLM PACK Core SDK：国产发明专利算法可文件追踪管控的文件压缩包工具SDK介绍

圆周率的算法，椭圆周长的近似公式怎么推来的？

文档相似算法_2020年最佳文档相似性算法入门指南

智能优化算法-资源竞争算法Competition Over Resources(附Matlab代码)

左程云算法笔记总结-基础篇

NDT-MCL定位算法论文解读

发表评论

推荐文章

Midjourney注册教程，新手必备~

(图文)M.2_NVME协议固态硬盘转接PCIE卡通过UEFI引导安装Windows7

挨踢观察：勒索病毒又要瞄准移动端了？移动支付安全该怎么办？

一加5应用未安装怎么解决_一加手机x安装不了软件下载是什么原因解决方法

linux连接小米随身wifi密码忘记了,小米路由器app管理密码忘记了怎么办？

热门文章

imac一体机，mac 电脑安装win7双系统

远程计算机需要网络级别身份验证 而您的,win10远程桌面连接提示“需要网络级别身份验证”的处理方法...

Ipod 还原出厂设置

win7下文件夹总是在新窗口打开

解决 联想小新13 Pro 重装系统后 Fn+Q 性能模式切换 失灵

【本地网络服务器】（一）Windows安装CentOS双系统

Window设置开机自启软件的几种方式

跟杀毒软件说不

电脑各种中英文信息对照及错误信息总汇 系统出错信息及解决方案

世界上最简单系统安装方法(适合XP升级win7系统)

最新文章

微信QQ中已停止访问该网页的处理办法

Win10升级后执行系统封装(Sysprep)报错

win7与win10系统哪个好？你听过中兴新支点操作系统么

win7下vs2008过期升级没有提示序列号

XPWin7Ubuntu多系统下修改C盘UUID造成Ubuntu启动错误的解决办法

微信公众号之用户登录

在64位Win7操作系统中安装Microsoft Access Engine的解决方案(转)

计算机无法启动打印服务,win7打印服务无法启动怎么办？打印服务无法启动修复...

nvidia控制面板点了没反应win7_控制面板无响应怎么办_为什么nvidia控制面板打不开图文步骤...

4G内存适合装哪个版本matlab,4G内存装win7 32位还是64位|单条4G内存选32位还是64位系统性能实测...

科普：黑客盗QQ究竟是怎么回事？

解决win7 vs2008没有升级按钮导致无法升级

原创---爱普生LQ-690K打印机win7共享报错解决方案“Windows无法连接到打印机。无法找...

六个Win7下XP模式的缺陷

【jiasuba】WindowsXP升级Windows7过程中时出现了问题

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

算法训练营重编码_完成编码训练营后的第一年，我学到了教训。

远程计算机需要网络级别身份验证而您的,win10远程桌面连接提示“需要网络级别身份验证”的处理方法...

解决联想小新13 Pro 重装系统后 Fn+Q 性能模式切换失灵

电脑各种中英文信息对照及错误信息总汇系统出错信息及解决方案

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载