乐鱼体育数据相闭阐明
时间:2024-03-19浏览次数:
 :设I = {i1,i2,i3,… ,im}是m个分歧项目标纠合,个中每个ik(k = 1,2,3,…,m)都是一个项目(item),项目标纠合称为项集(itemset),项聚合项目标个数称为项集的长度,长度为k的项集称为k-项集。比如,{bread,cream,milk,tea}是一个4项集。  生意:每一笔生意T都是项目全集的子集。每一笔生意都有一个生意号,TID。生意的总共组成D,生意数

  :设I = {i1,i2,i3,… ,im}是m个分歧项目标纠合,个中每个ik(k = 1,2,3,…,m)都是一个项目(item),项目标纠合称为项集(itemset),项聚合项目标个数称为项集的长度,长度为k的项集称为k-项集。比如,{bread,cream,milk,tea}是一个4项集。

  生意:每一笔生意T都是项目全集的子集。每一笔生意都有一个生意号,TID。生意的总共组成D,生意数据库。

  有效户或者范畴专家界说最小撑持度,当项集A的撑持度不小于最小撑持度,则称A为频仍项集。

  个中X称为前件,Y称为后件,撑持度和置信度是伴跟着联系轨则崭露的。联系轨则的置信度是生意数据库D中同时包蕴X和Y的生意数的频率。

  联系轨则的最小撑持度和最小可托度:联系轨则的最小撑持度即是量度频仍项集的最小撑持度,联系轨则的最小置信度吐露联系轨则必要餍足的最低牢靠性。

  要是某个联系轨则同时餍足最小撑持度阈值和最小置信度阈值,则以为这个联系轨则是乐趣的。同时也称这个轨则是强联系轨则。

  (1)从数据聚合寻找全豹频仍项集。平日先找频仍1项集,再找频仍2项集,循序类推。

  (2)从找到全豹长度大于2的频仍k项聚合发作联系轨则。要是发作的轨则的置信度和撑持度餍足最小撑持度和最小置信度,则称此轨则为强联系轨则。

  由于从数据聚合发作频仍项集常常崭露的题目是会发作多量餍足最小撑持度阈值的频仍项集。(由于当一个项集是频仍时,其子集也是频仍的。)于是了解联系轨则会花费多量的时代资源和空间资源。实践应用中不必要了解全豹餍足前提的频仍项集和联系轨则。

  超项集:若一个纠合S2的每一个元素,S1中都有,并且S1中能够含有S2中不存正在的元素,则称S1是S2的超项集。于是S2是S1的子集。

  闭频仍集:对付一个项集X,要是不存正在X的超项集Y,使得X和Y的撑持度相称,并且X是频仍的,则称X是闭频仍集

  极大频仍集:对付一个频仍集X,要是X的恣意一个超项集都好坏频仍的,则称X是极大频仍集。即X再扩充就不是频仍集。

  极大频仍集:A的超项集AB是频仍的,于是A不是极大频仍集。B的超项集AB是频仍的,于是B不是极大频仍集。C的超项集BC是频仍的,于是C不是极大频仍集乐鱼体育。AB只要一个超项集–ABC,ABC好坏频仍的,于是AB是极大频仍集。AC好坏频仍集,也不是极大频仍集。BC只要一个超项集–ABC,ABC好坏频仍的,于是BC是极大频仍集。ABC好坏频仍的,于是也不是极大频仍集。

  闭频仍集:A的超项集AB的撑持度和A的撑持度相称,于是A不是闭频仍集。B的全豹超项集的撑持度和B的撑持度都不相称,于是B是闭频仍集。C的超项集BC的撑持度和C的撑持度相称,于是C不是闭频仍集。

  该算法采用广度优先的查找政策,自底向上的遍历,遵守最先发作候选集进而得回频仍项集的思绪。该算法合用于数据集稀少,事物宽度较小,频仍形式较短,最小撑持度较高的境遇中。而对付众多数据和长频仍形式,因为候选集攻陷多量内存,算计本钱扩大,数据集的遍历次数增大,由于该算法的功能降低。

  反枯燥性道理:要是一个项集是频仍的,那么它的全豹子集也是频仍的,即是要是一个项集好坏频仍的,那么它的全豹超集也肯定好坏频仍的。

  中央术思:最先扫描数据集,统计数据聚合生意的数目和各个分歧1项集崭露的次数,然后按照最小撑持度得回全豹的频仍1项集L1,然后欺骗L1查找频仍2项集L2,云云接连,直到不再有新的频仍项集被找到。天生候选集概括起来两个措施

  (1)衔接步,为找Lk(频仍k项集),通过将Lk-1与自己衔接发作k项集,该k项集记作Ck,然而两两自衔接时,只可对只差终末一个项目分歧的项集举办衔接。

  (2)剪枝步,按照反枯燥性道理,对付一个候选k项集Ck,要是它的一个子集好坏频仍的,那么Ck也好坏频仍的,将其剪枝掉,然后对天生的候选集举办计数,判定其是否不下雨最小撑持度阈值。

  一个实例:假设曾经找到的频仍3项集L3 = {abc,abd,acd,ace,bcd},现正在央求找频仍4项集。

  因为{acde}的子集{ade}不正在频仍3项聚合,于是{ade}是不频仍的,于是{acde}也是不频仍的,将其剪枝。然后扫描数据库,对候选集举办计数,判定其是否不小于最小撑持度阈值,然后寻找频仍4项集。

  (2)对付I的每个非空子集s和其补集(l-s),要是前提概率大于最小置信度阈值,则输出轨则。

  强联系轨则不肯定是乐趣的,由于要是一条轨则的后件撑持度原本就很高(大于最小置信度阈值),那么假使算计出来轨则的置信度大于最小最小置信度阈值,也并不行申明这条轨则的可用性。

  要是前件对后件没有任何影响,那么包蕴前件的生意中同时包蕴后件的比例就该当等于后件正在事物数据库中的比例,即该轨则的置信度为0。

  简略的操纵撑持度-置信度框架举办评估联系轨则形式是不敷的,要按照分歧的题目,数据自身的特色拣选引入其他胸怀。

  指的是联系轨则的前件和后件所包蕴的项集A和B正在生意数据库中被包蕴的不服均水平。

  要是A和B正在数据聚合被包蕴的水平基础一样,不服均之比为0,不然两者之差越大,不服均比就越大。

Copyright 2012-2023 leyu·乐鱼(中国)体育官方网站 版权所有 HTML地图 XML地图--备案号:豫ICP备20000747号  备案号:豫ICP备20000747号  
地址:河南省郑州市金水区丰庆路126号3号楼24层2401号  邮箱:19659724@qq.com  电话:13938535296