乐鱼体育数据理解之干系理解
时间:2024-03-08浏览次数:
 闭系明白,便是从大范畴数据中,呈现对象之间隐含联系与法则的历程,也称为闭系原则研习。比方:购物篮明白,最早是为了呈现超市发卖数据库中区别的商品之间的闭系联系。  用于寻找数据会集各项之间的闭系联系。遵照所开掘的闭系联系,能够从一个属性的新闻来臆度另一个属性的新闻。当置信度抵达某一阈值时,能够以为原则设置。  项,指咱们明白数据中的一个对象;项集,便是若干项的项组成的结合,如结合{牛奶、麦片、糖

  闭系明白,便是从大范畴数据中,呈现对象之间隐含联系与法则的历程,也称为闭系原则研习。比方:购物篮明白,最早是为了呈现超市发卖数据库中区别的商品之间的闭系联系。

  用于寻找数据会集各项之间的闭系联系。遵照所开掘的闭系联系,能够从一个属性的新闻来臆度另一个属性的新闻。当置信度抵达某一阈值时,能够以为原则设置。

  项,指咱们明白数据中的一个对象;项集,便是若干项的项组成的结合,如结合{牛奶、麦片、糖}是一个3项集

  某项集正在数据会集展现的概率。即项集正在记载中展现的次数,除以数据会集一齐记载的数目。

  赞成度再现的是某项集的屡次水准,唯有某项集的赞成度抵达必然水准,咱们才有研讨该项集的需要。

  项集A产生,则项集B产生的概率。闭系原则{A-B}中,A与B同时展现的次数,除以A展现的次数。

  置信度再现的是闭系原则的牢靠水准,借使闭系原则{A-B}的置信度较高,则解释当A产生时,B有很大体率也会产生,如许就恐怕会带来研讨价格。

  闭系原则{A-B}中,擢升度是指{A-B}的置信度,除以B的赞成度

  擢升度再现的是组合(利用闭系原则)相对不组合(晦气用闭系原则)的比值,借使擢升度大于1,则解释利用该闭系原则是有价格的。借使擢升度小于1,解释利用该闭系原则起到了负面影响。以是,咱们应当尽恐怕让闭系原则的擢升度大于1,擢升度越大,则利用闭系原则的效益越好。(注:借使两个事情彼此独立,P(AB)=p(A)*P(B),擢升度为1).

  一般景况下,咱们只会对屡次展现的项集实行研讨。借使一个屡次项集含有K个元素,咱们称之为屡次K项集。

  用户或专家界说的权衡赞成度的一个阈值,呈现项集正在统计事理上的最低要紧性。

  用户或专家界说的权衡置信度的一个阈值,呈现闭系原则的最低牢靠性。同时知足最小赞成度阈值和最小置信度阈值的原则成为强原则。

  目前,配置最小赞成度和最小置信度,大部门遵照营业体会配置初始值,然晚生程众次调解,获取与营业相符的闭系原则结果。

  闭系明白包罗2个历程:从数据会集寻找屡次项集,从屡次项会集天生闭系原则。

  最初,咱们须要找到一齐的屡次项集,即常常展现正在一同的对象结合,本质上,找到屡次项集并不繁复,咱们只须要根据如下的方法来实行操作即可:

  a.遍历对象之间一齐恐怕的组合(包罗单个对象的组合),每种组合组成一个项集。

  以上的外面是没有题目,然而,却很难再本质利用中运用,由于,对象之间轻易组合组成的项集,数目恐怕特殊大。比方,正在上图中,4个区别的对象,就能够组成15种组合。而看待含有N个对象的数据集,总共能够组成2ⁿ-1种组合,这是一个特殊大的数字。

  以是,为了下降筹划量,咱们运用Apriori算法道理实行优化。Apriori算法道理能够外明如下:1)借使X是屡次项集,则其一齐子集也是屡次项集。 p(AB)=p(A)*P(B)

  Apriori算法会从k=1发轫,运用两个K项集实行组合,从而形成K+1项集。贯串之前先容的算法道理,咱们可知,屡次K+1项集是由两个K项结合组合而成,而看待K+1项集来说,其一齐的K项集子集势必都是屡次项集,这就意味着,屡次K+1项集只恐怕从两个屡次K项集组合形成,以是,当咱们正在组合的历程中,一朝呈现某个K项集不是屡次项集,就能够将其移除,无需再到场后续天生K+1项集的组合。如许一来,就能够大大裁减筹划量乐鱼体育

  比方正在图中,假设{2,3}长短屡次项集,则其一齐父集也长短屡次项集,故{0,2,3},{1,2,3}与{0,1,2,3}也长短屡次项集。以是,咱们就无需运用{2,3}与其他2项集实行组合,去天生3项集了。

  当天生屡次项集后,天生闭系原则会相对简略。咱们只须要将每个屡次项集拆分成两个非空子集,就能够组成闭系原则。当然,一个屡次项集拆分成两个非空子集恐怕有许众种形式,咱们要思考每一种区别的恐怕。比方:屡次项集{1,2,3}能够拆分成:{1-2,3},{2-1,3},{3-1,2},{1,2-3}{1,3-2},{2,3-1}

  然后,咱们针对每一个闭系原则,阔别筹划其置信度,仅保存相符最小置信度的闭系原则。

  数据会集含有的都是文本数据,固然也能操作,然而会影响职能,也会带来必然的繁琐,为了轻易起睹,咱们对文本实行编码,将其转为数值类型。

  天生1项集,即寻找不反复的项,为了轻易后面的操作,咱们将每个对象放入frozenset中

  当天生候选1项集列外后,咱们就能够遵照候选1项集列外,天生屡次1项集字典,字典中的key为frozenset类型的对象,该key对象是咱们要明白的项集,字典的value为每个项集对应的赞成度

Copyright 2012-2023 leyu·乐鱼(中国)体育官方网站 版权所有 HTML地图 XML地图--备案号:豫ICP备20000747号  备案号:豫ICP备20000747号  
地址:河南省郑州市金水区丰庆路126号3号楼24层2401号  邮箱:19659724@qq.com  电话:13938535296