乐鱼python利用相闭阐述解决大数据
时间:2024-05-01浏览次数:
 采样:只行使数据集的一个样本,而不是全数数据。好比随机采样10万条数据举办阐述。采样能够大大减小盘算推算量,而结果也不会有太大过错。  分片:将数据瓦解成众个片断,正在每个片断上分辨举办相干阐述,然后会合结果。每个片断的盘算推算量城市小良众,因此更容易达成。  并行化:采用Spark, Flink等大数据框架,通过并行化大大升高apriori和FP-growth算法的本能,使其也许管理更大的数

  采样:只行使数据集的一个样本,而不是全数数据。好比随机采样10万条数据举办阐述。采样能够大大减小盘算推算量,而结果也不会有太大过错。

  分片:将数据瓦解成众个片断,正在每个片断上分辨举办相干阐述,然后会合结果。每个片断的盘算推算量城市小良众,因此更容易达成。

  并行化:采用Spark, Flink等大数据框架,通过并行化大大升高apriori和FP-growth算法的本能,使其也许管理更大的数据集。

  FP-growth*:一种修正的FP-growth算法,通过剪枝和兼并能够升高效劳。

  基于位图的算法:通过位图来呈现项集和交往记实,能够大大压缩空间和升高效劳。

  支柱度剪枝:按支柱度阈值更早剪枝,能够提前终止 recursion,省略盘算推算量。

  拟合简略模子:通过决议树,Logistic回归等简略模子对全数数据集举办拟合和预测,获得条例和闭勾结果。这种bayesian练习的手法更适合超大数据集。

  若是数据集太大,提议从1-3开端实验,采样、分片和并行化也许正在不转变算法的境况下大幅升高本能。

  若是1-3还不足,能够实验4中的修正算法和新手法。稀奇推举基于位图的算法,它正在空间和工夫上的优化都很明显。

  若是都弗成,才行使5中通过机械练习简略模子来拟合和阐述全盘据集乐鱼。这需求对机械练习有必定根基。

Copyright 2012-2023 leyu·乐鱼(中国)体育官方网站 版权所有 HTML地图 XML地图--备案号:豫ICP备20000747号  备案号:豫ICP备20000747号  
地址:河南省郑州市金水区丰庆路126号3号楼24层2401号  邮箱:19659724@qq.com  电话:13938535296