采样:只行使数据集的一个样本,而不是全数数据。好比随机采样10万条数据举办阐述。采样能够大大减小盘算推算量,而结果也不会有太大过错。
分片:将数据瓦解成众个片断,正在每个片断上分辨举办相干阐述,然后会合结果。每个片断的盘算推算量城市小良众,因此更容易达成。
并行化:采用Spark, Flink等大数据框架,通过并行化大大升高apriori和FP-growth算法的本能,使其也许管理更大的数据集。
FP-growth*:一种修正的FP-growth算法,通过剪枝和兼并能够升高效劳。
基于位图的算法:通过位图来呈现项集和交往记实,能够大大压缩空间和升高效劳。
支柱度剪枝:按支柱度阈值更早剪枝,能够提前终止 recursion,省略盘算推算量。
拟合简略模子:通过决议树,Logistic回归等简略模子对全数数据集举办拟合和预测,获得条例和闭勾结果。这种bayesian练习的手法更适合超大数据集。
若是数据集太大,提议从1-3开端实验,采样、分片和并行化也许正在不转变算法的境况下大幅升高本能。
若是1-3还不足,能够实验4中的修正算法和新手法。稀奇推举基于位图的算法,它正在空间和工夫上的优化都很明显。
若是都弗成,才行使5中通过机械练习简略模子来拟合和阐述全盘据集乐鱼。这需求对机械练习有必定根基。