挖掘频繁项集是数据挖掘中最基本的问题之一,而大型数据库庞大的数据使得传统的频繁模式挖掘算法难以适用。针对大型数据库的特点,在分析FP-growth算法的基础上,提出一种基于等价类的大型数据库频繁模式挖掘算法EFP-growth(Equivalent Classes Frequent Patterns-Growth)算法。EFP-growth算法利用项集等价类将关联规则挖掘的项集分成互不相交的子空间的性质,将一个大型数据库分解成多个投影数据库,依次在每一个投影数据库上进行约束频繁项集挖掘。算法尤其适合支持度较小时的大型数据库的挖掘。分析和实验表明EFP-growth算法在挖掘大型数据库时时间和空间的性能上均优于FP-growth算法。而且,随着数据库规模的增大,EFP-growth算法具有更明显的优势。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。