本文首先对分布式环境下序列模式的性质进行了分析。
算法采用前缀投影技术划分模式搜索空间,利用序列模式前缀指定选举站点统计序列的全局支持计数,利用局部约减、选举约减、计数约减等方法减少候选序列数,同时将算法分为3个子过程异步运行,使得算法具有较低的I/O开销、内存开销和通信开销,从而高效地生成全局序列模式。实验结果显示,在具有海量数据的局域网环境中,FDMSP (fast distributed mining of sequential patterns)算法的性能优于将数据集中后采用GSP算法68.5%~99.5%,并且FDMSP算法具有良好的可伸缩性。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。