随着Web技术的发展,Spam不再是Email领域的专利,万维网垃圾(Web Spam)成为一种新的危害,垃圾网页(Spam page)开始日益充斥着互联网。在今年USENIX举办的LEET 2011,业界对Web Spam的危害、发展以及控制进行了讨论,本文将通过对大会上几篇论文的分析对WebSpam进行一个概要的介绍。
Complex Search of Web Spam
来自微软公司的Sasi Parthasarathy在大会上作了题为“Complex Search of Web Spam”的演讲。在演讲中,Parthasarathy对垃圾网页和搜索引擎的关联做了详细的介绍。在他看来,一个垃圾网页是一个使用垃圾技术来提升其在搜索结果的排名,但实际对用户没有任何使用价值的网页。用户不会主动地去浏览这些垃圾网页,所以垃圾网页必须通过搜索引擎才能欺骗用户并创造收入。要达到这样效果,垃圾网页就必须了解搜索引擎对页面排名的方法。目前通用的页面排名依赖于两方面的数据:网页内容数据和网页链接数据。垃圾网页也从这两方面实施对搜索引擎的欺骗。在页面方面,常见的欺骗技术包括:
关键字堆砌(Keyword Stuffing)
域名停放 (Parked Domain)
内容隐藏(Hidden Content)
机器自动生成内容 (Machine Generated Content)
社交媒体网站欺骗(Social Media Spam)
这些欺骗技术有着不同的实现方法,但总体来说都是生成大量对用户没有意义甚至不可阅读的内容,但这些内容包含大量关键字,可以被搜索引擎发现并评估。例如内容隐藏技术可以生成如图1 的一段Complex Search of Web Spam HTML代码,这段代码在页面上不可见,但罗列并重复大量的搜索引擎敏感的关键字。
当相应的关键字被搜索时,该页面会被排列在靠前的搜索结果中,但当用户点击该页面时,可能无法得到任何想要的与关键字相关的信息。
除了基于页面内容的欺骗,垃圾网页还采用基于链接的欺骗方式,主要形式包括:
链接农场(Link Farms)
链接交换(Link Exchange)
这两种方式都是企图通过对垃圾网页建立大量的链接,从而提高搜索引擎对垃圾网页的排名。
Parthasarathy 针对这些欺骗技术指出,目前各家搜索引擎也在试图通过相关性判定等技术手段进行自动或人工的垃圾网页识别技术,但目前的效果很不理想。一方面一些合法的提升网站排名技术(例如一些大网站会购买付费链接)和欺骗技术的效果相似,搜索引擎难以判定哪一个是合法,哪一个是非法;另一方面如何判定内容的意义也是一个难题。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。