1997年,在“九五”CERNET项目的支持下,北京大学网络实验室推出了“天网搜索”(http://e.pku.edu.cn),这是中国最早的通用搜索引擎之一。五年后,在“973”和“985”项目的支持下,以“天网搜索”技术为基础,我们推出了“中国网页博物馆(Web InfoMall)”。
源起
从互联网各个角落里涌现出来的网页,如同现代社会中发行的报刊和书籍,都是对当时社会运动状态的某种反映。互联网越是渗透到社会生活的各个层面,这种反映也越全面。
同时也不难观察到,那些网页,大多是自由出现、自行消失(姑且称为“流逝性”),其生命周期,短则几分钟,长可许多年。这不同于报刊书籍,一旦印刷,除非人为销毁,大多都能长存于这个世界(尽管过了许多年后不一定能容易找到)。
因此,如果能将出现过的网页,在它们消失之前搜集起来,仔细保存到一个“博物馆”中,供人们未来阅读、分析和欣赏,应该是有意义的。这个意义,不仅在于留住了报刊书籍不一定能反映的社会运动,同时,如果我们注意到许多传统的出版物也都有了对应的网络版,因而其意义也在于可能以很低的成本再现报刊书籍反映了的内容。
人们现在如果要问:1996年,中国互联网上有哪些内容?我们只能说不得而知。
我们希望能做到的,是当2100年人们问:2001年中国互联网上有哪些内容?我们能够有相当具体的回答。不仅“能够回答”,而且是“很迅速地回答”!
依据
上述理想是美好的。但互联网上的网页太多、太杂、太冗余,内容鱼目混珠,质量参次不齐,不仅可能令人产生畏惧—— 这么多,往哪放?而且还会产生怀疑—— 这么多垃圾,搜来有什么意义?
2004年11月,第二届全国搜索引擎和网上信息挖掘学术研讨会在华南理工大学召开,我在一个报告中分析了这个问题(例如1TB存储设备2万元,可以存放1亿网页等等)时指出,由于社会数字化、网络化的进程迅速,以及计算与存储技术成本的日益下降,整个社会被抬到了一个很高的技术平台与信息平台上,因而用较少的资源(时间、金钱)也可能完成较大意义的工作,提出不要低估我们现在能做的事情。在《世界是扁平的》一书中,弗里德曼讲在互联网时代的经济活动中,说“small shall act big”。我想这个规则在互联网时代的研究与开发活动中也具有指导意义。
于是,“中国网页博物馆”在北大网络实验室所能有的资源条件下诞生了,并且稳定地运行了5年,到目前为止已经搜集了超过25亿个中国网页。
然而,我们依然是“落后的”,美国的Kahle Brewster博士从1996年开始这样的工作(http://www.archive.org),到目前为止已经搜集了全世界850亿个网页!
用处
如果读者到“中国网页博物馆”(http://www.infomall.cn)上体验一下就能看到,其中所保存的那些网页不只是被搜集存储起来,而且还保留了搜集时间和原有的链接关系,从而使得人们可以进行“历史Web浏览”。这已经比较有趣了。
再者,在过去的几年中,一些特定历史事件的相关网页被集中起来,形成了若干专题展示。比如党的十六大、伊拉克战争、抗击非典、中国首次载人航天等,都能很便捷地被浏览、回顾,这比翻旧报纸容易多了!
那么,除上述意义外,这海量的网页还有什么用?能怎么用?我想那就是:信息挖掘、挖掘、再挖掘!
2006年7月,第四届全国搜索引擎和网上信息挖掘学术研讨会在山东大学召开,我的报告题目是《Web挖掘,我们关心什么?》,探讨利用海量网络信息,如何帮助社会科学家们做研究。这里的“Web挖掘”,包括在现实的Web上挖掘,也包括从中国网页博物馆的历史Web中挖掘。
我一直相信,Web InfoMall这样一个巨量的信息集合能够满足十分丰富的知识需求。就好像我们去国家图书馆,会相信只要有足够的时间,就能找到自己所需的信息和资料。对于网络信息来说,如果我们需要回答诸如网上出现次数最多的100个人是哪些?哪个网站最先报道了禽流感消息?对于吉林石化的爆炸事件,不同的省份分别有哪些报道?“刘德华自杀”的报道是真的吗?这样的问题,一般的搜索引擎是难以胜任的,但我们相信,答案蕴含在Web InfoMall的历史信息集合中。
当我们依然不断从中国互联网上搜集网页,存放到Web InfoMall的同时,我们也从研究的角度考虑两个问题。
第一,上述“信念”的适用面,即Web InfoMall中的内容在什么层次,什么范围能满足人们的信息需求?直观地,我们认识到一个数据(信息)集合的可用性与它在其所号称的背景领域的总体信息量中所占的比例有关,只有此数据集合和其所关联的背景领域总体信息量所占的比例足够大的时候,这个数据集合才有搜索和挖掘的价值。比如,对通用图书馆,人们要求其有足够多的藏书,它的馆藏量要占所有图书量的一定比例;对专业图书馆,人们要求的则是它的藏书量在相关领域图书量中的比例不能太低。
第二,如果这个“信念”正确,则要考虑如何将那些网页数据有效地变成所需的信息或知识。在Web InfoMall上建立一个含有时间标签的搜索引擎服务是吸引人的,但我们更关心的是如何从相关网页集合中提取综合信息(或者答案),而不仅是给出其中元素的列表。
对于上述“信念”,我们已经找到了一些支持证据。例如,人们对搜索引擎的信赖程度与信心越来越高,据CNNIC统计,约70%网民使用搜索引擎。最近在知识分子群体中的一个统计表明,80.24%的人认为搜索引擎可以让他们“满意而归”,而目前愿意花在一个查询会话上的时间平均是10.14分钟。这说明人们基本上相信所需的信息在网上能找到。我们可以认为,对网页的搜索有足够高的比例,这是人们对搜索引擎有信心的“物质基础”,不达到一个足够的量,无论排序算法有多好都是枉然的。Web InfoMall中包含有大部分中国网页,因此我相信人们要找的信息里面基本上都有。而如果加上“挖掘技术”,潜在能提供的信息(知识)则会更多。
现状与展望
目前,我们正在研究用一个什么样的软件构架来将Web InfoMall中的海量数据转化为信息或知识。这是一个什么样的使命?从目前的25亿个中文网页到未来十年达到上百亿中国网页,对应的是无穷多的知识,它们不一定都是在某一篇网页中已经有所表达的。从可操作的意义上,我们的定义是:“知识”约等于从一个相关网页集合中的网页提取的有关部分的某种组合。这就与普通搜索引擎区别开来。即我们要在“理解”网页集合所蕴含的内容的基础上形成新的认识、答案和结论。WebDigest就是面向这个目标正在开展的一个研究项目。
在另外一个层次,我们也考虑应该在Web InfoMall的数据之上有一个软件设施,其目的是要使得面向不同应用背景的软件开发人员能在上面开发应用软件(例如某种垂直搜索引擎)。这样,我们看到的似乎是一台特别的“计算机”(称为k-machine)。从程序设计人员的角度看,k-machine与普通计算机的不同之处在于:它对外不仅是一个程序设计接口,背后还有无比丰富、且不断增加的网页数据。
Web InfoMall已经走过了五年的历程,相信随着时间的增长,其价值会与日俱增,同时我们认为它的潜力还远未发挥出来。当上述构想的软件基础设施形成之后,我们可能看到它展现出两个不同的面貌:一方面,网页搜集总会持续不断进行下去,以“不要漏掉重要的网页”为核心追求,所形成的原始网页集合更贴切些可称为“档案馆”;另一方面,在其上通过挖掘、开采所形成的各种子集(例如反映某种专题等),就成为了博物馆的展品,于是可形成一个“博物馆”,不时有新的主题收藏展出。如果说,InfoMall是物品为信息的综合商场的话,那些软硬件设施本身,则就相当于“Mall”的房产、水电等环境条件。
我们将推进中国网页博物馆的不断发展,也欢迎各界给予不断支持。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。