“2007年将是一个分水岭,这一年在中国搜索市场上将会爆发一场前所未有的搜索大战。”香港摩根士丹利的分析师理查德说。
最近这句话被广为引用,也被广为论证:微软宣称将在搜索领域大动干戈;Google和百度分别有国际知名科学家到岗;网易推出新搜索“有道”,雅虎中国则高调表示定位“高端搜索”,搜狐与清华共建搜索实验室;同时,各类专业垂直搜索风起云涌。
用户也发出惊呼:不同搜索引擎的爬虫在狂抓网页!侧面地反映出搜索领域竞争在急剧升温。
搜索市场的多维化序幕已拉开。
趋势
互联网没有国界,正如百度总裁李彦宏所说:搜索引擎市场是赢家通吃的市场。
搜索带来的巨大商业价值有目共睹。不难理解热闹现象的背后:老牌搜索公司欲在新一轮竞争中继续领先,而更多新生搜索公司则希望通过自身特色后来居上。
有专家认为,搜索技术已经经历了两个阶段。第一个阶段的搜索引擎采用的是传统信息检索的方法,只使用网页自身带有的文字信息,比较典型的代表是Altavista、Excite等。第二个阶段的搜索引擎开始大量采用网页之外的信息,包括各种超链分析算法、用户点击跟踪等,代表是Google和Inktomi。目前我们正处在搜索技术的第三个阶段:关注用户查询词背后的需求,而不再是查询词本身。比如,通过“相关搜索”、“搜索提示”等方式对用户的查询提供更多帮助。这个时期,用户已经获得相对精准与个性化的搜索服务,同时也在追求更专业、深入、个性化的服务。市场推动应用,我们可以看到,搜索业内趋势明显:垂直搜索涌起,社区化搜索渐热。
垂直搜索涌起
“百度和google已经把一个大而全的搜索做得很好了,而他们做不到的地方,正是新生搜索引擎的机会。” 清华大学电子工程系博士研究生许静芳说。
目前的新生搜索引擎大多数是垂直搜索引擎。垂直搜索是与通用搜索引擎截然不同的引擎类型。其专注具体、深入的纵向服务,致力于对某一特定领域内信息的深入挖掘,以满足特定用户的需求。比如,求职搜索、交友搜索、论坛搜索、商品搜索等,目标特定且受众较广,因此具有相当市场。今年春节前,因火车票搜索而被众人广知的奇虎网便是垂直搜索的一种,它属于论坛搜索。
与现有的页面搜索技术最大的不同之处在于,垂直搜索引擎返回的是一个“不存在”的网页,是一个搜索引擎根据用户的需求而将各类相关信息集合到一起所生成的新的页面。
“搜出的是答案,而非网页的集合。”北京大学李晓明教授说。而答案式的展示方式是未来搜索的一个方向。
在国外,垂直搜索引擎已经开始向行业收费。以旅行网站Expedia为例,当有旅行者通过Expedia搜索向美国航空公司(UA)订票的时候,依照二者的合作协议,前者将向后者收取一定的服务费,从几美元到几十美元不等。
国内而言,从去年开始,垂直搜索不断涌现,炙手可热。
社区化搜索渐成风潮
诸多领域的垂直搜索不断涌现的同时,搜索引擎的社区化趋势升温。
目前,百度是国内在社区化搜索方面做得最成功的搜索引擎。它于2005年推出“百度知道”,采用互问互答的机制,激发大众智慧寻求答案。随后“百度贴吧”、“百度维客”、“百度空间”,更是将百度的社区化模式推向更高层面。
其他搜索引擎不甘落后。雅虎中国日前推出“雅虎空间”和“雅虎群组”,改变单一为用户提供搜索资讯业务的模式,转向提供融通了搜索、资讯和社区等多种功能在内的服务。而Google也开始尝试将包括地图在内的一些社区产品本地化。
显然,社区化的搜索模式对凝聚用户有着不可忽视的作用。其体现的正是Web2.0时代人人建设互联网信息的精神。
百度高级科学家洪涛认为,搜索引擎不仅是用户获取信息的工具,也是用户之间信息交流和知识共享的互动平台。搜索的任务不仅是为互联网上已有信息提供搜集索引和检索服务,也担负着根据用户需求,引导和构建新的互联网内容,从而方便用户共享,促进用户交流。
可以预见,随着人人参与互联网信息建设高潮的到来,搜索的社区化应用将会越来越多。
问题与挑战
搜索领域趋势明显,技术也在不断发展,但与此同时,外部环境的不断变化使目前搜索引擎面临诸多挑战。
首先,Web的发展对集中式搜索引擎的挑战。
当前的搜索引擎主要为集中式搜索,即通过挖掘器将Web上的网页挖掘至本地,在本地索引网页中的内容,并对用户提供全文检索服务。
“集中式搜索引擎中所有的操作都集中在本地或少数的数据中心进行。面对浩如烟海并不断剧增的Web信息,这种方式对网络传输、存储、计算资源,乃至电力系统、散热等方面均提出严峻挑战。”许静芳解释。
以Google为例,目前索引80亿左右网页,每日查询逾2.5亿次,整个系统需要运转在一个拥有数万台PC机的大型集群上,对搜索引擎的硬件设施挑战极大。
因此,一些研究人员希望能走打破集中的瓶颈,联合多个搜索引擎,通过分布式的检索方式对信息进行分区检索,实现搜索的广度与深度并重,从而使用户得到更全面的信息和更加优化的检索结果。
其次,来自SEO优化搜索的挑战。
被SEO优化的网站,是目前搜索引擎不得不应对的挑战。这类网站根据搜索引擎的排列方式设计,因此名列前茅,但其内容往往与用户查询信息毫无关系。
被优化的网站越多,用户搜索信息的效果越差。因为在这种情况下,一个网页能不能被搜索到,不是取决于网站内容的相关性,而是取决于该网站是否比别的网站更优化,这让搜索引擎原有的价值大打折扣。
技术人员深感头疼。要从列表里剔除此类网站,并非易事。全世界的搜索引擎公司不断改变算法或者提升技术,试图将之从查询网页的“头等舱”中踢下去。
目前,这方面的研究还在进展中,主要方向包括:伪装和重定向的探测、垃圾的探测、提高排名算法复杂度和技术保密度、基于内容分析的探测方法以及基于链接分析的探测方法等。
如同病毒与反病毒的关系,搜索引擎与优化网站之间的较量将会是一个持久战。
“对于搜索引擎而言,不要妄想发明一种永远无人可破的技术。搜索引擎设计者只要让自己的系统和算法有足够的防范能力,使垃圾信息制造者的进攻代价大于预期收益,那么垃圾信息制造者就没有理由继续从事这项无利可图的工作。”北京大学信息科学技术学院副教授张岩在其名为《一场无休止的竞赛——搜索引擎与垃圾信息制造者之间的战争》的文章中指出。
还有一些技术方面的问题。比如,目前智能化技术还处于较低层面,使搜索的效果仍不够理想等。
我国教育领域的搜索
一个比较有趣的现象是,从今年开始,国内许多搜索引擎公司开始与高校合作建立搜索实验室。强强联合的背后蕴含的是高校在搜索领域具有的很强的技术实力和创新能力。
高校对搜索技术的研究由来已久。早在“九五”建设时期,北京大学(天网搜索引擎),清华大学(网络指南针搜索引擎),华南理工大学(木棉搜索引擎),就开启了国内研究搜索引擎的浪潮。
到今天,搜索引擎的相关工作在教育行业已经开展了十年了。
这十年中,教育网的搜索引擎不断改进,以适应外部环境的不断变化,从而得到更精准、有序、全面、个性化的搜索效果。其特色主要表现在两个方面:一是针对教育网内用户的特殊需求,为其提供有针对性的信息检索服务;二是作为深具科研实力的研究机构,高校的研究和探索具有前沿性,极大地推动了国内搜索引擎以及相关领域的研究,为中国搜索引擎技术的发展做出了贡献。
以中英文检索和Ftp下载闻名的北大天网搜索,5年之前就开始着手建立Web InfoMall——中国网页博物馆,从历史的角度对错综复杂的信息进行有序排列,在Web InfoMall上建立一个含有时间标签的搜索引擎服务,这对教育网用户而言,价值非常。
“很多时候,好不容易在网上搜到了一个有用的科研信息,但是来源很不确切,无法援引。”北京大学信息管理系老师韩圣龙总结自己使用搜索引擎的困惑时说。而天网Web InfoMall试图构建的,便是一个有依据、有秩序的信息世界。
对于北大天网的未来模式,李晓明教授表示,“我们正在着手准备做自己的行业搜索,至于做什么领域的搜索,目前还在讨论中。”他认为,从现实角度上来说,高校不可能建立一个大而全的搜索引擎。“有五、六千万的网页时,我们还可以承受广大用户的搜索,但目前有数十亿网页,而且不断增长,高校显然无法承受。但是专注于行业搜索,对有研究实力的高校而言,具相当优势。
经过多年发展,清华网络指南针搜索引擎目前在分布式搜索方向展开了一系列研究。其针对目前集中式搜索存在的问题和瓶颈进行崭新尝试,联合多个搜索引擎,采取分布式的联邦搜索方式,充分发挥局部搜索引擎的优势,从而试图达到更加全面与精确的搜索效果。
他们所开发的指南针联邦搜索引擎目前已经取得了阶段性进展,还在进一步探索中。许静芳表示:“联邦搜索要想达到良好的搜索效果,充分发挥其优势,前提是所联合的各个搜索引擎必须做好自身的搜索技术,群策群力。各个网站把自己的搜索做好了,联邦搜索的优势才会凸显。”
华南理工大学的木棉,同样属于一个分布式搜索引擎。木棉搜索基于开源项目进行,以建立一个具有可扩展性和开放性的搜索引擎。他们立足于教育网,力图解决新一代搜索引擎应用中所带来的新问题和技术挑战,并致力于与国内研究单位合作形成中文分词的标准数据集等工作。同时,他们关注搜索技术对教育信息化的促进,试图通过搜索引擎实现校园网电子邮件、新闻、BBS、博客和档案系统等各种信息的互通。“实用化是搜索引擎发展的关键,搜索引擎领域存在巨大的机遇和挑战,我们要以理智和积极的态度去面对、创新、开拓。”木棉检索主要技术人员董守斌教授表示。
在本期封面报道随后的文章中,我们将对以上提到的三个教育领域内的搜索引擎的具体技术架构及实现方式有详细说明。
搜索的明天
Google开创了一个搜索的新纪元,使用户获得了前所未有的良好体验。但搜索技术仍在不断发展,未来的搜索会是什么样子?
网易新搜索引擎的构架师之一周枫认为,未来的搜索应该是简单、直观、智能,同时也是个性化与人性化的统一,这比较全面地概念了未来搜索的方向。综合来看,专家对未来搜索的猜想和总结表现在以下几个方面。
智能化与人机交互
所谓智能化搜索,说到底,就是给用户最少、最好的选择。例如直接给出答案,有些类似垂直搜索的展示方式,但有更深层次内涵。
通俗地概括,就是搜索不仅要找到一个东西,而且要对互联网上的信息进行总结和表达,让搜索软件去猜想用户想通过搜索找到什么内容,换言之,就是计算机能像人脑一样进行分析和思考。
智能化的搜索引擎直接对搜索到的内容进行二次比较。比如,你搜索“北京最好的酒店是哪里?”,在目前的搜索引擎中,用户通过关键词进行搜索,搜索引擎则给出一些含有关键词的网页,用户需要自己一个个比较,从而得出最终结果。而在未来的搜索引擎中,用户可以直接得到搜索引擎给出的参考答案。
智能化还将使信息推送的精确度得到极大增强。电脑能“聪明地”挖掘分析用户的搜索信息,然后从浩瀚的信息海洋中精准地抽取出符合其搜索习惯的信息。
对智能化的应用,将不可避免地使搜索走向更加精准和高效率。反过来,搜索本身还可以推动计算机智能向前发展。比如,Sogou拼音输入法就是基于搜索引擎统计分析而诞生的智能化产品。
分布式的P2P搜索
“未来的搜索不是网页的搜索,而是本地PC机的搜索。”有专家大胆预测。
在这里,我们又不得不用浩如烟海来形容互联网的信息,但是比互联网信息更加浩如烟海的是每个人PC机上的信息。如若一部分用户可以将自己硬盘上能共享的,有价值的信息拿出来共享,搜索将会怎样?
其突破了基于Web页面的信息,实现了更广范围内的互联网搜索,如同BT下载一般,不能不说是一个巨大的创新思维。
但是,问题仍然存在。一是需要一定量的用户信息进行共享,其次用户要对信息进行合乎规范的描述,以便于其他用户去浏览和搜索。此外,还存在安全方面的挑战。
多媒体搜索
今天,一个突出的矛盾是大量多媒体资源的生产和检索方式非常落后之间的矛盾。
多媒体检索极具市场。假设你有一个可以存储1000首歌曲的MP3,除了一个个往下翻阅或者直接定位其数字编号,是否可以通过随意哼唱使机器直接找到所要歌曲?能否通过对图像特征的描述找到相关图片?此类搜索是基于多媒体内容的搜索。而现在,多媒体检索仍主要通过文本标签进行检索。
从事多媒体文件检索多年的韩圣龙老师表示,基于内容的多媒体信息的组织和检索技术目前大多还处在实验室阶段,且缺少大样本的实验。对于解决目前面临的多媒体资源量快速增长的问题还力不从心,因此现在很少有能直接应用于内容的多媒体检索系统。在实际工作中,还有许多问题需要学术界和产业界一起努力解决。不过最近有一些好消息传来。
比如,他介绍说,前阵子在由美国伊利诺斯大学主办的国际音乐信息检索评测比赛(MIREX)中,中科院声学所中科信利语音实验室获得哼唱检索评测第一名,它通过6秒的自然语言直接输入,便找出与之相配的歌曲。这些技术有望在未来走出实验室。
Google有关人士指出,“人们总是假设搜索引擎已经发展到头了,其实还差得远。我们也许仅仅才走了百分之五的路程。”
未来的多媒体搜索会有什么突破?人们拭目以待。
不过万变不离其宗。未来的搜索必然是以满足互联网用户的需求为目的,这决定了它的更直观、精准、智能化、人性化的发展方向。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。