BBS(Bulletin Board System),俗称“电子布告栏”、“电子公告牌”,别名“论坛”。目前,各大高校的校园BBS均同时支持Telnet和Web两种登录方式,比如水木清华、瀚海星云等。BBS虚拟社区中的信息传播集中体现了网络传播隐匿、交互、跨时空及信息海量的特性,给对BBS虚拟社区的研究、管理带来很大的挑战。在这种情况下,针对BBS的数据挖掘、分析技术的研究就显得非常必要了。
地位与核心问题
BBS数据挖掘是指综合应用Web挖掘、TDT、社会科学等领域的理论、技术,获取、分析BBS上话题和社区结构,为进一步研究BBS、构建基于BBS的应用提供数据源和技术支撑。相对于底层的Web挖掘、TDT、社科理论而言,BBS挖掘是一个应用领域,而相对于上层的各领域应用需求而言,BBS挖掘是作为技术支撑的基础性研究。
包括所有可能的BBS挖掘应用需求,列出的仅仅是几个主要方面:
1.新闻传播与舆论导向方面的应用迫切需要BBS挖掘技术完成对BBS上信息的归类、提取自动化。要实现舆论导向,首先要知道当前舆论热点是什么,这是BBS挖掘中的话题发现研究的内容;知道了热点话题后需要了解话题的传播态势,这是话题追踪的研究内容;分析舆论产生的人群基础,这是虚拟社区结构分析的研究内容。
2.市场营销与安全管理都需要较强的自动分析能力。因为BBS的信息海量特点,完全人工处理是不切实际的。分析帖子观点的倾向性,挖掘潜在的用户群,挖掘用户反馈信息,过滤敏感话题都需要BBS挖掘对内容、社区结构的自动分析能力。
3.随着BBS的“升温”,社会学研究对其关注也迅速增加,但是在研究方法上定量分析的力度不够,亟需更强的BBS挖掘、分析能力。BBS挖掘技术可以为社科研究提供有力的数据支撑。
以上各领域的需求归结于两点:话题发现与追踪(针对BBS的内容分类、分析自动化)、虚拟社区结构分析(对用户群结构、交互方式的研究)。这两点是BBS挖掘的核心。
一方面它借助于Web挖掘、TDT、社科理论已有的研究成果,利用已有的技术手段去分析BBS上的对象:BBS上的话题发现与追踪、虚拟社区结构分析。但是由于BBS自身的特点,引入的各项技术都将有所改进,而且BBS自身的特点也产生具有特色的新技术。
研究现状国外的研究
2002年,日本东京大学的Naohiro Matsumura,Yukio Osama和Mitsuru Ishizuka提出影响力传播模型IDM(Influence Difusion Model),用于对BBS上有影响力的人物和话题的发现。IDM假定:
1.帖子的传递链反映了用户之间影响的传递。比如,如果帖子Cy回复的是帖子Cx,那么Cy被认为受到了Cx的影响。类似的,如果人物Y回复了人物X的帖子,那么认为人物Y受到了X的影响。因此,影响力是通过帖子链传播的。
2.帖子中的关键词反映了人物的观点。在帖子链中关键词传递的多少反映了影响的程度。
基于上述两个假设,影响力模型被定义为:关键词在帖子传递链中传递的程度即为影响力传递的程度。
其中,Wx和Wy是帖子Cx和帖子Cy中所使用的关键词集合。ix,y是帖子X对帖子Y的影响力。影响力的传递计算:
在此模型基础之上,Naohiro Matsumura等人研究了挖掘和分析BBS上观点领袖(Opinion Leader)及其角色的方法。IDM模型的着眼点是用户间的交互模式,通过分析帖子或者用户间的影响力传递来发现焦点人物或者热点话题。
Kleinberg的思路是把BBS上的帖子看成是一种文本流,类似于网络流量建模中的排队论,他用无穷状态自动机的状态转移去模拟文本流中burst的到来,最后在Email和科技文献中验证了模型的健壮性和效率。Kleinberg对文本流随机到达的假设做了扩展,对原算法有所改进。
值得一提的是,国外比较流行的新闻组(newsgroup)其实跟国内的BBS论坛结构很类似,因此这方面的研究也有借鉴的价值。有研究人员探讨了在USENET新闻组上利用统计和语言学方法获取词法、语意和对话三个层面信息的方法。也有研究人员基于新闻组上的回复关系形成的图结构,分析用户的群体观点对立特征,并且验证其结果比单纯的文本分类效果好。
微软的研究人员对新闻组的结构进行了深入的研究,他们发现新闻组上的cross-post形成的网络是一个小世界网络,提出基于cross-post模型的聚类算法优于语意聚类方法。同时微软的Netscan项目对USENET新闻组的结构给出了可视化的分析结果,内容见网址http://netscan.research.microsoft.com/。
国内的研究
国内针对BBS的研究很多是从社会学、舆论引导、心理学、语言学的角度出发。从技术角度出发研究BBS的较少,其中有的介绍如何实现一个BBS或者如何解决一个BBS搭建上的技术问题,其中一些具有一定价值,如提出一个针对Telnet协议下的BBS搜索引擎。针对BBS上的话题研究仅有复旦大学计算机系的媒体计算与Web智能实验室出过两篇相关的论文:一个提出BBS热点话题发现的一种方法,另外一个在其基础上提出了几种优化方案。
展望
总的说来,国外对BBS挖掘的研究工作起步不久,国内才刚刚起步,有待改进的地方还很多。
1. 没有扩展到跨BBS的情况。目前的研究基本(除了微软对新闻组上cross-post的研究包括多个Channel)都是针对一个BBS上的某个版面。显然这只是问题的简化。如果把研究范围扩展到多个BBS,将面临以下几个问题:
第一, 同一论坛的不同版面可能讨论同一话题,这样不同版面对此话题的计算评估怎么跨版面地合并?这无疑给话题的分类、同主题的合并提高了难度,现有的针对单个论坛的单个版面的算法能胜任么?
第二, 同一个论坛上的用户有惟一的ID标识,但是不同论坛上的用户怎么惟一标示呢?怎么计算跨论坛的用户对同一个话题的关联呢。尤其是分析发帖-回复结构的算法依赖于对用户的识别、计数,跨论坛时怎么处理呢?
第三, 不同论坛间会出现大量雷同帖子的转帖现象,记录论坛间帖子的转帖链对评估各论坛的传播影响力,分析话题的传播模式大有裨益。但是跨论坛转帖链的记录对帖子的主题识别提出了较高要求。现有的算法能否胜任?
第四, 不同的BBS由于各自地域、用户群体的差异导致帖子内容的词汇风格、发帖、回帖习惯等方面大相径庭,比如封闭的小论坛上容易出现熟人间的聊天,话题漂移现象显著,而大论坛上这种情况就少得多。面对这样的差异性,统计学习类的算法怎么适应?
然而,很多应用需求都要求解决跨多论坛问题,比如新闻传播与舆论导向方面的应用、在BBS上的大范围的市场营销手段等,仅仅一个论坛的一个版面的数据是远远不够的。但目前这方面的工作还是空白。
2. IDM模型的计算影响力因子的方法明显存在缺陷。它用帖子中的term 扩散来判断影响力的扩散,将受到term提取的精度、同义词的影响。帖子相关的一些其他边缘信息,比如帖子的正文长度、回帖时间间隔、同一个用户对同一话题的累积回帖次数等都应当可以作为有益的补充,但是IDM却没有考虑这些边缘信息。
3. BBS挖掘的两个核心问题:话题发现与追踪、论坛结构分析并不是孤立的,两者是可以互为补充的。IDM模型已经事实上蕴含了这样的思想,因为term的提取可以看作是对话题的分析。但是,这两者结合还有多少改进算法的空间呢?有待进一步尝试。
4. TDT、Web挖掘中已有的算法在应用到BBS挖掘中时有哪些BBS特有的因素(比如帖子标题、BBS特有的语言特征等)可以考虑,用以改进算法?社科理论中的相关理论有哪些是对BBS适用的?这些都有待验证。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。