数据共享需规范
伴随着信息技术在科学活动中的应用,特别是与科学行为的无间结合,科学已经置身于大数据时代。回顾诺贝尔奖的历程,我们能够看到,1981 年、1998 年、2013 年三次诺贝尔化学奖,均与计算化学大数据有关。大数据为科学带来了重大的机遇,当所能利用的数据规模、复杂性、关联度与价值增大时,人们才能做出很多之前无法完成的事情。因此,数据规模与数据质量是现代科研活动的前提。
调研中,关于共享障碍与困难,我们收集到的最多的意见是“数据共享缺乏标准规范”。具体呈现有:
首先,数据重复建设,各自为政:基础建设是支撑国家发展的保证,国家对收集、整理基础数据缺少统一规划,各单位、领域、各学科存在各自为政的现象,有关资金和数据项目化、课题化,重复投资、短期效应。我国没有专门的机构和队伍、从国家层面来做“慢工出细活”的数据收集和整理工作,从而不断地提高数据的质量。
其次,缺乏数据共享政策:在数据公开与共享方面,没有国家政策、制度与规定,缺少标准规范;实验室内部、不同课题组之间也很难做到数据的充分共享。应制定一定的政策、建立一定的机制,使国家项目支持、国家资金资助而产生的数据能成为一种“国有的”公共财产数据财产,实现共享。
第三,共享缺少正向激励:大家都把数据握在手里不拿出来共享,主要是缺少正向激励机制,同质化竞争太严重,使得拿着数据的一方不愿意公开数据。
第四,数据内容挖掘不够、数据服务不够到位:以专利数据库为例,只能通过专利名称等简单信息进行检索,基于内容的挖掘不够,不能查看基于具体内容的专利信息。
目前,我国有两千多所高校,其中985/211 高校等研究型大学百余所,每个高校教师数以千计,不同的学科申请不同的课题,而课题项目存在重复雷同情况比比皆是,但从事相关研究的课题组之间相互不了解,尤其在交叉学科。并且,各高校相关学科之间也缺乏系统性的交流平台。
“这也涉及到提供数据方的评价和激励机制。美国海洋数据质量评价是由NODC 聘用专家。NODC 的数据分为五个等级,等级越高,权威性越高。有一套完整规范的数据使用和共享规范。”中国海洋大学的钱教授说。
比如,美国环保局的观测数据,经过质量控制后也是及时发布到网上供研究用。这些数据主要是政府机构出资但是由各类研究机构和人员具体制造的,有很多研究性的数据成果,最后是私人出资制造的数据。
当然,国内科研数据共享不理想的背后原因,也还有研究成果如何认定与成果被抄袭的顾虑。乔治亚理工学院的胡泳涛介绍说,“在美国,比较难处理的,是政府资助的课题完成后的数据,一般在项目合同里也会要求数据上交和分享,有时因为财力不足,共享不够,但是,如果写信索取,没有人会不给,原因是研究人员需要得到认可。”并且,私人出资制造的公益性的研究成果数据,出资者更愿意公开和分享数据,因为那也是它出资的目的。
针对现状,专业人士分析认为,当前科研数据共享首先需要从顶层设计着手,统一标准规范,建立开放共享的机制,尤其是基础科学数据的开放;其次,需建立第三方评价机构,对数据进行质量控制;第三,大数据开放共享,也应建立一套分级规范,对数据进行分级处理,对使用数据的科研人员进行界定与区分;第四,数据格式交由市场决定,不同专业的人员发明了不同的数据格式,便于数据共享,是自然产生的一个过程,最得到认可的数据格式留存了下来。第五,未来大数据挖掘应引入市场机制,以服务业的形态进入科研活动。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。