《自然》杂志2009年1月8日的社论指出,在不断产生海量数据的科研领域,数据的利用、再利用以及存储的问题必须得到重视。
美国国家自然科学基金和欧盟已经投入大量资金在这个问题的研究上。但是,数据库的开放共享问题涉及公众和私人的利益,这个分歧如何处理是很复杂的。2008年12月份的一系列事件突出了这个问题的复杂性。
作为全球最大的在线图书零售商,亚马逊最近有一项创举,即把基因库、其他应用广泛的基因序列以及化学结构等科研数据免费开放。当然,亚马逊的这项举动并不是完全无私的。研究人员可以下载这些数据到其个人电脑,但是他们都会使用亚马逊公司的云计算技术。
该社论指出,这种服务可以提供巨大的研究效益。通过给一个固定的用户网络科学数据,亚马逊可以使海量的数据计算运行下去,而不需消耗那点微不足道的科研经费,而且云计算可以使各个研究团队的数据分享和分析更加便利。
同样是一项基础建设,2008年11月18日,欧盟联合各研究机构、图书馆和博物馆推出数字图书馆EUROPEANA,他们依靠新技术将书籍、手稿、画作、地图、照片等珍贵的历史文献扫描汇集起来,意欲与美国谷歌图书(Google Book)一争高下。当时设计容量为每小时接纳500万人次的访问,但是他们的服务器数小时内即因访问量过高而宣告瘫痪,直到一个月后才重新上线。
《自然》杂志的社论最后指出,总的来说,免费开放标准数据可以激发更高级信息服务系统的创新。创造这样的公众平台,政府要控制重要的文化和科研领域的资源垄断。数字化建设应该侧重使标准数据公开可用,而不是建设新的门户网站。为了避免令人尴尬的系统崩溃,公共部门应该与类似谷歌或亚马逊这样在规模经济和数据共享方面卓有成就的私营机构展开协作。
参考文献: Nature, 2009, 457, 129
《科学新闻》 (科学新闻09年第2期 名刊) |