
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Nature专题:如何处理海量数据
【字体: 大 中 小 】 时间:2008年09月12日 来源:生物通
编辑推荐:
现代科学研究面临的一个巨大挑战就是如何处理已有的海量数据,9月4日《Nature》专题就这一问题以社论,特写,以及评议等文章形式进行了专门报道。
生物通报道:现代科学研究面临的一个巨大挑战就是如何处理已有的海量数据,9月4日《Nature》专题就这一问题以社论,特写,以及评议等文章形式进行了专门报道。
Big data: science in the petabyte era
Petabyte (PB,拍它字节或拍字节)是一种资讯计量单位,现今通常用于表示网路硬盘容量,或具有大容量的储存媒介的储存容量时使用。这是目前的“big data”,Nature编辑曾经参观Sanger研究院的超级计算机中心,以及其petabyte容量。维基(Wikipedia)的成功也表明这种wiki的开放式概念是多么的受欢迎,这也是现代生物学的数据流处理的一种方式。
9月世界上领先的搜索引擎就10岁了,十一年前很少有人能预测到Google在搜索方面的巨头地位,那么下一个Google会是谁呢?今天数据是很容易得到分享的,当然也很容易删除或被遗忘,问题是小型实验室如何保存在线的数据?
从18世纪到20世纪中期,最多的“计算机”就是人类,大家知道的最好的计算机就是“哈佛计算机”:在19世纪80年代,到20世纪40年代期间在哈佛学院天文台(Harvard College Observatory)工作的女性工作者。她们要在上百万个照像板(photographic plates)上分辩星天体。
在线数据是生物实验研究获得的数据的关键公布窗口,这就是biocurator扮演的角色,但是来自世界上主要在线研究来源的团队解释道,biocurator目前没有受到重视。
Editorial:
Community cleverness required
News:
Big data: The next Google
十年前的9月7号,也就是1998年9月7日,Google公司在加州北部的一个私家车库内诞生。从那天开始,Google就以私有股份公司的形式正式创立了。今天,Google公司迎来了它的十周岁生日。
十年间,Google一直在孜孜不倦地追求技术创新,突破现有技术的限制,如今已经成为搜索领域的巨人。很多人预计它会像微软控制着个人电脑一样支配着下一个时代的搜索领域。
Nature对一些研究人员和企业从业人员进行了调查,得到的答案有许多,但是一个基本的观点是:这个世界的信息和资源在整合,无论在线和真实环境的边界是否在模糊化,从电话或者染色体中都获得大量touchy-feely数据。
Column: Big data: Data wrangling
News Feature:
Big data: Welcome to the petacentre
Big data: Wikiomics
Commentary: Big data: How do your data grow?
Books and Arts: Big data: Distilling meaning from data
Essay: Big data: The Harvard computers
Feature: Big Data: The future of biocuration