新趋势:让基因搜索成为可能

【字体: 时间:2011年03月28日 来源:福布斯中文网

编辑推荐:

  谷歌总裁埃里克·施密特(Eric Schmidt)说:“从远古时代到2003年,人类活动总共产生了5艾字节(相当于500亿亿字节)的信息。而现在,我们每两天就要产出这个数量。”

  

吉姆·霍恩萨尔:探索你的基因

 

毫无疑问,我们如今淹没在一片网络信息的海洋中。

 

谷歌总裁埃里克·施密特(Eric  Schmidt)说:“从远古时代到2003年,人类活动总共产生了5艾字节(相当于500亿亿字节)的信息。而现在,我们每两天就要产出这个数量。”

 

根据Facebook数据,每月通过该网站被分享的网络内容超过300亿条。

 

Twitter上每天发布超过9,500万条微博。

 

YouTube用户每分钟上传的视频就够播放超过24小时,每天有超过1亿人次观看。

 

那么在如此海量的数据面前,要如何来发掘出其中的真知灼见呢?怎么才能调高网络内容的信噪比,获取其中有用的见解和知识呢?

 

搜索还是发现

 

只要我们知道要找的是什么,而且正确答案只有一个,那么使用现有的搜索方法就很好办。好比你要搜索1968年棒球世界冠军老虎队的二垒手是谁,答案很清楚:迪克·麦考利夫(Dick  McAuliffe)。

 

但发现比搜索难得多。在你希望发现新内容的时候,你不知道你要找的是什么,而且可能还不止一个“正确”答案。要使用现有的网络搜索工具来寻求有价值的发现,就好比大海捞针,结果将令人非常沮丧。

 

一个可替代的搜索选择是建立一套具有模式识别功能的系统。该系统将借助专家对某个学科领域深厚翔实的知识功底来进行信息的挖掘。

 

在这些专家系统的外表之下,隐藏着一个组织信息的结构核心(本体);在核心之上的是属性和资源的命名(相关性分类);基于这些分类再发展出一套稳健的公式或算法,用以从数据中攫取有用的知识和见解。

 

基因工程无处不在

 

以人类基因组计划为开端的基因测序工程始于1990年。生物化学家们花费14年之久,分离出了DNA序列中的25,000条基因,和造成个体差异的1,400万种变化形式(即单核苷酸多态性,SNPS),从这些数据中寻找某种规律,以期由此改进医疗保健的质量,同时降低成本。

 

基因解析方法可以应用到个性化医疗服务上。基因保健公司(Genomic  Health)为我们提供了一个成功的例子。该公司数年来成功分析了数千份活体组织切片。通过观察组织切片,进而分析生成的结果和数据,他们可以识别出21个与疾病复发风险有关的基因,还可以了解某个病人是否有望经过化疗改善病情。现在,患病女性如果知道自己的发病风险较低,就可以根据自身情况调整治疗,从而避免昂贵、痛苦且毫无必要的化疗。

 

实现个性化音乐搜索是另一个大挑战,音乐搜索网站Pandora已经用他们的音乐基因组计划(Music  Genome  Project)直面这个挑战。该网站的数十名音乐理论专家从80万首歌曲中分离出400种音乐元素,其中包括每分钟的节拍数,是否存在八度平行或块状和弦,以及不同和声形式的出现频度,等等。通过解析用户提交的音乐,发现构成这首歌的“基因”模式的微妙个性,Pandora网站会给用户推荐其他风格类似的歌曲。

 

另一个因数据过载而苦恼的领域是寻偶。单身男女们怎么才能找到合适的另一半呢?基因工程在这里也有应用,或许你可以把它叫做“事儿妈基因组计划”(Yenta  Genome)。约会交友网站Perfectmatch已经建立了一个这样的数据挖掘系统,该系统采用由行为科学和心理学博士们设计的50多个特征元素(包括生活方式,恋爱风格,价值取向和理念等等)来进行配对。只要填写一份个人档案,用户就可以获得系统为其推荐天造地设另一半的候选名单。

 

同样的方法也可以用来为消费者寻找最理想的度假去处,这就是目的地基因组计划(Destination  Genome  Project)。我参与创立的旅游网站Triporati通过分析世界各地的两千多处旅游点,拆解出了62项特征,比如当地有没有高尔夫或网球设施,有什么建筑古迹和历史名胜等等。用户只需告诉我们其偏好,一份专为他定制的推荐行程地图就生成了。这套系统的核心是77名专业游记作者的经验积累,他们为Frommer’s、Rough  Guid和Lonely  Planet等旅游网站撰写了超过650本旅行指南。同时,用户也可以很方便地从站上好友那里听取他们的出行经验。

 

未来的趋势在哪里?

 

各种新的类基因工程的例子无处不在。电影网站Netflix就开发了一套挖掘电影数据的引擎。同样还有挖掘艺术、啤酒和金融信息的引擎。基因工程思想的每一个应用都遵循了模式识别的原理,针对各自领域的问题发掘有用的信息。

 

如果一项决定要耗费大量的时间和金钱,或者这项决定事关重大(比如有关你的健康),有证据表明,每当这时,听取专家的意见是最好不过了(我得的什么病才有了这些症状啊?),也可以通过朋友智慧(Wisdom  of  Friends)这一“确认引擎”作为补充(有谁去过马达加斯加?)。

 

我们产出的数据越多,如何让这些数据有意义,以及如何让它们变成有用的信息,就变得愈加重要。这样我们才能获得更多的知识甚至可能获得更多的智慧。算法让生活更美好!

 

萨尔曼·汗(Salman  Khan)的可汗学院(The  Khan  Academy)引领着教育基因组计划的发展。另一些人则致力于寻找“创业基因”(Startup  Genome)来预测一个人能否获得商业上的成功。其他还有一些很有趣的类基因方法的运用,在政治,艺术,时尚甚至宗教领域(慧根基因)都有表现。

 

类基因方法的要点,是去发现重要的见解;改变治疗疾病方式见解、找到爱听的音乐、确定度假地点,或者找寻婚姻伴侣的见解。只要运用了模式识别的原理和规则,就可以用各种系统化的方法来梳理井喷的数据。

 

随着我们构建专家系统的技术越来越成熟,我们就能够把从大海里捞针变成为手握大把的针了。

 

吉姆·霍恩萨尔(Jim  Hornthal)是圣弗朗西斯科CMEA资产(CMEA  Capital)管理公司的一名合伙人。他是Preview  Travel网站的创始人,该网站是最早建立的在线旅游代理平台之一。他还参与创立了旅游网站Triporati,革新了驴友们寻找最佳度假地点的方式。本文辑录自他在TED(Technology,  Entertainment,  Design,美国一非赢利组织,宗旨是“用思想改变世界”)发表的演讲。
 
 

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:基因搜索|

  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号