生物信息学简介

【字体: 时间:2002年01月03日 来源:

编辑推荐:

  

二十一世纪是生命科学的世纪,其里程碑就是历时13年、耗资数十亿的著名的人类基因组计划(Human Genome Project,HGP)。随着HGP的胜利完成,和诸如大肠杆菌、结核杆菌、啤酒酵母、线虫、果蝇、小鼠、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划的相继完成或全面实施,使有关核酸、蛋白质的序列和结构等的分子生物数据呈指数级数增长。然而基因组不仅是基因的简单排列,它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。弄清楚生物体基因组特有的组织结构和信息结构,解译生命的遗传语言的关键,研究重点已悄然由数据的积累转到数据的处理。与此同时在以数据处理分析为本质的计算机科学领域,按照摩尔定律飞速前进的计算机硬件,以及日益普及的互连网技术,为生物信息资源的研究和应用带来了福音。及时、充分、有效地利用网络上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段;核酸和蛋白质序列、结构、功能分析软件已经成为生物学、医学、药物学、农学和环境科学等领域的必备工具。

诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。

面对巨大而复杂的数据,运用计算机管理数据、控制误差、加速分析过程势在必行,如何开发和利用生物信息数据,已经成了当前一个前沿领域和研究热点。一门新兴的边缘学科:生物信息学应运而生。它以核酸、蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为主要手段,以计算机硬件、软件和计算机网络为主要工具,对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获取基因的编码、调控、遗传、突变等知识,研究核酸和蛋白质等生物大分子的结构、功能及其相互关系,研究它们在生物体内的物质代谢、能量转移、信号传导等生命活动中的作用机制。在大量理性知识的基础上,探索生命起源、生物进化的基本规律,探索细胞、器官和个体的发生、发育、衰亡等生命科学中重大问题。

分子生物信息学涉及许多方面,包括序列和结构数据的采集、储存、管理,数列数据库的功能诠释,专用数据和信息系统的构建,基于关键词的数据库查询,基于序列相似性比对的数据库搜索,蛋白质结构和功能预测,RNA结构和功能预测,分子模拟、分子设计、药物设计,基因组序列外显子、内含子、启动子识别,非编码序列功能分析等。由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。其研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics)两方面。张春霆院士在题为《生物信息学的现状与展望》的综述报告中认为,揭示人类及重要动植物种类的基因的信息,继而开展生物大分子结构模拟和药物设计.是当今国际上正在迅速发展的自然科学领域最重大的课题之一,不仅对认识生物体和生物信息的起源、遗传、发育与进化的本质有重要意义,而且将为人类疾患的诊治开辟全新的途径,还可为动植物的物种改良提供坚实的理论基础



HINT!!! 生物信息学(Bioinformatics)一词的来由

八十年代末期,林华安博士认识到将计算机科学与生物学结合起来的重要意义,开始留意要为这一领域构思一个合适的名称。起初,考虑到与将要支持他主办一系列生物信息学会议的佛罗里达州立大学超型计算机计算研究所的关系,他使用的是“CompBio”;之后,又将其更改为兼具法国风情的“bioinformatique”,看起来似乎有些古怪。因此不久,他便进一步把它更改为“bio-informatics(或bio/informatics)”。但由于当时的电子邮件系统与今日不同,该名称中的-或/符号经常会引起许多系统问题,于是林博士将其去除,今天我们所看到的“bioinformatics”就正式诞生了,林博士也因此赢得了“生物信息学之父”的美誉。



重要性:

生物信息学是一种重要的研究开发工具。它是一门研究生物和生物相关系统中信息内容物和信息流向的综合系统科学,只有通过生物信息学的计算处理,我们才能从众多分散的生物学观测数据中获得对生命运行机制的详细和系统的理解。它是今后几乎进行所有生物医药研究开发所必需的动力机,用于序列分类、同类性检测,DNA序列中蛋白质中蛋白质编码区和非编码区的分离,分子结构和功能的预测,以及进化史重建,只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择正确的研发方向,同样,只有选择正确的生物信息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。它不仅是我们了解生命和进化所必需的,同时也是发现新药和诊断方法所必不可少的。

生物信息学在今后的无论是生物医药科研还是开发中都具有广泛而关键的应用价值;而且,由于生物信息学是生物科学与计算科学、物理学、化学和计算机网络技术等密切结合的交叉性学科,使其具有非常强的专业性,这就使得专业的生物医药科研或开发机构自身难以胜任它们所必需的生物信息学业务,残酷的市场竞争及其所带来的市场高度专业化分工的趋势,使得专业的生物医药开发机构不可能在自身内部解决对生物信息学服务的迫切需求,学术界内的生物医药科研机构也是如此,而这种需求,仅靠那些高度分支化和学术化的分散的生物信息学科研机构是远远不能满足的。可见,在生命科学的新世纪,生物信息学综合服务将是一个非常重要的也是一个极具挑战性的领域。



现状

随着基因组计划的不断进展,我们拥有的海量级的数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识,也就是说,只有经过生物信息学手段的分析处理,我们才能获得对基因组的正确理解,因此可以说是人类基因组计划为生物信息学提供了兴盛的契机,创造了施展身手的巨大空间。生物信息学已然深入到了生命科学的方方面面。

国外一直非常重视生物信息学的发展,各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药工业内部的生物信息学部门的数量也与日俱增。但由于对生物信息学的需求是如此迅猛,即使是象美国这样的发达国家也面临着供不应求、人才匮乏的局面。

近来,英国鉴于国内对生物信息学专业人才日益迫切的需求,所有主要的研究资助机构[医学研究委员会(MRC,Medical Reasearch Council)、生物技术和生物科学研究委员会、工程学和物理科学研究委员会(EPSRC,Engineering and Physical Sciences Research Council)、粒子物理和天文学研究委员会(PPARC,Particle and Astronomy Research Council)和Wellcome Trust]不仅已经达成共识,认为应该高度优先地满足对生物信息学技术的需求,而且已经实现了对生物信息学人才培养的大力资助。

事实上,欧美等发达国家在生物信息方面已有较长时间的积累。从数据库的角度来讲,早在60年代,美国就建立了手工搜集数据的蛋白质数据库。美国洛斯阿拉莫斯国家实验室1979年就已经建立起genBank数据库,欧洲分子生物学实验室1982年就已经提供核酸序列数据库EMBL的服务,日本也于1984年着手建立国家级的核酸序列数据库DDBJ并于1987年开始提供服务。

从专业机构的角度来讲,美国于1988年在国会的支持下成立了国家生物技术信息中心(NCBI),其目的是进行计算分子生物学的基础研究,构建和散布分子生物学数据库;欧洲于1993年3月就着手建立欧洲生物信息学研究所(EBI),日本也于1995年4月组建了自己的信息生物学中心(CIB)。

从数据分析技术的角度来讲,早在1962年,Zuckerkandl和Pauling就将序列变异分析与其演化关系联系起来,从而开辟了分子演化的崭新研究领域;1964年,Davies开创了蛋白质结构预测的研究;1970年,Needleman和Wunsch发表了广受重视的两序列比较算法 ;1974年,Ratner首先运用理论方法对分子遗传调控系统进行处理分析;1975年,Pipas和McMahon首先提出运用计算机技术预测RNA二级结构;随着1976年之后大量生物学数据分析技术的涌现,Science于1980年第209卷就已经发表了关于计算分子生物学的综述;正如我们现在所看到的那样,在八九十年代,生物学数据分析技术在国外更是获得了突飞猛进的发展。

从 专业出版业来看,由于没有专业领域专门的期刊,起初的专业文献都散落在各种其他领域的期刊中,到了1970年,出现了Computer Methods and Programs in Biomedicine这本相关期刊,到1985年4月,就有了第一种生物信息学专业期刊——Computer Application in the Biosciences;现在,我们可以看到的专业期刊已经很多了,包括书面期刊和网上期刊两种,如Bioinformatics (formerly Computer Applications in the Biosciences) 、Acta Biotheoretica 、Bio Informatics Technology & Systems  、Bioinform Newsletter 、Briefings in Bioinformatics 和Journal of Computational Biology 等。

从网络资源来看,国外互联网上的生物信息学网点非常繁多,大到代表国家级研究机构的、小到代表专业实验室的都有,大型机构的网点一般提供相关新闻、数据库服务和软件在线服务,小型科研机构一般是介绍自己的研究成果,有的还提供自己设计的算法的在线服务,总体而言,基本都是面向生物信息学专业人士,各种分析方法虽然很全面,但却分散在不同的网点,分析结果也需专业人士来解读。

目前,绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数据库系统产生;他们共同组成了DDBJ/EMBL/GenBank国际核酸序列数据库,每天交换数据,同步更新。其他一些国家,如德国、法国、意大利、瑞士、澳大利亚、丹麦和以色列等,在分享网络共享资源的同时,也分别建有自己的生物信息学机构、二级或更高级的具有各自特色的专业数据库以及自己的分析技术,服务于本国生物(医学)研究和开发,有些服务也开放于全世界。

国内对生物信息学领域也越来越重视,自北京大学物理化学研究所于1996年建立了国内第一家生物信息学网络服务器以来,我国生物信息学也蓬勃发展了起来,国内近年来开展生物信息学研究的单位主要有:北京大学、清华大学、中国科学院生物物理所、军事医学科学院、上海生命科学院、中国科学院生物化学所、中国科学院微生物所、中国科学院遗传所人类基因组中心、中国医学科学院、天津大学、复旦大学、南开大学、中国科技大学、东南大学、内蒙古大学等。在一些著名院士和教授的带领下,在各自领域取得了一定成绩,有的在国际上还占有一席之地,如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST序列拼接方面以及在基因组演化方面、天津大学的张春霆院士在DNA序列的几何学分析方面、中科院理论物理所郝柏林院士、清华大学的李衍达院士和孙之荣教授、内蒙古大学的罗辽复教授、上海的丁达夫教授……北京大学于1997年3月成立了生物信息学中心,中科院上海生命科学研究院也于2000年3月成立了生物信息学中心,分别维护着国内两个专业水平相对较高的生物信息学网站……,但从全国总体上来看与国际水平差距很大。一方面,国内生物(医药)科学研究与开发对生物信息学研究和服务的需求市场非常广阔,另一方面,真正开展生物信息学具体研究和服务的机构或公司却相对较少,仅有的几家科研机构主要开展生物信息学理论研究,声称提供生物信息学服务的公司所提供的服务也仅局限于简单的计算机辅助分子生物学实验设计,而且服务体系并不完善;目前国内互联网上已经有了几家生物信息学网站,但大部分偏于所有生物(医)学领域的新闻报道,生物信息学专业技术服务的含量太少,研究力量薄弱,这就与国外有了较大差距。

生物信息学的发展将会对生命科学带来革命性的变革。它的成果不仅对相关基础学科起巨大的推动作用,而且还将对农业、医药、卫生、食品等产业产生巨大的影响。因此,各国政府和工业界对此极为重视,投入了大量资金与人力。欧美各国及日本相继成立了生物信息数据中心,如美国的国家生物技术信息中心(NCBI)、英国的欧洲生物信息研究所(EBI)、日本的国家遗传学研究所(NIG)等。其中,欧洲分子生物学网络组织(European Molecular Biology Network, EMBNet),是目前国际最大的分子生物信息研究、开发和服务机构,其通过国际互连网络使英、德、法、瑞士等国生物信息资源实现共享。



展望

作为计算机科学和数学应用于分子生物学而形成的交叉学科,生物信息学已经成为基因组研究中强有力的必不可少的研究手段。在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。许多科研单位已经开始或准备开始从事这方面的研究工作。北京大学研究建立起一个EMBL的镜像数据库(即完整地将EMBL的数据库移植过来),并提供部分的检索服务(http://www.ipc.pku.edu.cn/mirror/mirror.html;http://www.ebi.pku.edu.cn)。在复旦大学遗传学研究所,为克隆新基因而建立的一整套生物信息系统也已初具规模。中科院上海生化所、生物物理所等单位在结构生物学和基因预测研究方面也有相当的基础。

生物信息学作为基因组研究的有力武器,被广泛地用来加快新基因的寻找过程,以达到将"有用"新基因抢先注册专利的目的。在这场世界范围内的竞争中,中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况将有限的投资投入以求获得最大可能的科学研究以及商业回报,是一个无法回避的新课题。

在克隆新基因的思路方面,我国不应该照搬国外克隆新基因所用的方法,而应该走生物信息学和定位克隆相结合的道路。具体地说就是一方面进行各种遗传疾病家系的采集,从家系分析人手,寻找致病基因在染色体上的位置,然后对这个区域进行测序,再利用生物信息学的手段预测候选基因和它的功能并用实验加以证实;另一方面直接从现有公共数据库中的EST出发,用生物信息学的方法寻找可能有研究价值的新基因,并用实验方法来研究证实。这种双管齐下克隆新基因的方法可能更适合我国人类基因组研究在财力、物力和研究人才资源等方面的客观条件。与其与美国等发达国家拼资金拼技术,不如充分利用我国丰富的家系资源和公共中的免费资源,将有限的资金用在具有明确科学、经济和社会效益的研究方向。

生物信息学是一门对已有数据进行研究和理解的学科。根据统计学原理,在一定程度上,统计结果的显著性与数据量的对数成正比。因此,随着数据库中数据量的飞速增长基于数据库的研究工作必将有所突破,如蛋白质的结构预测目前虽仍无法解决,但随着PDB中数据的大量增加,此难题必会有重大进展。可以相信,随着人类基因组计划的即将完成以及蛋白质组研究的逐步开展,生物信息学在揭示生命的奥秘中会更加成熟和完善,生物信息学科也将随之得到巨大发展。相信在HGP和即将开始的中国人基因组研究计划中,生物信息学将发挥越来越大的作用,并推动生物学进入一个全新的境界。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号