
-
生物通官微
陪你抓住生命科技
跳动的脉搏
同济大学Nature Protocols新文章
【字体: 大 中 小 】 时间:2012年09月03日 来源:生物通
编辑推荐:
来自同济大学生命科学与技术学院、哈佛大学公共卫生学院和达纳法癌症研究所的研究人员近日在国际权威杂志《自然实验手册》(Nature Protocols)上发表了题为“Identifying ChIP-seq enrichment using MACS”的实验手册。
生物通报道 来自同济大学生命科学与技术学院、哈佛大学公共卫生学院和达纳法癌症研究所的研究人员近日在国际权威杂志《自然实验手册》(Nature Protocols)上发表了题为“Identifying ChIP-seq enrichment using MACS”的实验手册。
来自同济大学生命科学与技术学院的张勇(Yong Zhang)博士以及哈佛大学公共卫生学院和达纳法癌症研究所的刘小乐 (Xiaole Shirley Liu)博士为这篇文章的共同通讯作者。张勇博士从事生物信息学及表观遗传组学研究。后者的工作侧重于基因调控机制的生物信息和计算生物学研究。
当前研究人员广泛地利用染色质免疫沉淀-测序(ChIP-Seq)在全基因组范围内绘制转录因子结合位点和组蛋白修饰状态。ChIP包括几个基本的步骤:将蛋白质交联到染色质上,剪切蛋白质,用特异的抗体沉淀目的蛋白及相关DNA,以及纯化相关DNA片段等。ChIP通常会生成数毫微克到数百毫微克的DNA,它们是环绕转录因子结合位点或组蛋白标记位点的75- 到300-bp的片段。高通量测序往往会生成数以百万计的来自ChIP-DNA片段5′末端的25- 到75-bp的序列(也称作短读,short reads)。
ChIP-seq数据分析通常以回到参考基因组绘制短读作为开始。尽管许多绘制的读长分散在整个基因组,其他一些存在于构成读富集区域(read-enriched region)的DNA簇中。读富集区域代表了转录因子结合或组蛋白标记位点。多余大多数转录因子和例如H3K4me3等几种组蛋白修饰,ChIP-seq读长通常聚集在几百个bp的窄峰中。而对于一些转录因子例如RNA聚合酶II(RNA polymerase II, pol II)和诸如H3K36me3等其他的组蛋白修饰,读富集区域是宽阔的,跨越数万个bp。例如GC含量、读可作图性(mappability)、DNA重复、拷贝数变异以及局部染色质结构等因素都可以影响基因组不同位点的读分布。
基于模型的ChIP-Seq分析(MACS)是一种设计用于鉴别来自ChIP-seq数据读富集区域的计算机方法。根据科学网统计,自2008年被首次发布以来MACS以被超过300个研究引用,其中包括许多很有影响力的研究工作。MACS由4个步骤构成:去除冗余的读长(reads),调整读取位置,计算峰富集(peak enrichmen)和估计经验错误发现率(FDR)。
在这篇文章中,研究人员提供了关于如何安装MACS以及如何使用它来分析具有不同特征的三种常见类型ChiP-seq数据集的详细示教:序列特异性的转录因子FoxA1,带有窄富集的组蛋白修饰标记物H3K4me3和宽富集的H3K36me3标记物。研究人员还解释了如何注释和可视化MACS的分析结果。用这种算法分析包含3000万个读长的ChIP-seq数据集需要约3GB的RAM和1.5个小鼠的计算时间,这一预计随着序列的覆盖度增加。
现在刘小乐实验室网站http://liulab.dfci.harvard.edu/MACS/向公众提供MACS的开放资源,供免费获取。
(生物通:何嫱)
生物通推荐原文摘要:
Identifying ChIP-seq enrichment using MACS
Model-based analysis of ChIP-seq (MACS) is a computational algorithm that identifies genome-wide locations of transcription/chromatin factor binding or histone modification from ChIP-seq data. MACS consists of four steps: removing redundant reads, adjusting read position, calculating peak enrichment and estimating the empirical false discovery rate (FDR). In this protocol, we provide a detailed demonstration of how to install MACS and how to use it to analyze three common types of ChIP-seq data sets with different characteristics: the sequence-specific transcription factor FoxA1, the histone modification mark H3K4me3 with sharp enrichment and the H3K36me3 mark with broad enrichment. We also explain how to interpret and visualize the results of MACS analyses. The algorithm requires ∼3 GB of RAM and 1.5 h of computing time to analyze a ChIP-seq data set containing 30 million reads, an estimate that increases with sequence coverage.
作者简介:
张勇
2001年毕业于北京大学,获学士学位。2006年毕业于中国科学院生物物理研究所,获得博士学位。2006-2009年,在美国哈佛大学和Dana-Farber癌症研究所从事博士后研究;在博士后期间,主要针对新一代高通量测序技术,发展生物信息学方法,来解决表观遗传组学问题。自2009 年起被聘为同济大学生命科学与技术学院教授,主要从事生物信息学及表观遗传组学的科研及教学工作。近几年的研究工作主要针对高通量生物学数据分析,发展全新的生物信息学算法,进而在基因组尺度上揭示核小体定位、表观遗传修饰的建立机制及其与转录调控的关联。
在国内外学术期刊上发表论文三十余篇,文章总计被引用超过1500次(H-index 为14)其中在Nature, Nature Structural & Molecular Biology, Nature Protocols, Genome Biology, Bioinformatics, BMC Genomics, Epigenetics等期刊发表通讯作者或第一作者论文16篇。先后入选上海市科技启明星计划和教育部新世纪优秀人才支持计划,目前作为负责人承担973 重大专项课题和国家自然基金委面上项目各一项,
刘小乐
青年时代就读于天津南开中学, 1992 年考入北京大学生物系。 1994 年转学到美国史密斯女子学院 (Smith College) 双修生物化学和计算机科学, 三年后以最高拉丁荣誉毕业 (Summa Cum Laude, 授予全校积分最高的 1% 的毕业生)。2002 年于斯坦福大学取得生物医学信息学博士和计算机科学辅修博士学位后, 被直接聘为哈佛大学终身制助理教授。她目前担任哈佛大学公共卫生学院和 Dana-Farber 肿瘤研究所生物统计与计算生物学系的副教授, 和同济大学生物信息海外团队教授。
研究领域:
刘小乐的工作侧重于基因调控机制的生物信息和计算生物学研究。她的科研组通过整合全基因组 ChIP-chip/Seq, 核小体定位, 组蛋白修饰, 基因表达谱, 基因组序列等数据, 构建转录与表观遗传调控的计算和统计模型。
成果与获奖:
刘小乐发表了 70 篇文献 (26 篇是(共同)第一或通讯作者), 包括 19 篇在 Nature/Cell 系列中 (其中 7 篇是(共同)第一或通讯作者)。根据 Google Scholar 统计她的 H-index 为 28,就是说她有 28 篇论文被引用超过 28 次。 她做过 26 场国际会议特邀学术报告, 在世界各地的大学与研究机构举行过 50 次讲座和研讨会。她担任 19 家期刊 (包括 Nature, Nature Genetics, Nature Review Genetics, 和Nature Biotechnology) 和 3 个国际会议的审稿人, 并且先后担任 Genomics, Annals of Applied Statistics, Biostatistics, 和 BMC Bioinformatics 的编委。她还参与了 9 个美国国内或国际科学会议的组织和程序委员会。
刘小乐 2002 年成为高等教育年鉴 (The Chronicle of Higher Education) 的封面人物, 获得了Bioinformatics Whiz 和 rising star 的美誉。她 2005 年获得 Claudia Adams Barr 创新基础癌症研究奖, 2006 年获得国防部前列腺癌研究计划新人奖, 2008 年获得 Sloan 基金会研究奖金。她目前担任三项美国卫生部 (NIH) 资金和一项国防部资金的 PI (Principle Investigator), 以及六项 NIH 资金的骨干 (Co-Investigator)。她还担任美国卫生部, 自然科学基金, 和国防部医学研究计划的评审团委员。