硅藻是一类重要的单细胞光合真核生物,散布普遍,提供了地球上约20%的初级消费力,对整个地球生物圈意义严重。三角褐指藻(Phaeodactylum tricornutum)是海洋硅藻的方式生物,其基因组序列于2008年发布,但目前基因组的注释仍很不完善。蛋白基因组学(Proteogenomics)是应用蛋白质组学数据,特别是高精度的串联质谱数据,分离基因组和转录组数据对基因组中止深度注释。中国科学院科学家团队——水生生物研讨所研讨员葛峰学科组前期采用蛋白基因组学的研讨战略和措施,完成了方式蓝细菌的基因组深度解析 (PNAS,2014,111(52):E5633-E5642)并开发了针对原核生物的蛋白基因组学专业剖析软件GAPP(Molecular & Cellular Proteomics. 2016;15(11):3529-3539)。在这些工作的基础上,葛峰学科组对三角褐指藻的基因组中止了深度解析并构建了蛋白质组精密图谱。 该学科组经过整合基因组、转录组、ESTs序列等多组学数据,并对数据库中止了缩减,得到去冗余的三角褐指藻蛋白基因组学数据库;经过整合基于蛋白和肽段的样品预分别、双酶切和高分辨质谱剖析技术,取得高质量的质谱数据;质谱数据的审定整合了多种搜索引擎的结果,进步了蛋白审定的深度与掩盖度;并采用更为严厉的肽段假阳性控制战略,从而进步审定结果的可信度;经过开发新的算法,完成了真核生物中新的可变剪切体的发现与点突变基因的审定。该研讨精准审定到6628个已注释的编码基因;对未审定到的已注释基因的深化剖析发现,有1895个基因可能并不编码蛋白;发现了606个新的蛋白编码基因并校正了506个已注释的编码基因,其中有56个新发现的蛋白编码基因,在之前的研讨中被错误预测为长链非编码RNA(LncRNA);审定到268个可能具有重要功用的微小短肽(micropeptides),21个新的可变剪切体,并修正了73个已注释基因的可变剪切位点以及58个发作氨基酸突变的基因;经过将开放式与限定式检索相分离的战略,对三角褐指藻中的翻译后修饰中止系统审定,发现了20多种不同种类的蛋白质翻译后修饰,这些修饰可能参与调控细胞内众多的生物学过程并在细胞的逆境顺应中起着重要作用。经过以上工作的完成,完成了三角褐指藻基因组的深度注释,并构建了蛋白质组精密图谱。 在以上工作的基础上,该研讨还树立了完好的构建真核方式生物的蛋白质组精密图谱的实验技术和剖析流程,可适用于各种曾经测序的真核生物,成为解读真核生物基因组及其功用剖析的重要工具。研讨成果“Genome annotation of a model diatom Phaeodactylum tricornutum using an integrated proteogenomic pipeline”在线发表于Molecular Plant。第一作者是高级实验师杨明坤,通讯作者是葛峰,该研讨得到国度重点研发计划(2016YFA0501304)的资助。 蛋白基因组学措施构建方式硅藻的蛋白质组精密图谱 (来源:中国科学院) |