从单细胞生物到智人约莫4000百万年进化历程中,基因一直地获得与丧失,使得基因都具有特定的基因年岁(Gene Age),并在漫长的演化历程中留下与基因年岁相关的印记(Age-Related Signatures; ARS)。因此,探讨基因年岁与ARS可资助我们深入展现分子进化机制、基因功效形成以及人类基因的演化历史。近期,北京基因组研究所“院基因组科学与信息重点实验室”、“生命与康健大数据中心”章张研究员向导的科研团队通过划分基因年岁,追溯人类基因演化历史,整合剖析多组学条理上的ARS,开展ARS与基因年岁的系统研究取得了一系列事情希望。该项研究效果近期在Genome Biology and Evolution杂志在线揭晓。
在生命与康健大数据中心(BIG Data Center;http://bigd.big.ac.cn)高性能盘算平台的有力支持下,研究团队首先在研究手艺层面,基于马尔可夫聚类和系统爆发剖析的要领,将人类基因追溯到26个年岁荟萃中,该年岁分类战略极大提升了年岁判断中的准确性。在此基础上,研究团队整合剖析了多组学水平上10种差别的ARS,包括基因长度、GC含量、表达量、甲基化水平、卵白与卵白交互网络(PPIN)等,通过主因素剖析要领系统剖析,发明GC含量和PPIN是与基因年岁最为相关的两种演化印记。同时,进一步研究展现出与多拷贝基因(Duplicates)相比,PPIN在单拷贝基因(Singletons)中与基因年岁的相关性更为显著。

该研究效果将为进一步探索人类基因形成的分子机制(尤其是De novo基因),挖掘与癌症相关的基因演化历史,以及深入探讨疾病爆发生长的机制机理研究等涤讪主要基础。
此事情获得了中科院战略性先导科技专项资助、国家高手艺研究和生长妄想(863妄想)等资助。
论文链接:http://gbe.oxfordjournals.org/content/early/2016/09/07/gbe.evw216


图1 基因年岁相关的ARS主因素剖析