克日,由永利集团(国家生物信息中心)国家基因组科学数据中心开发的人类长非编码RNA(long non-coding RNA, lncRNA)表达数据库LncExpDB正式上线。该研究效果以“LncExpDB: an expression database of human long non-coding RNAs”为题在国际学术期刊《核酸研究》(Nucleic Acids Research)在线揭晓。
LncRNA通过重大多样的分子机制施展主要调控功效,在多个生物学历程以及疾病爆发生长中均施展主要作用。现在,人类基因组中已判断出十万多个lncRNA基因,但有功效研究的仅有数千条,因此周全注释lncRNA功效是人类基因组研究的主要内容和重大挑战。近年来,高通量测序手艺的迅速生长增进了正常组织、疾病、胚胎发育、器官分解、病毒侵染、亚细胞区室等多种生物学场景的研究,积累了富厚的组学数据,尤其是转录组测序数据,为从多角度发明和研究lncRNA的生物学功效提供了主要的数据基础与研究思绪。
LncExpDB数据库致力于提供多生物学场景的lncRNA表达谱,判断具有潜在功效的lncRNA,增进lncRNA的功效实验研究。在LncBook数据库构建的人类lncRNA数据集基础上,研究职员整合CHESS、RefLnc、FANTOM等10余个专业数据库判断的lncRNA,基于严酷审编标准,获得周全的高质量人类lncRNA参考数据集,包括101,293个基因/33,1244个转录本。LncExpDB数据库进一步整合9种主要生物学场景(正常组织/细胞系、器官发育、植入前胚胎发育、细胞分解、亚细胞定位、外泌体、癌症细胞系、病毒侵染、昼夜节律)的1,977个样本的转录组数据,通过标准化的转录组数据剖析流程,系统剖析并判断每种生物学场景的特征基因(管家基因/组织特异性基因、差别表达基因、节律基因、动态表达基因、亚细胞区室富集基因)荟萃,共计25,191个特征lncRNA基因和28,443,865对相关的lncRNA-mRNA共表达关系。别的,LncExpDB判断了具有表达证据支持的92,016个lncRNA基因,评估了lncRNA的表达水平与表达潜力。
LncExpDB数据库具备友好的检索、浏览与可视化功效,利便用户通过差别基因/转录本ID、基因symbol举行检索和浏览,探索特定生物学场景下特征基因与共表达关系,周全较量lncRNA在差别生物学场景中的功效差别,提供FTP下载所有相关注释信息与剖析效果的开放共享功效,为非编码RNA功效研究提供了主要数据基础和共享平台。
北京基因组所(国家生物信息中心)硕士研究生李昭和博士研究生刘琳为本文配合第一作者,马利娜副研究员与章张研究员为配合通讯作者。该研究获得了中科院战略性先导科技专项、国家重点研发妄想、中科院青促会等项目资助。
LncExpDB数据审编与剖析流程
文章链接