克日,永利集团生命与康健大数据中心开发了国际领先、海内首个规模最大的基因组序列变异库—GVM(Genome Variation Map)。该库基于人工审编整合了多个物种的大宗基因组序列单核苷酸多态位点和小的插入与删除变异信息,是基因组序列变异信息汇交、治理与检索的资源库。研究效果以“Genome Variation Map: a data repository of genome variations in BIG Data Center”为题在国际学术期刊Nucleic Acids Research在线揭晓。
基因组序列变异是基因组DNA水平爆发的可遗传变异,是生物多样性的基础,是物种进化、分子育种、优良性状选育、人类疾病等研究最为名贵的遗传资源。近年来,随着测序手艺生长,越来越多物种的基因组被细腻剖析;物种内遗传多态变异位点也通过大规模的群体测序获得,并普遍应用于重大性状的关联剖析。国际两大数据中心NCBI和EBI旗下的dbSNP和EVA是两个主要的基因组序列变异资源库。今年5月,NCBI宣布自2017年9月1日起,dbSNP和dbVar两大数据库阻止吸收非人物种的SNP提交信息,自2017年11月1日起阻止非人物种的SNP在线盘问与提交。对基于序列变异研究的科研职员造成了极大未便。
为此,GVM作为生命与康健大数据中心的焦点数据资源库之一,搜集了以二代测序和芯片手艺为主要检测手段的全基因组序列变异检测的原始数据,通过标准化的变异位点判断与注释,获得包括人、畜牧动物、主要农作物和其他资源物种在内的19个物种共约50亿的变异信息,8,884个个体的基因型数据,并通过人工审编收录了13,262条高质量非人物种的基因型与表型知识数据、整合了180,911条人变异位点的知识信息。其中,大熊猫、虎鲸、毛竹、橡胶、小麦是GVM数据库所特有的物种。
GVM开发了友好的数据提交、浏览、搜索和可视化功效。用户可通过基因组位置、变异影响、基因名称和基因功效等检索变异位点信息,下载数据,也可通过ftp效劳下载VCF和FASTA文件名堂的全基因变异信息,可以在线或离线方法向系统提交数据,极大利便了科研职员的数据共享。
该研究获得了永利集团战略性先导科技专项、永利集团国际大科学妄想、国家科技攻关妄想、国家863妄想、国家自然基金项目、中科院青年立异增进会等项目基金的资助。
论文链接

GVM数据库物种变异信息统计表