水稻不仅是世界近一半人口的主要粮食作物,同时也是一种重要的模式生物。高通量测序技术的迅速发展促进了水稻组学数据的广泛积累,使深入研究控制水稻重要农艺性状、种质资源多样性以及水稻驯化过程的机制成为可能。为此,研究人员构建了相关的水稻数据库,主要包括RAP-DB(日本农业生物资源研究所构建的水稻注释项目)和MSU-RGAP(密歇根州立大学的水稻基因组注释项目),然而这些数据库缺乏有效手段对不同组学数据进行低成本、可持续的集成整合和维护更新。随着各类组学数据体量的不断增加,如何整合大量异质的水稻组学数据、构建集成的水稻信息存储库、实现便捷的访问和提供友好可视化界面成为水稻研究面临的关键问题。
中国科学院北京基因组研究所基因组科学与信息重点实验室章张研究组、胡松年研究组、陈非研究组与北京大学、华中科技大学等单位的研究人员开展合作,采用可扩展和可持续的系统架构设计,设立针对不同组学数据的模块,每个模块由具体的工作小组负责数据的收集、整理、分析、可视化以及更新维护,基于各个模块的Web API接口集成整合水稻的多种组学数据,开发建立了水稻多组学数据整合和信息共享数据库IC4R(Information Commons for Rice)。该项工作也是国内首次由多个联合研究团队共同参与完成的水稻多组学整合数据库,研究成果已于2015年10月发表在国际生物信息学领域期刊Nucleic Acids Research。
IC4R具有良好的可扩展性和持续性以及维护成本低等特点,其包含的模块主要有基于5000多株水稻重测序数据产生的变异信息数据库、基于RNA-Seq测序数据的水稻基因表达数据库、以稻属为核心的植物同源数据库、水稻蛋白不同水平翻译后修饰数据库、水稻文献数据库以及基于Wiki的水稻基因信息大众审编(Community Curation)平台。IC4R计划后续整合更多类型的组学数据,并将重要的农艺性状与多组学数据关联起来,逐步发展成为水稻基础研究和转化研究的信息知识宝库。
合作参与该项工作的主要人员包括北京大学副研究员何航、华中农业大学教授陈玲玲、河南农业大学教授张会勇、华中科技大学教授薛宇、中国农业大学教授王向峰、内蒙古师范大学教授纪兆华等。该项研究获得了中科院先导项目、国家自然科学基金委、中科院百人计划和“863”项目的资助。
论文链接 http://nar.oxfordjournals.org/content/early/2015/10/29/nar.gkv1141.full
日期:2015-11-10