近日,中国农业科学院蔬菜花卉研究所张圣平团队在国际著名期刊《Molecular Plant》在线发表题为A near-complete cucumber reference genome assembly and Cucumber-DB, a multi-omics database的文章,公布了黄瓜第一个近完整参考基因组(CLv4.0)和参考转录本数据集(CsRTD1),并整合泛基因组、群体变异组、转录组以及核心种质材料信息,建立了第一个黄瓜多组学综合数据库Cucumber-DB(http://www.cucumberdb.com/),可为黄瓜功能基因组学和分子育种研究提供全面的共享平台。
黄瓜(Cucumis sativus L.)是葫芦科(Cucurbitaceae)的重要经济蔬菜作物,也是研究植物性别决定、维管束形成的重要模式系统。黄瓜基因组中有近30 %的区域是由45s rDNA和微卫星等复杂重复序列组成的,这个比例远高于水稻、玉米和西瓜等作物(< 5%),并且受当时测序技术及组装方法的限制,目前广泛使用的华北密刺型(‘ChineseLong’)黄瓜自交系‘9930’参考基因组(CLv3.0版本)仍然有大量未知序列(~130 Mb)和72个缺口;与此同时,这些重复序列也严重影响基因注释的准确度,黄瓜参考基因组质量亟待提高。为此,该研究首次利用约~100×的超长ONT(N50=200 kb)和~70×的 Pacbio HiFi 测序数据,结合遗传图谱和Hi-C测序数据进行组装调整和验证,除一个位于2号染色体的缺口外,其他6条染色体均为一条连续序列,获得了黄瓜参考基因组近完成图(CLv4.0)。该基因组大小为321.53 Mb,比CLv3.0版本多组装出近100 Mb序列,解析了着丝粒和端粒区域的45s rDNA和微卫星序列,确定了7个完整着丝粒区域。
完整准确的基因注释信息,将极大地推动植物功能基因组学发展。该研究对黄瓜全发育期(29个组织时期)和7个主要胁迫处理进行转录组测序,包括0.84 Tb PacBio全长转录组和1.21 Tb Illumina链特异性转录组数据,整合多个注释流程,注释出27,360个高质量基因,其中包括5070个新基因,BUSCO值达到99.19%;更为重要的是,该研究构建了第一个黄瓜参考转录本数据集(CsRTD1),获得了17万个高质量的转录本,其中87.92%的转录本来源于全长转录组,为开展转录本准确定量和可变剪切功能研究提供重要参考。
基于以上研究,该研究搭建了第一个黄瓜多组学数据库Cucumber-DB(http://www.cucumberdb.com/),囊括了重要的黄瓜泛基因组(Li et al., 2022)、核心种质变异组(Qi et al., 2013)和转录组数据,开发了数十个实用分析工具,为科研人员提供一站式服务;通过这个数据库,可以同时获得12个不同黄瓜种质基因组序列和基因模型信息、核心种质资源变异数据(SNPs、InDels及SVs)、驯化选择区间、基因及转录本表达谱可视化(eFP)、可变剪切信息、共表达调控网络及下游靶基因预测等相关数据和工具。
中国农业科学院蔬菜花卉研究所官健涛助理研究员、苗晗副研究员、青岛农业大学张忠华教授、中国农业科学院蔬菜花卉研究所董邵云副研究员为该文的共同第一作者;中国农业科学院蔬菜花卉研究所张圣平研究员为该文通讯作者,中国农业科学院蔬菜花卉研究所为通讯单位。中国热带农业科学院黄三文院士对该研究提供了重要指导。该研究得到了蔬菜生物育种全国重点实验室、国家重点研发计划(2023YFD1201500)、中国农业科学院科技创新工程项目(CAAS-ASTIP-2021-IVF)以及国家现代农业产业技术体系(CARS-23)项目的资助。
论文链接:https://www.cell.com/molecular-plant/fulltext/S1674-2052(24)00192-8
日期:2024-06-24