3月6日,中国农业科学院作物科学研究所作物智能设计算法模型创新研究组成功研发了一套自动化机器学习框架,通过将气象环境大数据与基因组信息深度融合,实现了作物精准遗传分析与基因组预测,为作物智能设计育种提供有效工具。相关研究成果发表在《先进科学(Advanced Science)》上。
作物的田间表型是由基因型、环境以及基因型与环境的互作共同决定的。在实际育种过程中,准确预测作物表型对于提高育种效率、缩短育种周期至关重要。然而,传统的基因组预测方法往往忽略了环境因素对表型的影响,导致在多环境试验中表型预测精度有限。因此,将环境数据纳入基因组预测模型,考虑基因型与环境的相互作用,成为提升预测精度的关键。
研究团队利用大规模多环境玉米杂交种数据集,开发了一套自动化机器学习框架,将环境数据与基因组信息深度融合开展遗传分析与基因组预测。该框架较传统基因组预测方法有3大亮点。一是集成了遗传和环境特征处理功能。基于玉米发育阶段分割降维环境参数,计算性状的表型可塑性参数,结合GWAS挖掘性状稳定遗传位点和环境响应位点,并将降维后的环境参数和GWAS位点作为输入进行基因组预测;二是集成多种先进技术进行模型训练。利用Optuna驱动的自动化超参数优化技术来提升模型训练和预测效率,利用模型集成技术来提升最终预测模型的精度。与传统统计模型相比,计算时间缩短可达290倍,且能保持较高的预测精度;三是利用SHAP可解释技术进行模型解释。采用源于博弈论的SHAP可解释技术对模型进行事后解释以量化遗传和环境特征对表型变异及模型性能的贡献。该研究可为解析基因型与环境互作的生物学机制提供重要参考,同时为作物育种提供了新的工具。
作科所与国家南繁研究院联合培养的博士后何坤辉、博士研究生余廷熙为论文共同第一作者,李慧慧研究员为论文的通讯作者。该研究得到比尔及梅琳达·盖茨基金会可持续发展国际合作项目、国家自然科学基金、中国农业科学院科技创新工程等项目的资助。
文章链接:https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202412423
日期:2025-03-10