当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > AI for Science：北大、东方理工等团队用人工智能在实验数据中挖掘潜在规律

AI for Science：北大、东方理工等团队用人工智能在实验数据中挖掘潜在规律

来源：机器之心 2025-02-05 18:19:05 0浏览收藏

对于一个科技周边开发者来说，牢固扎实的基础是十分重要的，golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《AI for Science：北大、东方理工等团队用人工智能在实验数据中挖掘潜在规律》，主要介绍了，希望对大家的知识积累有所帮助，快点收藏起来吧，否则需要时就找不到了！

编辑｜ ScienceAI‍‍

科学研究的核心之一是发现能够描述自然现象的规律性方程。这些方程不仅能加深我们对自然的理解，还能为复杂问题的解决提供明确指导。

然而，许多领域，尤其是材料和化学等依赖实验的学科，因为变量众多、过程复杂，传统理论推导往往难以建立明确的关系。

近期，来自北京大学深圳研究生院、宁波东方理工大学（暂名）等机构的研究团队结合自动化实验平台与人工智能算法，首次成功从实验数据中挖掘出了物质分离过程中色谱关系的显式数学公式。

该研究提出了一种知识发现技术、建立了可解释的公式，将专家经验（Chemist’s experience）转化为「人工智能经验」（AI experience），为色谱分离实验条件的确定与优化提供了理论支持。相关成果于2025年1月19日发表在《自然·通讯》（Nature Communications）上。

图 1：相关工作于发表于 Nature Communications

挑战与背景：从专家经验到「AI经验」

如果想要构建真正的「AI科学家」，必须实现对实验数据的自动化分析与显式公式的推导，从而有效推动对科学问题的认知与探索。然而，要达成这一目标尚面临诸多科学挑战：

其一、如何对多变量、多尺度的实验数据进行通用化建模，以准确刻画潜在的高维映射关系；
其二、不同实验来源的数据在采样方式、环境条件等方面存在差异，如何实现跨实验数据的精准对齐与融合；
其三，如何提高可解释性（Interpretability），为研究者提供透明可信的推理过程，以帮助他们深入理解背后的科学机制，而不仅仅是停留在「黑箱」式预测上。

在此背景下，该研究选取化学分离领域中常见的薄层色谱（TLC）和柱色谱（CC）作为研究对象，为上述问题提供一个具体的落脚点。

TLC 和 CC 同样基于色谱原理（Chromatography）开展分析与分离，广泛应用于合成化学实验室。以柱色谱为例，实验时通常先通过 TLC 测定混合物的保留因子（RF 值），依据该值评估组分与流动相的相对极性，并据此实时调整流动相的组成与比例，确保目标化合物的 RF 值大致在 0.2 到 0.3 之间。

尽管这一经验性做法在实践中行之有效，却难以通过传统分析方法对其背后的多尺度耦合机理进行系统阐释，存在「知其然而不知其所以然」的现象，阻碍了研究者对色谱分离化学本质的深入理解。

因此，若能引入人工智能手段，从大量实验数据中自动挖掘并总结出可解释的经验方程，就有望将这类依赖「经验＋试错」的方法体系化、公式化，进而提高实验效率和可靠性。

图 2：色谱分离的专家经验与数据驱动的方程挖掘

AI 驱动的知识发现

为了解决上述问题，研究团队设计了一套完整的数据驱动框架，借助自动化实验平台和人工智能技术，从实验数据中系统性地挖掘化学分离的规律性方程。

首先，他们开发了高通量自动化 TLC 和 CC 实验平台，通过精准控制实验条件生成大规模数据集。该平台包括样品加载、溶剂配制、色谱分离、吸光度检测和结果分析的全流程自动化，大幅减少了人工干预可能带来的误差。

在数据获取方面，研究团队在自动化平台上测量了 192 种化合物的RF值，并在不同实验条件下记录了 5984 条柱色谱数据点。这些数据涵盖了化合物的分子结构、物理化学性质以及实验设置参数，从而为机器学习模型的构建提供了充分支持。

图 3：高通量自动化 TLC 和 CC 实验平台

为了从这些数据中提取规律，还需要消除不同实验来源的数据在采样方式、环境条件等方面存在的差异。研究团队引入了代理模型（surrogate model），利用神经网络将 TLC 和 CC 数据点关联起来，实现跨实验数据的精准对齐与融合。这些代理模型通过复杂的高维特征建模，预测了未观察到的实验数据。

图 4：构建代理模型实现跨实验数据的精准对齐与融合

此外，研究团队使用符号回归（symbolic regression）技术，从模型预测中提取了显式数学公式，并采用树结构以表征化合物性质的影响，提高可解释性。这些公式揭示了RF值与柱层析保留体积之间的反比例关系，并通过统计验证了其高拟合精度（R² 值超过 0.88）。

图 5：柱色谱的保留时间与薄层色谱的 RF 值之间关系的公式识别与预测效果

与传统机器学习模型不同的是，这些公式具备高度的可解释性，能够直观地展示实验变量之间的关系。例如，研究发现，RF 值与保留体积的关系不仅受溶剂比例的影响，还与化合物的分子结构紧密相关。这种定量化的规律性公式为化学家优化实验条件提供了科学依据。

图 6：表征化合物影响的柱层析因子的回归树模型的可视化

此外，研究团队进一步分析了这些公式的推广性与泛化性，成功地将它们应用于不同规格的色谱柱。例如，通过迁移学习校正公式系数，可以将适用于 4 克色谱柱的公式推广至 25 克柱和串联柱。这种推广不仅验证了公式的通用性，还表明AI驱动的知识发现可以适应不同实验条件。

应用价值与未来展望

这项研究的直接应用价值在于显著提升了化学分离实验的效率和可靠性，以化学中常用的 TLC 和 CC 实验为例，验证了利用人工智能方法从实验数据中提取显式方程的可行性。

传统上，研究人员需要通过多次试错来确定最佳分离条件，而这种数据驱动的知识发现方法则可以通过简单的薄层色谱实验预测柱层析的分离效果，从而减少实验次数和溶剂消耗。特别是在处理复杂混合物时，AI 发现的显式公式为快速判断分离可能性提供了强有力的工具。

更广泛地看，这项研究展示了人工智能在科学发现中的巨大潜力。与传统理论推导不同，知识发现框架通过大数据分析和机器学习，从实验数据中自动提取规律性公式。这种方法不仅可以揭示化学中的多尺度耦合机制，还可以推广到其他科学领域。

例如，在生物学中，它可以用于分析基因调控网络的动态关系；在物理学中，它可以帮助构建复杂流体力学的数学模型。通过将人工智能技术融入科学研究，我们有望加速科学知识的生成过程，推动各领域的跨学科创新。

论文链接：https://www.nature.com/articles/s41467-025-56136-x

到这里，我们也就讲完了《AI for Science：北大、东方理工等团队用人工智能在实验数据中挖掘潜在规律》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注golang学习网公众号，带你了解更多关于理论的知识点！

理论

版本声明

本文转载于：机器之心如有侵犯，请联系study_golang@163.com删除

中国对美国进口汽车等商品加征关税，2月10日起实施

上一篇: 中国对美国进口汽车等商品加征关税，2月10日起实施

查看更多