近日,中国石油大学(北京)徐春明院士团队arxiv上线了一篇名为《Locally-Deployed Chain-of-Thought (CoT) Reasoning Model in Chemical Engineering: Starting from 30 Experimental Data 》(本地部署的化工思维链(CoT)推理模型:从 30 个实验数据开始)文章。 文章内容如下: 在化工领域的研究进程中,传统的数据处理与预测方法正面临着前所未有的挑战。过往熟悉的实验方法,虽为科研的重要基石,但在当前复杂的研究场景下,逐渐暴露出诸多不足。随着科技的发展,机器学习技术被引入化工领域。神经网络等模型凭借强大的学习能力,能够自动从分子描述符中提取特征,在分子性质预测方面取得了一定成果,相较于传统方法有了显著进步。然而,传统机器学习模型对大量标记数据的依赖,需要获取足够数量且准确标记的分子数据集,且如同一个 “黑箱”,使得科研人员难以理解其预测结果的依据,这在注重机制研究的化工科研中,是一个不容忽视的阻碍。 大语言模型(LLMs)的出现,为化工研究带来了新的思路。LLMs 能够处理和分析化学文献、实验报告等文本信息,从海量数据中挖掘出有价值的知识。但是,不具备推理能力的 LLMs 主要仅能进行模式识别和文本匹配,面对复杂的分子性质和相互作用,无法进行深入的因果推理,在复杂场景下的预测表现欠佳。直至具有推理能力的大语言模型 DeepSeek - R1 出现,它能够从稀疏数据中提取高阶关联,例如发现分子片段组合规则等复杂关系,这对于深入理解分子结构和性质具有重大意义。当仅有 30 个实验结果时,传统机器学习方法(如随机森林和梯度提升等,且需进行超参数优化)在预测分子性质时困难重重,数据量小导致预测可靠性大幅降低。而使用 DeepSeek - R1 时,虽可通过输入已知数据和未知数据特征作为提示来进行预测,但提示的质量和模型的知识储备会对结果产生影响,并且后续可能还需要大量数据进行微调,本地模型的启动方式也是一个需要解决的问题。 本文研究团队提出了一种创新思路:将传统代理模型(如高斯过程和随机森林)与 DeepSeek - R1 相结合,构建分层架构。传统代理模型在小样本不确定性量化方面具有独特优势,能够在数据稀缺时评估预测的可靠性;而 DeepSeek - R1 擅长挖掘复杂分子关系。两者分工协作,传统代理模型快速筛选候选区域,DeepSeek - R1 专注于对高不确定性但高回报的 “边界样本” 进行因果推理,这种组合有望比简单的顺序结合更具高效性。在此基础上,研究团队探索出两种构建思维链(CoT)的方法:LLM - CoT 和 ML - LLM - CoT。 一、LLM - CoT:多模型协作的探索 研究团队精心设计了一种本地部署逻辑,将多个模型与 Ollama 相结合。选择 DeepSeek - r1:14b(4.7GB),该模型在计算效率和性能之间达到了良好的平衡,能够在保证一定准确性的同时,快速响应任务;Qwen2:7b(4.4GB)则凭借在处理分子研究相关语言任务上的独特优势,被集成到框架中,用于协助处理化学文献等信息。 为构建模型,团队从 1128 个分子的数据集中挑选了 30 个分子的溶解度属性及其相关分子描述符(如分子量、LogP 等,这些均可从 RDKit 便捷获取)。同时,基于分子相似性,又选取了 20 个高相似度和 20 个低相似度的分子。计划构建一个针对这 30 个分子数据集的小循环框架,使 DeepSeek - r1:14B 模型在该框架中不断进行预测,并与真实数据对比进行误差分析。 在尝试用本地部署的 DeepSeek - r1:14b 直接预测 20 个未知数据点时,出现了不少问题,如数据点缺失、预测值偏差超 1000%,甚至得到完全不相关的回答。不过,这也为验证构建的思维链提供了契机。在构建 CoT 的过程中,团队以 30 个已知分子的预测为起点,以前 10 个分子的数据作为基础,不断预测后续 20 个分子的性质,并将预测结果作为反馈,逐步优化预测。期间发现,部分分子需要预测多达 20 次,才能积累足够的误差分析以实现准确预测。从结果来看,约 60% 的分子能一次预测误差小于 100%,而剩下 40% 则需要多次预测。 进一步测试构建的 CoT 模型时,从 1128 个数据条目的开源数据集中选取 20 个结构不同和 20 个结构相似的分子。结果显示,对于结构不同的分子,6 个误差超 100%,14 个误差低于 100%;结构相似的分子中,只有 2 个误差高于 100%,其余均在 100% 以下。整体而言,对结构相似分子的预测表现更为优异,溶解度判断也更为准确。 二、ML - LLM - CoT:融合机器学习与大模型的优势 另一种方法 ML - LLM - CoT,是将机器学习和大语言模型的优势相融合。研究团队依旧选用 1128 个分子的数据集,从中挑选 30 个分子作为分析基础。此次,他们将预训练的高斯 ML 模型与基于 LLM 的 CoT 框架进行集成。 高斯模型负责捕捉分子描述符和溶解度属性之间的复杂关系,然后由 LLM(如 DeepSeek - r1:14b 或 Qwen2:7b)对高斯模型的预测结果进行优化。具体流程为,先让高斯模型对 20 个未知数据点(包括相似和不相似的分子)进行初始预测,接着 LLM 结合化学知识和推理,对这些结果进行细化。在预测分析中,如果高斯模型的预测偏差大于设定阈值(如 30%),LLM 就会介入分析误差,生成新的预测提示,不断迭代直至偏差符合要求。 对比高斯模型、LLM - CoT 和 ML - LLM - CoT 在预测分子溶解度上的表现,结果具有重要意义。对于 20 个结构不同的分子,高斯模型有 7 个预测偏差高于 100%,LLM - CoT 有 6 个,ML - LLM - CoT 只有 4 个。在溶解度判断成功率上,高斯模型成功 15 次,LLM - CoT 成功 16 次,ML - LLM - CoT 成功 18 次。对于结构相似的分子,高斯模型和 ML - LLM - CoT 都没有预测偏差高于 100% 的情况,且溶解度判断成功率均为 20 次,LLM - CoT 则有 3 个分子偏差超 100%,成功判断 17 次。 这些结果表明,ML - LLM - CoT 在控制高偏差分子数量、优化平均偏差以及提高溶解度判断成功率方面表现卓越,为化工和分子性质预测提供了更为可靠的方法。而且,在模型构建过程中,ML - LLM - CoT 达到低于 100% 错误率时,仅需 2 个点重新思考,总重新思考次数为 4 次;而 LLM - CoT 需要 5 个点重新思考,总次数高达 34 次,凸显了 ML - LLM - CoT 的高效性。 三、未来展望:更多可能,更大突破 “Deepseek - r1:14b + Qwen2:7B” 这种低成本组合的成功部署,为思维链模型奠定了坚实基础。未来,更大规模模型的应用有望进一步提升预测的准确性,捕捉更为复杂的化学数据关系。CoT 模型在处理私人数据方面具有显著优势,能够更好地保护数据隐私,这在化工这一对数据安全要求极高的行业中至关重要。 鉴于 Deepseek 对化工领域 “三传一反”(传质、传热、动量传递和化学反应)相关方程的理解,CoT 模型还有望在优化化学反应过程、预测反应产率、改进传质传热条件等方面取得突破。与传统机器学习模型优化框架相比,CoT 框架减少了对大量手动数据标注的依赖,节省了大量时间和资源。 此外,研究团队还分享了 ML - LLM - CoT 模型的一些思考记录实例。例如在预测 “Cycloheptane” 的溶解度时,模型会对比自身与 ML 模型的结果,发现相似但存在数据归一化的小差异后,基于化学性质和数据特征关系进行微调;遇到结构复杂的 “2 - Methyl - 1 - phenyl - 1H - indole - 3 - carboxylic acid” 时,模型能识别其独特结构,参考以往类似结构分子的预测误差分析,调整算法以提高预测准确性;在预测 “N,N - Dimethy - lformamide” 的溶解度时,能发现 ML 模型的问题,重新评估分子中各功能基团的重要性,调整预测结果。 这项研究突破了传统方法的局限,为化工领域的快速性质预测和过程优化提供了全新的解决方案。随着研究的不断深入,CoT 模型有望在化学工程和分子预测领域发挥更为重要的作用,取得更多令人瞩目的成果。 作者介绍: 第一作者/通讯作者:周天航 周天航,男,副教授,以 “AI for Science” 耦合多尺度模拟为研究手段,围绕传统能源的低碳化和低碳能源的实用化开展工作,主要从事高性能碳捕集溶剂筛选、大规模液流电池智能设计和绿电重构化工工业示范优化研究,主持/参与国家2030重大专项、基金委重点项目、国家自然基金青年项目、中国石油项目、中国石化项目等多项智能化工相关课题,获授权中国软著6项(智能化方向),在Nat. Commun.,Adv. Mater.,J. Chem. Theory Comput.等能源和计算方法TOP期刊发表SCI论文30余篇(一作和通讯24篇),承担北京市教改项目1项、校级教改项目2项,《化工学报》、《化工进展》、《油气与新能源》青年编委
文章链接:https://arxiv.org/abs/2502.12383
天玑算·科研服务,提供模拟计算、CPU/GPU租用、学术培训、服务器定制、超算集群建设、实验检测、免费计算课程等,50+全职计算工程师团队可满足您不同领域的计算需求,涉及第一性原理计算,分子动力学模拟,有限元仿真,相图计算,机器学习等……工程师线上1对1了解您的需求,结合需求为您提供定制化理论计算方案!(微信:TJS10591)
|