DeepSeek化工应用：基于30个实验数据，本地部署高效思维链（CoT）推理模型

天玑算 · 发表于 2025-9-5 20:06:04

近日，中国石油大学（北京）徐春明院士团队arxiv上线了一篇名为《Locally-Deployed Chain-of-Thought (CoT) Reasoning Model in Chemical Engineering: Starting from 30 Experimental Data 》（本地部署的化工思维链（CoT）推理模型：从 30 个实验数据开始）文章。

文章内容如下：

在化工领域的研究进程中，传统的数据处理与预测方法正面临着前所未有的挑战。过往熟悉的实验方法，虽为科研的重要基石，但在当前复杂的研究场景下，逐渐暴露出诸多不足。随着科技的发展，机器学习技术被引入化工领域。神经网络等模型凭借强大的学习能力，能够自动从分子描述符中提取特征，在分子性质预测方面取得了一定成果，相较于传统方法有了显著进步。然而，传统机器学习模型对大量标记数据的依赖，需要获取足够数量且准确标记的分子数据集，且如同一个 “黑箱”，使得科研人员难以理解其预测结果的依据，这在注重机制研究的化工科研中，是一个不容忽视的阻碍。

大语言模型（LLMs）的出现，为化工研究带来了新的思路。LLMs 能够处理和分析化学文献、实验报告等文本信息，从海量数据中挖掘出有价值的知识。但是，不具备推理能力的 LLMs 主要仅能进行模式识别和文本匹配，面对复杂的分子性质和相互作用，无法进行深入的因果推理，在复杂场景下的预测表现欠佳。直至具有推理能力的大语言模型 DeepSeek - R1 出现，它能够从稀疏数据中提取高阶关联，例如发现分子片段组合规则等复杂关系，这对于深入理解分子结构和性质具有重大意义。当仅有 30 个实验结果时，传统机器学习方法（如随机森林和梯度提升等，且需进行超参数优化）在预测分子性质时困难重重，数据量小导致预测可靠性大幅降低。而使用 DeepSeek - R1 时，虽可通过输入已知数据和未知数据特征作为提示来进行预测，但提示的质量和模型的知识储备会对结果产生影响，并且后续可能还需要大量数据进行微调，本地模型的启动方式也是一个需要解决的问题。

本文研究团队提出了一种创新思路：将传统代理模型（如高斯过程和随机森林）与 DeepSeek - R1 相结合，构建分层架构。传统代理模型在小样本不确定性量化方面具有独特优势，能够在数据稀缺时评估预测的可靠性；而 DeepSeek - R1 擅长挖掘复杂分子关系。两者分工协作，传统代理模型快速筛选候选区域，DeepSeek - R1 专注于对高不确定性但高回报的 “边界样本” 进行因果推理，这种组合有望比简单的顺序结合更具高效性。在此基础上，研究团队探索出两种构建思维链（CoT）的方法：LLM - CoT 和 ML - LLM - CoT。

一、LLM - CoT：多模型协作的探索

研究团队精心设计了一种本地部署逻辑，将多个模型与 Ollama 相结合。选择 DeepSeek - r1:14b（4.7GB），该模型在计算效率和性能之间达到了良好的平衡，能够在保证一定准确性的同时，快速响应任务；Qwen2:7b（4.4GB）则凭借在处理分子研究相关语言任务上的独特优势，被集成到框架中，用于协助处理化学文献等信息。

为构建模型，团队从 1128 个分子的数据集中挑选了 30 个分子的溶解度属性及其相关分子描述符（如分子量、LogP 等，这些均可从 RDKit 便捷获取）。同时，基于分子相似性，又选取了 20 个高相似度和 20 个低相似度的分子。计划构建一个针对这 30 个分子数据集的小循环框架，使 DeepSeek - r1:14B 模型在该框架中不断进行预测，并与真实数据对比进行误差分析。

在尝试用本地部署的 DeepSeek - r1:14b 直接预测 20 个未知数据点时，出现了不少问题，如数据点缺失、预测值偏差超 1000%，甚至得到完全不相关的回答。不过，这也为验证构建的思维链提供了契机。在构建 CoT 的过程中，团队以 30 个已知分子的预测为起点，以前 10 个分子的数据作为基础，不断预测后续 20 个分子的性质，并将预测结果作为反馈，逐步优化预测。期间发现，部分分子需要预测多达 20 次，才能积累足够的误差分析以实现准确预测。从结果来看，约 60% 的分子能一次预测误差小于 100%，而剩下 40% 则需要多次预测。

进一步测试构建的 CoT 模型时，从 1128 个数据条目的开源数据集中选取 20 个结构不同和 20 个结构相似的分子。结果显示，对于结构不同的分子，6 个误差超 100%，14 个误差低于 100%；结构相似的分子中，只有 2 个误差高于 100%，其余均在 100% 以下。整体而言，对结构相似分子的预测表现更为优异，溶解度判断也更为准确。

二、ML - LLM - CoT：融合机器学习与大模型的优势

另一种方法 ML - LLM - CoT，是将机器学习和大语言模型的优势相融合。研究团队依旧选用 1128 个分子的数据集，从中挑选 30 个分子作为分析基础。此次，他们将预训练的高斯 ML 模型与基于 LLM 的 CoT 框架进行集成。

高斯模型负责捕捉分子描述符和溶解度属性之间的复杂关系，然后由 LLM（如 DeepSeek - r1:14b 或 Qwen2:7b）对高斯模型的预测结果进行优化。具体流程为，先让高斯模型对 20 个未知数据点（包括相似和不相似的分子）进行初始预测，接着 LLM 结合化学知识和推理，对这些结果进行细化。在预测分析中，如果高斯模型的预测偏差大于设定阈值（如 30%），LLM 就会介入分析误差，生成新的预测提示，不断迭代直至偏差符合要求。

对比高斯模型、LLM - CoT 和 ML - LLM - CoT 在预测分子溶解度上的表现，结果具有重要意义。对于 20 个结构不同的分子，高斯模型有 7 个预测偏差高于 100%，LLM - CoT 有 6 个，ML - LLM - CoT 只有 4 个。在溶解度判断成功率上，高斯模型成功 15 次，LLM - CoT 成功 16 次，ML - LLM - CoT 成功 18 次。对于结构相似的分子，高斯模型和 ML - LLM - CoT 都没有预测偏差高于 100% 的情况，且溶解度判断成功率均为 20 次，LLM - CoT 则有 3 个分子偏差超 100%，成功判断 17 次。

这些结果表明，ML - LLM - CoT 在控制高偏差分子数量、优化平均偏差以及提高溶解度判断成功率方面表现卓越，为化工和分子性质预测提供了更为可靠的方法。而且，在模型构建过程中，ML - LLM - CoT 达到低于 100% 错误率时，仅需 2 个点重新思考，总重新思考次数为 4 次；而 LLM - CoT 需要 5 个点重新思考，总次数高达 34 次，凸显了 ML - LLM - CoT 的高效性。

三、未来展望：更多可能，更大突破

“Deepseek - r1:14b + Qwen2:7B” 这种低成本组合的成功部署，为思维链模型奠定了坚实基础。未来，更大规模模型的应用有望进一步提升预测的准确性，捕捉更为复杂的化学数据关系。CoT 模型在处理私人数据方面具有显著优势，能够更好地保护数据隐私，这在化工这一对数据安全要求极高的行业中至关重要。

鉴于 Deepseek 对化工领域 “三传一反”（传质、传热、动量传递和化学反应）相关方程的理解，CoT 模型还有望在优化化学反应过程、预测反应产率、改进传质传热条件等方面取得突破。与传统机器学习模型优化框架相比，CoT 框架减少了对大量手动数据标注的依赖，节省了大量时间和资源。

此外，研究团队还分享了 ML - LLM - CoT 模型的一些思考记录实例。例如在预测 “Cycloheptane” 的溶解度时，模型会对比自身与 ML 模型的结果，发现相似但存在数据归一化的小差异后，基于化学性质和数据特征关系进行微调；遇到结构复杂的 “2 - Methyl - 1 - phenyl - 1H - indole - 3 - carboxylic acid” 时，模型能识别其独特结构，参考以往类似结构分子的预测误差分析，调整算法以提高预测准确性；在预测 “N,N - Dimethy - lformamide” 的溶解度时，能发现 ML 模型的问题，重新评估分子中各功能基团的重要性，调整预测结果。

这项研究突破了传统方法的局限，为化工领域的快速性质预测和过程优化提供了全新的解决方案。随着研究的不断深入，CoT 模型有望在化学工程和分子预测领域发挥更为重要的作用，取得更多令人瞩目的成果。

作者介绍：

第一作者/通讯作者：周天航

周天航，男，副教授，以 “AI for Science” 耦合多尺度模拟为研究手段，围绕传统能源的低碳化和低碳能源的实用化开展工作，主要从事高性能碳捕集溶剂筛选、大规模液流电池智能设计和绿电重构化工工业示范优化研究，主持/参与国家2030重大专项、基金委重点项目、国家自然基金青年项目、中国石油项目、中国石化项目等多项智能化工相关课题，获授权中国软著6项（智能化方向），在Nat. Commun.，Adv. Mater.，J. Chem. Theory Comput.等能源和计算方法TOP期刊发表SCI论文30余篇（一作和通讯24篇），承担北京市教改项目1项、校级教改项目2项，《化工学报》、《化工进展》、《油气与新能源》青年编委

文章链接：https://arxiv.org/abs/2502.12383
天玑算·科研服务，提供模拟计算、CPU/GPU租用、学术培训、服务器定制、超算集群建设、实验检测、免费计算课程等，50+全职计算工程师团队可满足您不同领域的计算需求，涉及第一性原理计算，分子动力学模拟，有限元仿真，相图计算，机器学习等……工程师线上1对1了解您的需求，结合需求为您提供定制化理论计算方案！（微信：TJS10591）

		自动登录	找回密码
密码			立即注册

DeepSeek化工应用：基于30个实验数据，本地部署高效思维链（CoT）推理模型

浏览过的版块