找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 15|回复: 0

PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Mode

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 14:51:31 | 显示全部楼层 |阅读模式
即时优化是改善大型语言模型性能的一种实用且广泛适用的替代方法,而不是通过微调。然而,许多现有方法通过对候选提示进行全输出采样来评估,通常结合自我评价或人工注释的偏好,这限制了可扩展性,特别是对于较小的模型或未经指导调整的模型。我们提出了PMPO(概率度量提示优化),这是一个统一的框架,使用令牌级别的交叉熵作为直接、轻量级的评估信号。PMPO通过基于掩码的分析定位低质量提示段,并通过迭代重写它们来提出改进的变体。在评估过程中,PMPO通过最小化单次前向传播中的损失来选择变体,消除了输出采样和基于人类或评委的评分,同时仍然仅使用标准生成来提出重写。这种统一的、基于损失的策略支持监督和基于偏好的任务。在各种模型大小和数据集上,PMPO优于先前的提示优化器:它在BBH上实现了最高的平均准确率,在GSM8K和AQUA RAT上表现强劲,并且将AlpacaEval 2.0的胜率提高了超过19个百分点。这些结果展示了PMPO的有效性、效率和广泛适用性。
更新时间: 2025-09-18 16:37:35
领域: cs.CL,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 18:16 , Processed in 0.079309 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表