找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 12|回复: 0

利用不完美的合成数据进行有效推理

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-10-9 16:31:11 | 显示全部楼层 |阅读模式
摘要: 大型语言模型的预测和生成越来越被认为是在有限数据环境中的一种辅助工具,例如在计算社会科学和人类研究中。尽管先前的技术工作主要探讨了以合理方式使用模型预测的标签来处理未标记数据的潜力,但越来越多的人对使用大型语言模型生成全新的合成样本(例如对调查的回应等)表现出兴趣。然而,目前尚不清楚从业者如何将这些数据与真实数据结合,并对它们产生统计上有效的结论。在本文中,我们介绍了一种基于广义矩估计法的新估计器,提供了一个不需要超参数的解决方案,并具有强大的理论保证来应对这一挑战。有趣的是,我们发现合成数据的矩残差与真实数据的矩残差之间的相互作用(即它们相互预测)可以极大地改善目标参数的估计。我们验证了我们的估计器在计算社会科学应用中不同任务的有限样本性能,展示了巨大的经验收益。
更新时间: 2025-10-08 17:56:19
领域: cs.LG,cs.AI,stat.ML

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:42 , Processed in 0.081068 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表