大型语言模型的数据来源：一项调查

于红博 · 发表于 2026-1-4 23:16:50

摘要: 由于大型语言模型（LLMs）的黑盒特性和其生成内容的逼真性，问题如幻觉、偏见、不公平和侵犯版权已变得重要。在这种背景下，从多个角度获取信息至关重要。本调查提出了一个系统性研究，围绕四个相关维度展开：模型获取、模型结构获取、训练数据获取和外部数据获取。此外，提出了一个统一的双范式分类法，将现有的获取方法分类为基于先验的（主动可追溯嵌入）和基于后验的（回顾性推理）方法。跨越这些维度的可追溯性增强了LLMs在现实应用中的透明度、责任制和可信度。

更新时间: 2025-12-31 06:20:51

领域: cs.CL,cs.AI

下载: http://arxiv.org/abs/2510.10161v2

		自动登录	找回密码
密码			立即注册