ReVision: 一个用于隐私保护任务导向视觉指导重写的数据集和基线VLM

于红博 · 发表于 2026-1-4 22:59:20

摘要: 高效且保护隐私的多模态交互对于AR、VR和现代智能手机成为人机通信主要接口至关重要。现有的强大的大型视觉语言模型（VLMs）支持多模态交互，通常依赖于基于云的处理，引发了对于视觉隐私（通过将敏感视觉数据传输到服务器）以及它们有限的实时、本地可用性的重大关注。本文探讨了一种新颖的方法，即视觉指令重写，将多模态指令转换为仅文本命令，从而实现轻量级本地指令重写VLMs（250M参数）与现有对话AI系统的无缝集成，增强视觉数据隐私。为实现这一目标，我们提出了一个包含14个领域的超过39,000个示例的数据集，并开发了一个紧凑的VLM，预训练于图像字幕数据集，并进行指令重写的微调。通过NLG指标（如BLEU、METEOR和ROUGE）以及语义解析分析评估的实验结果表明，即使是模型的量化版本（<500MB存储占用）也能实现有效的指令重写，从而实现以隐私为重点的多模态AI应用。

更新时间: 2025-12-31 15:43:05

领域: cs.CL,cs.AI,cs.CV

下载: http://arxiv.org/abs/2502.14780v2

		自动登录	找回密码
密码			立即注册