找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4|回复: 0

ReVision: 一个用于隐私保护任务导向视觉指导重写的数据集和基线VLM

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 22:59:20 | 显示全部楼层 |阅读模式
摘要: 高效且保护隐私的多模态交互对于AR、VR和现代智能手机成为人机通信主要接口至关重要。现有的强大的大型视觉语言模型(VLMs)支持多模态交互,通常依赖于基于云的处理,引发了对于视觉隐私(通过将敏感视觉数据传输到服务器)以及它们有限的实时、本地可用性的重大关注。本文探讨了一种新颖的方法,即视觉指令重写,将多模态指令转换为仅文本命令,从而实现轻量级本地指令重写VLMs(250M参数)与现有对话AI系统的无缝集成,增强视觉数据隐私。为实现这一目标,我们提出了一个包含14个领域的超过39,000个示例的数据集,并开发了一个紧凑的VLM,预训练于图像字幕数据集,并进行指令重写的微调。通过NLG指标(如BLEU、METEOR和ROUGE)以及语义解析分析评估的实验结果表明,即使是模型的量化版本(<500MB存储占用)也能实现有效的指令重写,从而实现以隐私为重点的多模态AI应用。
更新时间: 2025-12-31 15:43:05
领域: cs.CL,cs.AI,cs.CV

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 17:01 , Processed in 0.076745 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表