找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 31|回复: 0

GLYPH-SR:我们可以通过VLM引导的潜在扩散模型实现高质量图像超分辨率和高保真度文本

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 19:57:45 | 显示全部楼层 |阅读模式
摘要: 图像超分辨率(SR)对于许多视觉系统是基础的,从监控和自主性到文件分析和零售分析,因为恢复高频细节,特别是场景文字,可以实现可靠的下游感知。场景文字,即嵌入在自然图像中的文本,如标识、产品标签和店面,通常携带最具行动性的信息;当字符模糊或幻觉时,即使图像的其余部分看起来清晰,光学字符识别(OCR)和随后的决策也会失败。然而,先前的SR研究通常调整到失真(PSNR / SSIM)或学习的感知度量(LIPIS,MANIQA,CLIP-IQA,MUSIQ),这些度量对字符级错误几乎不敏感。此外,处理文本SR的研究通常专注于带有孤立字符的简化基准,忽略了复杂自然场景中的文本挑战。因此,场景文字实际上被视为通用纹理。为了使SR在实际部署中有效,明确优化文本可读性和感知质量至关重要。我们提出了GLYPH-SR,这是一个旨在同时实现这两个目标的视觉语言引导扩散框架。GLYPH-SR利用由OCR数据引导的文本-SR融合控制网络(TS-ControlNet),以及一个在文本和场景中心引导之间交替的乒乓调度器。为了实现有针对性的文本恢复,我们在合成语料库上训练这些组件,同时保持主SR分支冻结。在x4和x8的SVT、SCUT-CTW1500和CUTE80上,GLYPH-SR相对于扩散/GAN基线(SVT x8,OpenOCR)可将OCR F1提高多达+15.18个百分点,同时保持竞争力的MANIQA、CLIP-IQA和MUSIQ。GLYPH-SR旨在同时满足这两个目标-高可读性和高视觉逼真度-提供看起来正确且读起来正确的SR。
更新时间: 2025-10-30 10:46:28
领域: cs.CV,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 17:31 , Processed in 0.092158 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表