GLYPH-SR：我们可以通过VLM引导的潜在扩散模型实现高质量图像超分辨率和高保真度文本

于红博 · 发表于 2025-11-2 19:57:45

摘要: 图像超分辨率（SR）对于许多视觉系统是基础的，从监控和自主性到文件分析和零售分析，因为恢复高频细节，特别是场景文字，可以实现可靠的下游感知。场景文字，即嵌入在自然图像中的文本，如标识、产品标签和店面，通常携带最具行动性的信息；当字符模糊或幻觉时，即使图像的其余部分看起来清晰，光学字符识别（OCR）和随后的决策也会失败。然而，先前的SR研究通常调整到失真（PSNR / SSIM）或学习的感知度量（LIPIS，MANIQA，CLIP-IQA，MUSIQ），这些度量对字符级错误几乎不敏感。此外，处理文本SR的研究通常专注于带有孤立字符的简化基准，忽略了复杂自然场景中的文本挑战。因此，场景文字实际上被视为通用纹理。为了使SR在实际部署中有效，明确优化文本可读性和感知质量至关重要。我们提出了GLYPH-SR，这是一个旨在同时实现这两个目标的视觉语言引导扩散框架。GLYPH-SR利用由OCR数据引导的文本-SR融合控制网络（TS-ControlNet），以及一个在文本和场景中心引导之间交替的乒乓调度器。为了实现有针对性的文本恢复，我们在合成语料库上训练这些组件，同时保持主SR分支冻结。在x4和x8的SVT、SCUT-CTW1500和CUTE80上，GLYPH-SR相对于扩散/GAN基线（SVT x8，OpenOCR）可将OCR F1提高多达+15.18个百分点，同时保持竞争力的MANIQA、CLIP-IQA和MUSIQ。GLYPH-SR旨在同时满足这两个目标-高可读性和高视觉逼真度-提供看起来正确且读起来正确的SR。

更新时间: 2025-10-30 10:46:28

领域: cs.CV,cs.AI

下载: http://arxiv.org/abs/2510.26339v1

		自动登录	找回密码
密码			立即注册