|
摘要: 图像超分辨率(SR)对于许多视觉系统是基础的,从监控和自主性到文件分析和零售分析,因为恢复高频细节,特别是场景文字,可以实现可靠的下游感知。场景文字,即嵌入在自然图像中的文本,如标识、产品标签和店面,通常携带最具行动性的信息;当字符模糊或幻觉时,即使图像的其余部分看起来清晰,光学字符识别(OCR)和随后的决策也会失败。然而,先前的SR研究通常调整到失真(PSNR / SSIM)或学习的感知度量(LIPIS,MANIQA,CLIP-IQA,MUSIQ),这些度量对字符级错误几乎不敏感。此外,处理文本SR的研究通常专注于带有孤立字符的简化基准,忽略了复杂自然场景中的文本挑战。因此,场景文字实际上被视为通用纹理。为了使SR在实际部署中有效,明确优化文本可读性和感知质量至关重要。我们提出了GLYPH-SR,这是一个旨在同时实现这两个目标的视觉语言引导扩散框架。GLYPH-SR利用由OCR数据引导的文本-SR融合控制网络(TS-ControlNet),以及一个在文本和场景中心引导之间交替的乒乓调度器。为了实现有针对性的文本恢复,我们在合成语料库上训练这些组件,同时保持主SR分支冻结。在x4和x8的SVT、SCUT-CTW1500和CUTE80上,GLYPH-SR相对于扩散/GAN基线(SVT x8,OpenOCR)可将OCR F1提高多达+15.18个百分点,同时保持竞争力的MANIQA、CLIP-IQA和MUSIQ。GLYPH-SR旨在同时满足这两个目标-高可读性和高视觉逼真度-提供看起来正确且读起来正确的SR。 更新时间: 2025-10-30 10:46:28 领域: cs.CV,cs.AI
|