摘要: 学术海报生成是科学交流中至关重要但具有挑战性的任务,需要将长篇杂乱的文档压缩成一张视觉连贯的页面。为了解决这一挑战,我们引入了海报生成的第一个基准和度量套件,将最近的会议论文与作者设计的海报进行配对,并通过以下几个方面评估输出:(i)视觉质量-与人类海报的语义对齐,(ii)文本连贯性-语言流畅性,(iii)整体评估-由VLM作为评判标准评分的六个细粒度审美和信息标准,特别是(iv)PaperQuiz- 海报传达核心论文内容的能力,由VLM回答生成的测验来衡量。基于这个基准,我们提出了PosterAgent,这是一个自上而下、视觉在循环多代理管道:(a)解析器将论文提炼成结构化资产库;(b)规划者将文本-视觉对齐到保持阅读顺序和空间平衡的二叉树布局中;(c) 画家-评论者循环通过执行渲染代码并利用VLM的反馈消除溢出并确保对齐,对每个面板进行精细调整。在我们的全面评估中,我们发现,尽管GPT-4o的输出在第一眼看起来吸引人,但往往出现杂乱的文本和较差的PaperQuiz得分,并且我们发现读者参与是主要的审美瓶颈,因为人类设计的海报主要依赖视觉语义来传达意义。我们的完全开源变体(例如基于Qwen-2.5系列)在几乎所有度量标准上优于现有的4o驱动的多代理系统,同时使用的标记数量减少了87%。它可以将一份22页的论文转换为最终可编辑的.pptx海报-仅需0.005美元。这些发现为下一代完全自动化海报生成模型指明了明确的方向。代码和数据集可在https://github.com/Paper2Poster/Paper2Poster上找到。 更新时间: 2025-10-30 10:49:28 领域: cs.CV,cs.AI,cs.CL,cs.MA
|