Paper2Poster: 从科学论文到多模态海报自动化

于红博 · 发表于 2025-11-2 19:56:36

摘要: 学术海报生成是科学交流中至关重要但具有挑战性的任务，需要将长篇杂乱的文档压缩成一张视觉连贯的页面。为了解决这一挑战，我们引入了海报生成的第一个基准和度量套件，将最近的会议论文与作者设计的海报进行配对，并通过以下几个方面评估输出：（i）视觉质量-与人类海报的语义对齐，（ii）文本连贯性-语言流畅性，（iii）整体评估-由VLM作为评判标准评分的六个细粒度审美和信息标准，特别是（iv）PaperQuiz- 海报传达核心论文内容的能力，由VLM回答生成的测验来衡量。基于这个基准，我们提出了PosterAgent，这是一个自上而下、视觉在循环多代理管道：（a）解析器将论文提炼成结构化资产库；（b）规划者将文本-视觉对齐到保持阅读顺序和空间平衡的二叉树布局中；(c) 画家-评论者循环通过执行渲染代码并利用VLM的反馈消除溢出并确保对齐，对每个面板进行精细调整。在我们的全面评估中，我们发现，尽管GPT-4o的输出在第一眼看起来吸引人，但往往出现杂乱的文本和较差的PaperQuiz得分，并且我们发现读者参与是主要的审美瓶颈，因为人类设计的海报主要依赖视觉语义来传达意义。我们的完全开源变体（例如基于Qwen-2.5系列）在几乎所有度量标准上优于现有的4o驱动的多代理系统，同时使用的标记数量减少了87%。它可以将一份22页的论文转换为最终可编辑的.pptx海报-仅需0.005美元。这些发现为下一代完全自动化海报生成模型指明了明确的方向。代码和数据集可在https://github.com/Paper2Poster/Paper2Poster上找到。

更新时间: 2025-10-30 10:49:28

领域: cs.CV,cs.AI,cs.CL,cs.MA

下载: http://arxiv.org/abs/2505.21497v2

		自动登录	找回密码
密码			立即注册

Paper2Poster: 从科学论文到多模态海报自动化

浏览过的版块