找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 44|回复: 0

Paper2Poster: 从科学论文到多模态海报自动化

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 19:56:36 | 显示全部楼层 |阅读模式
摘要: 学术海报生成是科学交流中至关重要但具有挑战性的任务,需要将长篇杂乱的文档压缩成一张视觉连贯的页面。为了解决这一挑战,我们引入了海报生成的第一个基准和度量套件,将最近的会议论文与作者设计的海报进行配对,并通过以下几个方面评估输出:(i)视觉质量-与人类海报的语义对齐,(ii)文本连贯性-语言流畅性,(iii)整体评估-由VLM作为评判标准评分的六个细粒度审美和信息标准,特别是(iv)PaperQuiz- 海报传达核心论文内容的能力,由VLM回答生成的测验来衡量。基于这个基准,我们提出了PosterAgent,这是一个自上而下、视觉在循环多代理管道:(a)解析器将论文提炼成结构化资产库;(b)规划者将文本-视觉对齐到保持阅读顺序和空间平衡的二叉树布局中;(c) 画家-评论者循环通过执行渲染代码并利用VLM的反馈消除溢出并确保对齐,对每个面板进行精细调整。在我们的全面评估中,我们发现,尽管GPT-4o的输出在第一眼看起来吸引人,但往往出现杂乱的文本和较差的PaperQuiz得分,并且我们发现读者参与是主要的审美瓶颈,因为人类设计的海报主要依赖视觉语义来传达意义。我们的完全开源变体(例如基于Qwen-2.5系列)在几乎所有度量标准上优于现有的4o驱动的多代理系统,同时使用的标记数量减少了87%。它可以将一份22页的论文转换为最终可编辑的.pptx海报-仅需0.005美元。这些发现为下一代完全自动化海报生成模型指明了明确的方向。代码和数据集可在https://github.com/Paper2Poster/Paper2Poster上找到。
更新时间: 2025-10-30 10:49:28
领域: cs.CV,cs.AI,cs.CL,cs.MA

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 16:03 , Processed in 0.099244 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表