|
摘要: 最近的工作探索了主观推断时间技术,用于执行结构化、多步推理。然而,由于缺乏持久状态,状态无关推断通常在多步任务上表现不佳。此外,任务特定的微调或指令微调通常可以实现表面级别的代码生成,但在需要更深层次推理和长期依赖的任务上仍然不稳定。为了解决这些限制,我们提出了一种有状态的多代理进化搜索,这是一个无需训练的框架,与先前的无状态方法不同,它结合了持久的推断时间状态、对抗性突变和进化保护。我们通过生成边缘情况来展示其在自动化单元测试生成中的有效性。我们使用进化搜索过程生成强健的边缘情况,专门的代理按顺序提出、突变和评分候选者。一个控制器在各代之间维护持久状态,而进化保护确保在所有可能情况下的多样性和探索。这产生了一个通用代理,能够发现跨未见代码库的强健、高覆盖率的边缘情况。实验表明,我们的有状态多代理推理框架在覆盖率上取得了显著的增益,评估了流行的单元测试基准,如HumanEval和TestGenEvalMini,并使用了三个不同的LLM系列 - Llama、Gemma和GPT。这些结果表明,将持久的推断时间状态与进化搜索相结合实质性地改善了单元测试生成。 更新时间: 2025-10-08 15:48:41 领域: cs.LG,cs.AI,cs.CL,cs.MA,cs.SE
|