找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 10|回复: 0

享受多项逻辑回归赌博中的非线性

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-10-9 16:36:31 | 显示全部楼层 |阅读模式
摘要: 我们考虑多项式逻辑赌博问题,这是一个变体,其中学习者通过选择行动与环境进行交互,以最大化基于多种可能结果的概率反馈的预期奖励。在二元设置中,最近的研究集中于理解逻辑模型的非线性(Faury等,2020年;Abeille等,2021年)的影响。他们引入了一个问题相关的常数$\kappa_* \geq 1$,在某些问题参数上可能呈指数增长,并且由Sigmoid函数的导数捕捉到。它包含了非线性,并将现有的回报保证从$O(d\sqrt{T})$改进到$O(d\sqrt{T/\kappa_*})$,其中$d$是参数空间的维度。我们将他们的分析扩展到多项式逻辑赌博框架,使其适用于具有超过两个选择的复杂应用,例如强化学习或推荐系统。为了实现这一点,我们将$\kappa_*$的定义扩展到多项式设置,并提出一种利用问题非线性的高效算法。我们的方法产生一个关于问题的依赖性遗憾界的阶$ \widetilde{\mathcal{O}}( R d \sqrt{{KT}/{\kappa_*}})$,其中$R$是奖励向量的范数,$K$是结果的数量。这超过了现有最佳保证的阶$ \widetilde{\mathcal{O}}( RdK \sqrt{T} )$。此外,我们提供了一个$\Omega(Rd\sqrt{KT/\kappa_*})$的下限,表明我们的算法是极小极优的,并且我们对$\kappa_*$的定义是最优的。
更新时间: 2025-10-08 15:15:45
领域: stat.ML,cs.AI,cs.LG,math.ST,stat.TH

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:42 , Processed in 0.072951 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表