Publications | Toshinori Kitamura

Toshinori Kitamura, Tadashi Kozuno, Wataru Kumagai, Kenta Hoshino, Yohei Hosoe, Kazumi Kasaura, Masashi Hamaya, Paavo Parmas, Yutaka Matsuo (2025). Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form. International Conference on Learning Representation (ICLR).

Cite Source Document

Toshinori Kitamura, Arnob Ghosh, Tadashi Kozuno, Wataru Kumagai, Kazumi Kasaura, Kenta Hoshino, Yohei Hosoe, Yutaka Matsuo (2025). Provably Efficient RL under Episode-Wise Safety in Constrained MDPs with Linear Function Approximation. arXiv preprint arXiv:2502.10138.

Cite Source Document

Toshinori Kitamura, Tadashi Kozuno, Masahiro Kato, Yuki Ichihara, Soichiro Nishimori, Akiyoshi Sannai, Sho Sonoda, Wataru Kumagai, Yutaka Matsuo (2024). A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with Uniform PAC Guarantees. arXiv preprint arXiv:2401.17780.

Cite Source Document

Toshinori Kitamura, Tadashi Kozuno, Yunhao Tang, Nino Vieillard, Michal Valko, Wenhao Yang, Jincheng Mei, Pierre Ménard, Mohammad Gheshlaghi Azar, Rémi Munos, others (2023). Regularization and Variance-Weighted Regression Achieves Minimax Optimality in Linear MDPs: Theory and Practice. International Conference on Machine Learning (ICML).

Cite Source Document

小津野将, 北村俊徳, 市原有生希, 萩原誠 (2023). (OS 招待講演) 逐次意思決定における諸問題設定と問題に関する事前知識が性能保証に及ぼす影響について. 人工知能学会全国大会論文集第 37 回 (2023).

Cite Source Document

Tadashi Kozuno, Wenhao Yang, Nino Vieillard, Toshinori Kitamura, Yunhao Tang, Jincheng Mei, Pierre Ménard, Mohammad Gheshlaghi Azar, Michal Valko, Rémi Munos, others (2022). KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal. arXiv preprint arXiv:2205.14211.

Cite Source Document

Toshinori Kitamura, Ryo Yonetani (2021). ShinRL: A Library for Evaluating RL Algorithms from Theoretical and Practical Perspectives. arXiv preprint arXiv:2112.04123.

Cite Source Document

Toshinori Kitamura, Lingwei Zhu, Takamitsu Matsubara (2021). Geometric Value Iteration: Dynamic Error-Aware KL Regularization for Reinforcement Learning. Asian Conference on Machine Learning (ACML).

Cite Source Document

Lingwei Zhu, Toshinori Kitamura, Takamitsu Matsubara (2021). Cautious Policy Programming: Exploiting KL Regularization in Monotonic Policy Improvement for Reinforcement Learning. arXiv preprint arXiv:2107.05798.

Cite Source Document

Lingwei Zhu, Toshinori Kitamura, Matsubara Takamitsu (2021). Cautious Actor-Critic. Asian Conference on Machine Learning (ACML).

Cite Source Document