Skip to content

Reinforcement Learning

本页是 Reinforcement Learning 的目录索引。

简述

  • 通过 agent 与 environment 的交互学习策略。
  • 策略形式:π(a|s)
  • 优化目标:maxπE[t=0Tγtrt]

下级目录

以知识图谱方式组织 AI 学习路径。