Skip to content
AI Wiki
Search
K
Main Navigation
首页
数学基础
人工智能
NLP
ML & DL
简体中文
English
简体中文
English
Appearance
Menu
回到顶部
本页目录
Reinforcement Learning
本页是
Reinforcement Learning
的目录索引。
简述
通过 agent 与 environment 的交互学习策略。
策略形式:
π
(
a
|
s
)
优化目标:
max
π
E
[
∑
t
=
0
T
γ
t
r
t
]
下级目录
关键对象
Bandit
Dynamic Programming
Monte Carlo RL
Temporal Difference Learning
Deep Reinforcement Learning