Skip to content

Main Navigation 首页数学基础人工智能 NLP ML & DL

简体中文

简体中文

Appearance

Sidebar Navigation

ML & DL

总览

Active Learning

总览

Core-set Selection

Diversity-based Sampling

Expected Error Reduction

Expected Model Change

Query-by-Committee

Uncertainty Sampling

Imitation Learning

总览

Behavior Cloning

DAgger

Generative Adversarial Imitation Learning (GAIL)

Inverse Reinforcement Learning (IRL)

Maximum Entropy IRL

Reinforcement Learning

总览

Bandit

总览

ε-Greedy

Multi-Armed Bandit

Thompson Sampling

Upper Confidence Bound (UCB)

Deep Reinforcement Learning

总览

Deep Q-Network (DQN)

MuZero

Proximal Policy Optimization (PPO)

Soft Actor-Critic (SAC)

Dynamic Programming

总览

Policy Evaluation

Policy Iteration

Value Iteration

关键对象

总览

Action

Environment Model

Policy

Reward

State

Value Function

Monte Carlo RL

总览

Monte Carlo Control

Monte Carlo Prediction

Temporal Difference Learning

总览

Q-Learning

SARSA

TD(0)

Self-supervised Learning

总览

自回归预测

总览

GPT-style Next-token Prediction

n-gram Language Model

RNN Language Model

Transformer Language Model

对比学习

总览

Barlow Twins

BYOL

CLIP-style Image-Text Contrastive Learning

MoCo

SimCLRbi

SwAV

Word2Vec

去噪学习

总览

BART-style Denoising

Denoising Autoencoder

Diffusion Denoising Objective

掩码预测

总览

BERT-style Pretraining

Masked Autoencoder (MAE)

Masked Image Modeling

Masked Language Modeling (MLM)

预测式表示学习

总览

Bootstrap Representation Learning

Contrastive Predictive Coding (CPC)

Semi-supervised Learning

总览

Consistency Regularization

FixMatch

Pseudo-labeling

Supervised Learning

总览

分类模型

总览

AdaBoost

CNN Classifier

Decision Tree

k-Nearest Neighbors (kNN)

Logistic Regression

Multilayer Perceptron (MLP)

Naive Bayes

Random Forest

RNN Classifier

Softmax Regression

Support Vector Machine (SVM)

Transformer Classifier

回归模型

总览

Elastic Net

Gaussian Process Regression

Gradient Boosting Regression

Lasso Regression

Linear Regression

Neural Network Regression

Random Forest Regression

Ridge Regression

Support Vector Regression (SVR)

Unsupervised Learning

总览

聚类方法

总览

Gaussian Mixture Model (GMM；常用 EM 算法训练)

K-Means

Spectral Clustering

密度估计

总览

Gaussian Mixture Model (GMM)

Kernel Density Estimation (KDE)

降维方法

总览

Principal Component Analysis (PCA)

异常检测

ML & DL Resources

本页目录

Reinforcement Learning

本页是 Reinforcement Learning 的目录索引。

简述

通过 agent 与 environment 的交互学习策略。
策略形式： $π (a | s)$
优化目标： $max_{π} E [\sum_{t = 0}^{T} γ^{t} r_{t}]$

下级目录

关键对象
Bandit
Dynamic Programming
Monte Carlo RL
Temporal Difference Learning
Deep Reinforcement Learning

Last updated:

Pager

上一篇Maximum Entropy IRL

下一篇总览

以知识图谱方式组织 AI 学习路径。

Copyright © 2026