Skip to content

Main Navigation 首页数学基础人工智能 NLP ML & DL

简体中文

简体中文

Appearance

Sidebar Navigation

ML & DL

总览

Active Learning

总览

Core-set Selection

Diversity-based Sampling

Expected Error Reduction

Expected Model Change

Query-by-Committee

Uncertainty Sampling

Imitation Learning

总览

Behavior Cloning

DAgger

Generative Adversarial Imitation Learning (GAIL)

Inverse Reinforcement Learning (IRL)

Maximum Entropy IRL

Reinforcement Learning

总览

Bandit

总览

ε-Greedy

Multi-Armed Bandit

Thompson Sampling

Upper Confidence Bound (UCB)

Deep Reinforcement Learning

总览

Deep Q-Network (DQN)

MuZero

Proximal Policy Optimization (PPO)

Soft Actor-Critic (SAC)

Dynamic Programming

总览

Policy Evaluation

Policy Iteration

Value Iteration

关键对象

总览

Action

Environment Model

Policy

Reward

State

Value Function

Monte Carlo RL

总览

Monte Carlo Control

Monte Carlo Prediction

Temporal Difference Learning

总览

Q-Learning

SARSA

TD(0)

Self-supervised Learning

总览

自回归预测

总览

GPT-style Next-token Prediction

n-gram Language Model

RNN Language Model

Transformer Language Model

对比学习

总览

Barlow Twins

BYOL

CLIP-style Image-Text Contrastive Learning

MoCo

SimCLRbi

SwAV

Word2Vec

去噪学习

总览

BART-style Denoising

Denoising Autoencoder

Diffusion Denoising Objective

掩码预测

总览

BERT-style Pretraining

Masked Autoencoder (MAE)

Masked Image Modeling

Masked Language Modeling (MLM)

预测式表示学习

总览

Bootstrap Representation Learning

Contrastive Predictive Coding (CPC)

Semi-supervised Learning

总览

Consistency Regularization

FixMatch

Pseudo-labeling

Supervised Learning

总览

分类模型

总览

AdaBoost

CNN Classifier

Decision Tree

k-Nearest Neighbors (kNN)

Logistic Regression

Multilayer Perceptron (MLP)

Naive Bayes

Random Forest

RNN Classifier

Softmax Regression

Support Vector Machine (SVM)

Transformer Classifier

回归模型

总览

Elastic Net

Gaussian Process Regression

Gradient Boosting Regression

Lasso Regression

Linear Regression

Neural Network Regression

Random Forest Regression

Ridge Regression

Support Vector Regression (SVR)

Unsupervised Learning

总览

聚类方法

总览

Gaussian Mixture Model (GMM；常用 EM 算法训练)

K-Means

Spectral Clustering

密度估计

总览

Gaussian Mixture Model (GMM)

Kernel Density Estimation (KDE)

降维方法

总览

Principal Component Analysis (PCA)

异常检测

ML & DL Resources

本页目录

Proximal Policy Optimization (PPO)

本页用于记录 Proximal Policy Optimization (PPO) 的定义、基本思想、适用场景和相关链接。

所属路径

Reinforcement Learning / Deep Reinforcement Learning / Proximal Policy Optimization (PPO)

Last updated:

Pager

上一篇MuZero

下一篇Soft Actor-Critic (SAC)

以知识图谱方式组织 AI 学习路径。

Copyright © 2026