논문은 환경과 상호작용을 통해 데이터를 샘플링하고 확률적 경사 상승법을 사용하여 "대리" 목표 함수를 최적화하는 강화 학습을 위한 새로운 정책 경사 방법들을 제안합니다. 표준 정책 경사 방법은 데이터 샘플마다 한 번의 경사 업데이트를 수행하지만, 미니배치 업데이트를 여러 에폭 수행할 수 있는 독창적인 목표 함수를 제안합니다. 이 새로운 방법을 근접 정책 최적화(Proximal Policy Optimization, PPO)라고 부르며, 신뢰 영역 정책 최적화(Trust Region Policy Optimization, TRPO)의 일부 이점이 있지만, 구현이 훨씬 간단하고 일반적이며 샘플 복잡성 면에서도 뛰어납니다(실제로). 실험에서는 PPO를 로봇 보행 시뮬레이션과 아타리 게임 등의 벤치마크 작업에 적용하였으며, 이를 통해 PPO가 다른 온라인 정책 경사 방법보다 우수하며, 전반적으로 샘플 복잡성, 단순성, 실제 소요 시간 면에서 유리한 균형을 이루고 있다는 것을 보여줍니다.