Q-learning 是一种源自心理学的增强式学习算法,旨在通过与环境的互动学习最优策略。它利用 Q 值来积累每次行动后的经验,并通过奖励反馈强化学习过程。文档还以例子说明 Q-learning 的实际应用,如在游戏 Flappy Bird 中的决策制定。