Q 函数（在模型不可用时学习优化） · 精通 TensorFlow 1.x

# Q 函数（在模型不可用时学习优化）如果模型不可用，则智能体通过反复试验来学习模型和最优策略。当模型不可用时，智能体使用 Q 函数，其定义如下： ![](https://img.kancloud.cn/ec/12/ec12598180e2ff664e974ce36ffa9bb0_1210x200.png) 如果状态 s 处的智能体选择动作 a，则 Q 函数基本上将状态和动作对映射到表示预期总奖励的实数。