NIUCLOUD是一款SaaS管理后台框架多应用插件+云编译。上千名开发者、服务商正在积极拥抱开发者生态。欢迎开发者们免费入驻。一起助力发展! 广告
# Q 函数(在模型不可用时学习优化) 如果模型不可用,则智能体通过反复试验来学习模型和最优策略。当模型不可用时,智能体使用 Q 函数,其定义如下: ![](https://img.kancloud.cn/ec/12/ec12598180e2ff664e974ce36ffa9bb0_1210x200.png) 如果状态 s 处的智能体选择动作 a,则 Q 函数基本上将状态和动作对映射到表示预期总奖励的实数。