机读格式显示(MARC)
- 010 __ |a 978-7-302-58794-1 |d CNY69.00
- 099 __ |a CAL 012021143931
- 100 __ |a 20211214d2021 ekmy0chiy50 ea
- 200 1_ |a 强化学习 |A qiang hua xue xi |e 微课版 |f 袁莎, 白朔天, 唐杰著
- 210 __ |a 北京 |c 清华大学出版社 |d 2021
- 215 __ |a 276页 |c 图 |d 26cm
- 225 2_ |a 面向新工科专业建设计算机系列教材·人工智能 |A mian xiang xin gong ke zhuan ye jian she ji suan ji xi lie jiao cai · ren gong zhi neng |f 张尧学主编
- 330 __ |a 本书首先回顾了相关预备知识,包括数学基础和机器学习基础,然后先介绍强化学习的基本概念,给出强化学习的数学框架(马尔可夫决策过程),随后介绍强化学习的求解算法,包括表格求解法(动态规划法、蒙特卡洛法和时序差分法),以及近似求解法(值函数近似法、策略梯度法和深度强化学习)。本书最后一部分为实践与前沿,实践部分基于一个相同的例子实现了强化学习领域的主流基础算法,前沿部分介绍了强化学习领域的新研究进展。
- 410 _0 |1 2001 |a 面向新工科专业建设计算机系列教材·人工智能 |f 张尧学主编
- 606 0_ |a 机器学习 |A ji qi xue xi |j 教材
- 701 _0 |a 袁莎 |A yuan sha |4 著
- 701 _0 |a 白朔天 |A bai shuo tian |4 著
- 701 _0 |a 唐杰 |A tang jie |4 著
- 801 _0 |a CN |b TSU |c 20211214
- 905 __ |a XATU |d TP181/387