机读格式显示(MARC)
- 000 01399nam0 2200325 450
- 010 __ |a 978-7-121-29516-4 |d CNY168.00
- 035 __ |a (A441900DGL)012020004599
- 049 __ |a A441900DGL |b UCS01009904777 |c 012020004599
- 100 __ |a 20190918e20222019em y0chiy50 ea
- 200 1_ |a 强化学习 |A qiang hua xue xi |b 专著 |d Reinforcement learning |e an introduction |f (加)Richard S. Sutton,(美)Andrew G. Barto著 |g 俞凯等译 |z eng
- 210 __ |a 北京 |c 电子工业出版社 |d 2019 |h 2022重印
- 215 __ |a 28,519页 |c 图 |d 24cm
- 225 1_ |a 智源人工智能丛书 |A Zhi Yuan Ren Gong Zhi Neng Cong Shu
- 305 __ |a 由博达著作权代理有限公司Bardon Chinese Media Agency代理The MIT Press授权出版 据原书第2版译出
- 330 __ |a 本书从强化学习的基本思想出发,介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
- 510 1_ |a Reinforcement learning |e an introduction |z eng
- 606 0_ |a 机器学习 |A Ji Qi Xue Xi |x 算法 |x 研究
- 701 _1 |c (加) |a 萨顿 |A sa dun |c (Sutton, Richard S.) |4 著
- 701 _1 |c (美) |a 巴图 |A ba tu |c (Barto, Andrew G.) |4 著
- 702 _0 |a 俞凯 |A yu kai |c (人工智能) |4 译
- 801 _0 |a CN |b A441900DGL |c 20200401
- 905 __ |a XATU |d TP181/286