机读格式显示(MARC)

000 01664nam 2200361 450

001 0000439765

005 20250530123100.0

010 __ |a 978-7-5226-1761-9 |d CNY69.80

021 __ |a CN |b 01-2023-1224

099 __ |a CAL 012024009236

100 __ |a 20240112d2024 em y0chiy50 ea

101 1_ |a chi |c jpn

102 __ |a CN |b 110000

105 __ |a ak a 000yy

106 __ |a r

200 1_ |a 强化学习算法入门 |A qiang hua xue xi suan fa ru men |d = Reinforcement lerning |f (日) 曾我部东马著 |g 段琼译 |z eng

210 __ |a 北京 |c 中国水利水电出版社 |d 2024

215 __ |a 175页 |c 图 |d 21cm

225 2_ |a 智博人工智能技术丛书 |A zhi bo ren gong zhi neng ji shu cong shu

312 __ |a 封面题副题名：从“平均值”开始的强化学习算法基础及应用

314 __ |a 曾我部东马，理学博士 (物理学专业)。曾任马克斯·普朗克研究所 (德国) 博士研究员、剑桥大学 (英国) 研究员。

320 __ |a 有书目 (第174-175页)

330 __ |a 本书的目的就是为了消除这种高门槛，并通过使用初级数学中的“平均值”等概念，对强化学习中的“价值”“探索”和“马尔可夫性”等基本概念进行浅显易懂的解释。对于每个算法，本书将使用“多臂老虎机问题”或“网格世界问题”中的一个，以易于比较的状态进行解释，这样，可以让读者更直观地理解各算法的特点和差异。此外，对于核心算法，本书提供了使用Python和MATLAB编写的两种类型的代码，通过运行这些代码，可以让读者直观地理解“原理→公式→程序”的一系列流程。

410 _0 |1 2001 |a 智博人工智能技术丛书

510 1_ |a Reinforcement lerning |z eng

606 0_ |a 机器学习 |A ji qi xue xi |x 算法

690 __ |a TP181 |v 5

701 _0 |a 曾我部东马 |A zeng wo bu dong ma |4 著

702 _0 |a 段琼 |A duan qiong |4 译

801 _0 |a CN |b 百万庄 |c 20240112

905 __ |a XATU |d TP181/428

920 __ |a 261060 |z 1

998 __ |a PUL