Tato práce se zabývá využitím posilovaného učení pro pohyb robota v simulovaném fyzikálním prostředí. Pro posilované učení se jedná o náročné úlohy, kde agenti čelí několika výzvám. Jednou z nich je spojitý prostor akcí, jelikož agent obvykle ovlivňuje prostředí aplikací síly na jednotlivé klouby. Druhým problémem je, že části robota se často vzájemně ovlivňují složitým způsobem a navíc jsou ovlivněny gravitací, setrvačností a dalšími fyzikálními efekty. Z těchto a dalších důvodů nejsou pro tyto úlohy jednoduché algoritmy posilovaného učení vhodné. Jedním z relativně nových řešení je algoritmus Soft Actor-Critic (SAC), který se objevil současně s podobně performním TD3, a oba překonávají starší DDPG. Agent SAC je odměňován za více náhodné c...