Agenti zpětnovazebného učení v současnosti patří mezi nejlepší způsoby, jak řešit obecné úlohy. Konkrétně algoritmus AlphaGo Zero (AZ) se v hraní mnoha deskových her drží v současnosti na nejvyšších příčkách. Nicméně, hodí se pouze na práci s deterministickými adverzálními prostředími a jako takový nenachází ve skutečném světě mnohá uplatnění, jelikož obdržení veškeré informace o běžných procesech je takřka nemožné. V této práci analyzujeme způsob, jakým AZ dosahuje svých výsledků a jak lze tento algoritmus upravit tak, aby řešil obecné stochastické neadverzální problémy, přičemž zavádíme techniku kontroly redundance, pomocí níž lze efektivněji prořezávat stavový strom. Na závěr navrhneme vlastní prostředí a otestujeme, jakých výsledků dosa...