Prvi dio diplomskog rada obuhvaća teoriju potrebnu za razvoj šahovskog robota, dok drugi dio pokazuje kako je stečeno znanje primjenjeno u praksi. U teorijskom dijelu objašnjen je problem potpornog učenja te je rečeno da je gotovo isti kao problem MDP-a. Jedina razlika je nepoznatost unutarnjih vjerojatnosti problema potpornog učenja. Zatim je objašnjen postupak rješavanja MDP-a. Tehnike korištene pri rješavanju MDP-a su potom primjenjene na problem potpornog učenja što je rezultiralo razičitim RL algoritmima. Završni algoritam je konstruiran kombinacijom najboljih dijelova razvijenih RL algoritama. Praktični dio je podijeljen u dva glavna dijela. Razvoj okoline i agenta. Razvoj okoline sastojao se od razvoja stroja za igru šah, grafičkog...