Cilj je ovog diplomskog rada predstaviti model slobodne metode učenja podrškom primjenjive na rješavanje problema neprekidne kontrole, točnije dvonožnog hodanja. U tu je svrhu prvo opisana struktura i proces učenja neuronskih mreža. Definiramo i osnovne koncepte učenja podrškom, vrste algoritama te dajemo uvid u BipedalWalker-v3 radno okruženje dvonožnog robota u kojem implementiramo algoritme. Zatim prezentiramo TD3 algoritam počevši od DDPG algoritma kao osnove istog te ARS algoritam. Konačno, opisujemo implementaciju u Pythonu i rezultate oba algoritma.The goal of this thesis is to introduce model free reinforcement learning methods applicable on solving continuous control problems, i.e. bipedal walking. For that purpose, the neural netw...