Cilj je ovoga diplomskog rada objasniti učenje podrškom - paradigmu učenja neuronskih mreža koja se zasniva na metodi pokušaja i pogrešaka. U tu je svrhu prvo opisan način rada neuronskih mreža te osnovni elementi istih. Definiran je i Markovljev proces odlučivanja koji je osnova algoritama Q-učenja koji se koriste za rješavanje problema metodom učenja podrškom te su opisani algoritmi Q-učenja s iteracijama vrijednosti i dubinskog Q-učenja. Na kraju je dan primjer implementacije dubinskog Q-učenja u programskom jeziku Python.The goal of this master’s thesis is to explain reinforcement learning - neural network learning method based on trial and error principle. For that purpose, the way that neural networks work and their basic elements are ...