U ovom radu, održavanje formacije multirobotskog sustava realizirano je korištenjem pristupa vođa-pratitelj i algoritma potpornog učenja Duple duboke Q-mreže. Navedeni su radovi na ovu temu te su prikazane prednosti i mane pristupa korištenih u tim radovima. Na temelju tih radova odabran je pristup ovom radu. Osnovni koncepti potrpornog učenja su objašnjeni kao i potreba za korištenjem umjetnih neuronskih mreža u riješavanju problema potpornog učenja. Također, algoritam DDQN je objašnjen. Svi alati potrebni za izvršavanje simulacija kao i eksperimenata na pravim robotima su prikazani i opisani. U radu su testirani razni parametri DDQN algoritma te je prikazan njihov utjecaj na rezultate učenja. Prikazana je potreba za odvajanjem problema...