Lokalizacija i segmentacija primjeraka objekata jedni su od bitnih problema dubokog učenja. Mask R-CNN predstavlja stanje tehnike modela koji rješavaju te zadatke. U sklopu rada pojašnjene su sve komponente Mask R-CNN-a poput kralježnice u vidu rezidualnih neuronskih mreža ResNet, rezolucijske piramide značajki FPN, modula za predlaganje regija interesa RPN te samih glava za klasifikaciju, okvire i semantičku segmentaciju specifičnih za cijeli model. Model Mask R-CNN-a implementiran je i naučen na dva različita skupa podataka PASCAL VOC-2012 i AOLP. Prikazane su dobiveni vrijednosti AP metrika te sami rezultati na slikama gdje su objekti klasificirani, lokalizirani i segmentirani. Za oba skupa podataka i područja primjene također su prikaza...