U današnjem digitalnom svijetu potrebno je analizirati ogromne količine podataka. Da bi to bilo moguće, najprije su se razvili distribuirani računalni sustavi i paralelno procesiranje podataka, a s vremenom i mnoštvo tehnologija za obradu i analizu podataka, jedna od kojih je Apache Spark. Apache Spark je platforma osmišljena za distribuirano procesiranje velike količine podataka. Ona se odlikuje svojom brzinom, širinom primjene i jednostavnosti korištenja. Brzina izvođenja ostvaruje se čuvanjem podataka u memoriji i internom optimizacijom koda. U Sparku se može raditi sa strukturiranim i graf podacima te tokovima podataka, a mogu se provoditi razne analize, uključujući strojno učenje. U praktičnom dijelu radu napravljena je analiza javno d...