Tato diplomová práce se věnuje identifikaci modelových portfolií v rámci rozsáhlých datových souborů, kdy rozměry datových souborů odpovídají desítkám milionů záznamů a tisícovkám popisných atributů. Jedním z nejvhodnějších nástrojů pro zpracování a analýzu rozsáhlých datových souborů je v současnosti Apache Spark, který poskytuje rozhraní pro zpracovávání dat na výpočetních clusterech a pomocí paralelizace zpracování a výpočtů dovoluje v krátkém čase analyzovat rozsáhlé datové soubory. Úlohu identifikace investičních modelových portfolií lze pojmout jako úlohu shlukování dat. Za účelem hledání vhodného algoritmu byla provedena rešerše dostupných implementací shlukovacích algoritmů pro platformu Apache Spark, kdy nebyla nalezena žádná vhodn...