Normalizacija se koristi za eliminaciju suvišnih podataka i osigurava da se generišu klasteri dobrog kvaliteta koji mogu poboljšati efikasnost algoritama grupisanja. Tako da postaje suštinski korak prije grupiranja kao Euklidska udaljenost vrlo je osjetljiv na promjene u razlikama[3].
Da li trebamo normalizirati podatke za grupiranje K-sredstava?
Kao u k-NN metodi, karakteristike koje se koriste za grupisanje moraju se mjeriti u uporedivim jedinicama. U ovom slučaju jedinice nisu problem jer je svih 6 karakteristika izraženo na skali od 5 tačaka. Normalizacija ili standardizacija nije potrebna.
Kako pripremate podatke prije grupiranja?
Priprema podataka
Da bi se izvršila klaster analiza u R, općenito, podaci bi trebali biti pripremljeni na sljedeći način: Redovi su zapažanja (pojedinci), a stupci su varijable. Svaka vrijednost koja nedostaje u podacima mora biti uklonjena ili procijenjena. Podaci moraju biti standardizirani (tj. skalirani) kako bi varijable bile uporedive.
Da li treba skalirati podatke za grupisanje?
U grupisanju, izračunavate sličnost između dva primjera kombinacijom svih podataka o karakteristikama za te primjere u numeričku vrijednost. Kombinovanje podataka o karakteristikama zahtijeva da podaci imaju istu skalu.
Zašto je važno normalizirati karakteristike prije grupiranja?
Standardizacija je važan korak podatakapreprocesiranje.
Kao što je objašnjeno u ovom radu, k-means minimizira funkciju greške koristeći Newton algoritam, tj. algoritam optimizacije zasnovan na gradijentu. Normalizacija podataka poboljšava konvergenciju takvih algoritama.