Trebamo li normalizirati podatke prije grupiranja?

Sadržaj:

Trebamo li normalizirati podatke prije grupiranja?
Trebamo li normalizirati podatke prije grupiranja?
Anonim

Normalizacija se koristi za eliminaciju suvišnih podataka i osigurava da se generišu klasteri dobrog kvaliteta koji mogu poboljšati efikasnost algoritama grupisanja. Tako da postaje suštinski korak prije grupiranja kao Euklidska udaljenost vrlo je osjetljiv na promjene u razlikama[3].

Da li trebamo normalizirati podatke za grupiranje K-sredstava?

Kao u k-NN metodi, karakteristike koje se koriste za grupisanje moraju se mjeriti u uporedivim jedinicama. U ovom slučaju jedinice nisu problem jer je svih 6 karakteristika izraženo na skali od 5 tačaka. Normalizacija ili standardizacija nije potrebna.

Kako pripremate podatke prije grupiranja?

Priprema podataka

Da bi se izvršila klaster analiza u R, općenito, podaci bi trebali biti pripremljeni na sljedeći način: Redovi su zapažanja (pojedinci), a stupci su varijable. Svaka vrijednost koja nedostaje u podacima mora biti uklonjena ili procijenjena. Podaci moraju biti standardizirani (tj. skalirani) kako bi varijable bile uporedive.

Da li treba skalirati podatke za grupisanje?

U grupisanju, izračunavate sličnost između dva primjera kombinacijom svih podataka o karakteristikama za te primjere u numeričku vrijednost. Kombinovanje podataka o karakteristikama zahtijeva da podaci imaju istu skalu.

Zašto je važno normalizirati karakteristike prije grupiranja?

Standardizacija je važan korak podatakapreprocesiranje.

Kao što je objašnjeno u ovom radu, k-means minimizira funkciju greške koristeći Newton algoritam, tj. algoritam optimizacije zasnovan na gradijentu. Normalizacija podataka poboljšava konvergenciju takvih algoritama.

Preporučuje se: