Normalizacija je korisna kada vaši podaci imaju različite skale i algoritam koji koristite ne daje pretpostavke o distribuciji vaših podataka, kao što su k-najbliži susjedi i umjetni neuroni mreže. Standardizacija pretpostavlja da vaši podaci imaju Gausovu distribuciju (zvonasta kriva).
Kada trebamo normalizirati podatke?
Podatke treba normalizirati ili standardizirati da bi se sve varijable doveli u proporciju jedne s drugima. Na primjer, ako je jedna varijabla 100 puta veća od druge (u prosjeku), tada bi se vaš model mogao bolje ponašati ako normalizirate/standardizirate dvije varijable da budu približno ekvivalentne.
Koja je razlika između normalizacije i standardizacije?
Normalizacija tipično znači ponovno skaliranje vrijednosti u raspon od [0, 1]. Standardizacija obično znači da se podaci mijenjaju kako bi imali srednju vrijednost 0 i standardnu devijaciju od 1 (varijansa jedinice).
Kada i zašto nam je potrebna normalizacija podataka?
Jednostavnije rečeno, normalizacija osigurava da svi vaši podaci izgledaju i čitaju na isti način u svim zapisima. Normalizacija će standardizirati polja uključujući nazive kompanija, imena kontakata, URL-ove, informacije o adresama (ulice, države i gradovi), brojeve telefona i nazive poslova.
Kako birate normalizaciju i standardizaciju?
U poslovnom svijetu, "normalizacija" tipično znači da je raspon vrijednosti"normalizirano da bude od 0,0 do 1,0". "Standardizacija" obično znači da je raspon vrijednosti "standardiziran" kako bi se izmjerilo koliko je standardnih odstupanja vrijednost od svoje srednje vrijednosti.