Dom zvučni Hadoop analitika: nije tako jednostavno u više izvora podataka

Hadoop analitika: nije tako jednostavno u više izvora podataka

Sadržaj:

Anonim

Hadoop je sjajno mjesto za iskrcavanje podataka za obradu analitike ili za modeliranje većih količina jednog izvora podataka što nije moguće s postojećim sustavima. No, kako tvrtke dostavljaju podatke iz mnogih izvora u Hadoop, sve je veća potražnja za analizom podataka iz različitih izvora, što može biti izuzetno teško postići. Ovaj je post prvi u trodijelnom nizu koji objašnjava probleme s kojima se organizacije suočavaju dok pokušavaju analizirati različite izvore podataka i tipove unutar Hadoopa i kako riješiti ove izazove. Današnji post fokusiran je na probleme koji se javljaju kod kombiniranja više unutarnjih izvora. Sljedeća dva posta objašnjavaju zašto se ovi problemi povećavaju složenošću, kako se dodaju vanjski izvori podataka i kako novi pristupi pomažu u njihovom rješavanju.

Podaci iz različitih izvora teško povezati i mapirati

Podaci iz različitih izvora imaju različite strukture zbog kojih je teško povezati i preslikati tipove podataka zajedno, čak i podatke iz unutarnjih izvora. Kombiniranje podataka može biti osobito teško ako kupci imaju više brojeva računa ili je organizacija stekla ili se spojila s drugim tvrtkama. Posljednjih nekoliko godina neke su organizacije pokušale upotrijebiti otkrivanje podataka ili aplikacije znanosti o podacima kako bi analizirali podatke iz više izvora pohranjenih u Hadoopu. Taj je pristup problematičan jer uključuje puno nagađanja: korisnici moraju odlučiti koje će strane ključeve koristiti za povezivanje različitih izvora podataka i pretpostavke prilikom stvaranja slojeva podatkovnog modela. Te je pretpostavke teško ispitati i često su pogrešne kada se primijene na skali, što dovodi do neispravne analize podataka i nepovjerenja u izvore.

Hadoop stručnjaci pokušaju zajedno objediniti podatke

Stoga su organizacije koje žele analizirati podatke u različitim izvorima podataka angažirale stručnjake Hadoopa kako bi stvorili prilagođene skripte specifične za izvor koji bi spajali skupove podataka. Ti stručnjaci Hadoopa obično nisu stručnjaci za integraciju podataka ili rješavanje entiteta, ali rade najbolje što mogu kako bi odgovorili na trenutne potrebe organizacije. Ti stručnjaci obično koriste Svinju ili Javu za pisanje čvrstih i brzih pravila koja određuju kako kombinirati strukturirane podatke iz određenih izvora, npr. Podudaranje zapisa na temelju broja računa. Nakon što je napisan skripta za dva izvora, ako treba dodati i treći izvor, prvi skripta mora biti odbačena i nova skripta dizajnirana za kombiniranje triju specifičnih izvora. Ista stvar se događa ako se doda još jedan izvor i tako dalje. Ovaj pristup ne samo da je neučinkovit, već i neuspješno kada se primjenjuje u razmjeri, loše rukuje slučajevima, može rezultirati velikim brojem duplikata zapisa i često spaja mnoge zapise koji se ne bi trebali kombinirati.

Hadoop analitika: nije tako jednostavno u više izvora podataka