Dom baze podataka Snaga prijedloga: kako katalog podataka omogućava analitičarima

Snaga prijedloga: kako katalog podataka omogućava analitičarima

Anonim

Osoblje Techopedia, 22. lipnja 2016

Odlazak: Domaćin Rebecca Jozwiak razgovara o prednostima kataloga podataka s Dez Blanchfield, Robin Bloor i Davidom Crawfordom.

Da biste pogledali videozapis, morate se registrirati za ovaj događaj. Registrirajte se da biste pogledali video.

Rebecca Jozwiak: Dame i gospodo, pozdravljeni i dobrodošli u Hot Technologies 2016. Danas imamo "Snagu prijedloga: kako katalog podataka omogućava analitičarima." Ja sam vaša domaćin Rebecca Jozwiak, popunjavajući našeg uobičajenog domaćina Eric Kavanagh danas, dok putuje svijetom, zato hvala što ste nam se pridružili. Ove godine je vruće, nije samo vruće u Teksasu gdje sam, već je vruće posvuda. Izlazi eksplozija svih vrsta novih tehnologija. Imamo IoT, strujanje podataka, usvajanje oblaka, Hadoop i dalje sazrijeva i usvaja se. Imamo automatizaciju, strojno učenje i sve su to stvari, naravno, podvučene podacima. A poduzeća iz dana u dan postaju sve više podataka. I naravno, poanta toga je dovesti do znanja i otkrića i, znate, donijeti bolje odluke. No, da biste stvarno dobili najveću vrijednost iz podataka, do toga se mora lako doći. Ako je držite zaključanu ili zakopanu ili u mozgu nekolicine ljudi unutar poduzeća, to neće učiniti mnogo dobra za poduzeće u cjelini.

I nekako sam razmišljao o katalogizaciji podataka i razmišljao o tečajevima knjižnica, gdje ste odavno otišli ako ste trebali pronaći nešto, ako ste trebali istražiti temu ili potražiti neke informacije, otišli ste u knjižnicu i, naravno, otišli ste u katalog kartica ili pak ona kretena dama koja je tamo radila. Ali također je bilo zabavno lutati naokolo, ako samo želite pogledati i sigurni da ćete otkriti nešto uredno, možda ćete otkriti neke zanimljive činjenice koje niste znali, ali ako biste zaista trebali nešto pronaći, a znali ste što tražite, potreban vam je katalog kartica, i naravno, protuvrijednost poduzeća je katalog podataka, koji može pomoći da zasvijetli sve podatke kako bi se naši korisnici obogatili, otkrili, dijelili, potrošili i stvarno pomogli ljudi brže i lakše dolaze do podataka.

Dakle, danas imamo Dez Blanchfield-a, našeg znanstvenika s podacima, i imamo doktora Robina Bloor-a, našeg glavnog analitičara, imamo Davida Crawforda iz Alation-a koji će govoriti o priči o katalogizaciji podataka svoje tvrtke, ali prvo idemo s Dezom. Dez, prenosim ti loptu, a pod je tvoj.

Dez Blanchfield: Hvala, hvala što si me danas primio . To je pitanje koje me izuzetno zanima, jer gotovo u svakoj organizaciji na koju nailazim u svom svakodnevnom radu, nalazim potpuno isti problem o kojem smo vrlo kratko govorili u predstečajnoj najavi, a to je to većina organizacija koje posluju više od nekoliko godina ima mnoštvo podataka sahranjenih oko organizacije, različitih formata, a zapravo imam klijente koji imaju skupove podataka koji se vraćaju u Lotus Notes, baze podataka koje i dalje rade u nekim slučajeva kao njihov pseudo internets, i svi se oni susreću s ovim izazovom da zapravo pronađu gdje su njihovi podaci i kako doći do njih, ko im omogućiti pristup, kada im omogućiti pristup i kako samo kataloga i kako ga doći do mjesta gdje svi mogu: A) biti svjestan onoga što postoji i što se nalazi u njemu i B), kako doći do njega i koristiti ga. I jedan od najvećih izazova naravno je pronaći ga, drugi veliki izazov je znati što je unutra i kako mu pristupiti.

Ja možda dobro znam da imam desetke baza podataka, ali zapravo ne znam što je unutra ili kako saznati što je unutra, i tako neizbježno kao što otkrivamo u podacima prije prikazivanja, prošetati uredom i postavljati pitanja, vikati preko kubičnih zidova i pokušati shvatiti, često je moje iskustvo, možda ćete čak i vi lutati do recepcije, recepcije i pitati ako netko zna tko ići ćete razgovarati. Vrlo često to nisu uvijek ljudi iz informatike jer nisu svjesni skupa podataka jer ih je netko upravo stvorio, a mogao bi biti i nešto jednostavno - vrlo često ćemo naći takav projekt koji stoji u IT okruženju i voditelj projekta koristio je proračunsku tablicu svih stvari, a dobio je ogromnu količinu vrijednih informacija oko imovine i konteksta i imena, a ako ne poznajete taj projekt i ne poznajete tu osobu, te podatke jednostavno ne možete pronaći. Jednostavno nije dostupan i morate se domoći te originalne datoteke.

Postoji fraza koja je naokolo prekrivena s obzirom na podatke i s tim se ne nužno slažem, ali mislim da je to slatko malo odbacivanje i to je da određena količina ljudi misli da su podaci novo ulje, a ja sigurno ćemo to pokriti i u nekom aspektu, kasnije danas. Ali ono što sam primijetio, sigurno sudjelujući u toj transformaciji, je da su organizacije poduzeća koje su naučile cijeniti svoje podatke dobile značajnu prednost u odnosu na svoje konkurente.

Prije nekih pet ili šest godina IBM je objavio zanimljiv članak, a oni su istražili oko 4.000 tvrtki ovdje u Australiji i uzeli su sve podatke, sve podatke o učinku, sve podatke o financijama i stavili ih u kipuću posudu, a zatim poslali su je Australijskoj ekonomskoj školi i oni su zapravo započeli zajednički trend ovdje, a to je da su tvrtke koje su utjecale na tehnologiju uvijek dobile takvu konkurentsku prednost u odnosu na svoje vršnjake i konkurente kao takve da ih njihovi konkurenti gotovo nikada ne uhvate u korak, a mislim da to je vrlo slučaj sada s podacima da smo vidjeli kako ljudi zovu digitalnu transformaciju u kojoj organizacije koje su jasno smislile kako pronaći podatke koje posjeduju, učiniti te podatke dostupnim i učiniti ih dostupnim u vrlo jednostavnom potrošnom materijalu modu na organizaciju, bez nužnog znanja zašto joj organizacija može trebati, i stjecanje značajne prednosti nad konkurentima.

Imam nekoliko primjera na ovom dijapozitivu, koji možete vidjeti. Moje mišljenje je da po mojem mišljenju veliki poremećaji u gotovo svim industrijskim sektorima polaze od podataka, i ako postoje bilo kakvi trendovi, mislim da smo samo stvarno postigli započeto jer kada se dugogodišnji brendovi konačno probude što to znači i uđu u igru, oni će ući u igru ​​na veliko. Kad neki od glavnih trgovaca koji imaju plan podataka započnu primjenjivati ​​neku povijesnu analizu podataka, ako čak i znaju da postoje, tada će neki online igrači dobiti malo budnog poziva.

Ali s mnogim od većine ovih marki, mislim da imamo Ubera koji je najveća taksi kompanija na svijetu. Nemaju taksi vozila, pa što je to što ih čini čarobnima, koji su njihovi podaci? Airbnb, najveći pružatelj smještaja, imamo WeChat, najveću telefonsku kompaniju na svijetu, ali oni nemaju stvarnu infrastrukturu, uređaje i telefonske linije. Alibaba, najveći trgovac na svijetu, ali ne posjeduju nijedan inventar. Facebook, najveća medijska kompanija u riječi. Mislim da su po posljednjem prebrojavanju sada imali 1, 4 milijarde aktivnih korisnika podataka, što je nevjerojatan broj. To nije nigdje u blizini - mislim da je netko tvrdio da je četvrtina planete zapravo tamo svaki dan, a evo davatelj sadržaja koji zapravo ne stvara sadržaj, svi podaci koje poslužuju nisu stvorili oni, već su stvoreni od njihovih pretplatnika, a svi znamo ovaj model.

DruštvoOne, za koje ste svibanj ili niste čuli, to je lokalni brend, mislim da u nekoliko zemalja to je banka koja zapravo obavlja ravnopravno kreditiranje, dakle drugim riječima, nema novca. Sve što radi jest da upravlja transakcijama, a podaci stoje ispod njih. Netflix, svi smo jako, vrlo dobro upoznati s tim. Ovdje postoji zanimljiv jedan brod. Kad je Netflix legalno mogao biti korišten u Australiji, kada je službeno objavljen, za pristup njemu niste morali koristiti VPN, mnogi ljudi širom svijeta imaju tendenciju - ako ne možete doći do njega u vašem lokalnom području - kada je Netfix predstavljen u Australiji, povećao je međunarodnu propusnost na našim internetskim vezama za 40 posto, tako da je gotovo udvostručio upotrebu interneta u Australiji preko noći, i to samo jednom aplikacijom, jednom oblakom hostiranom aplikacijom koja ne radi samo osim podataka. To je samo neumoljiva statistika.

I naravno, svi smo upoznati s Appleom i Googleom, ali ovo su najveće softverske tvrtke na planeti, ali oni zapravo ne pišu aplikacije. Što je u skladu sa svim tim organizacijama? Pa, to su podaci, a oni nisu stigli jer nisu znali gdje su njihovi podaci i nisu znali katalogizirati.

Ono što sada pronalazimo jest da postoji čitava ova nova kategorija imovine koja se naziva podacima, a tvrtke se probude iz nje. Ali oni nemaju uvijek alate i know-how i zbog čega preslikati sve te podatke, katalogizirati sve te podatke i učiniti ih dostupnima, ali otkrili smo da tvrtke s gotovo nikakvom fizičkom imovinom dobivaju visoku tržišnu vrijednost u vrijeme snimanja putem ove nove klase podatkovnih podataka. Kao što rekoh, neki od starih igrača sada se budi zbog ovoga i sigurno to izvode.

Veliki sam obožavatelj voditi ljude na malo putovanje, tako da se u osamnaest stotina, kasnih osamnaest stotina, a vi ćete biti više nego upoznati s tim na američkom tržištu, ispostavilo da je to sprovesti popis stanovništva svake godine ili tako nekako, mislim da su ih tada radili svakih deset godina, ali ako ćete svake godine provoditi popis stanovništva, moglo bi vam trebati i do osam ili devet godina da zapravo napravite analizu podataka. Pokazalo se da je taj skup podataka ostao u kutijama na mjestima u papiru, a gotovo niko ga nije mogao pronaći. Samo su pumpali ove izvještaje, ali do stvarnih podataka je bilo teško doći, imamo sličnu situaciju s drugim svjetskim značajnim trenutkom, oko 40-tih, s Drugim svjetskim ratom, a ovo je stvar u Bletchley Park Bombeu napisanom BOMBE, a to je bio masivan analitički alat za drobljenje broja koji bi prolazio kroz male skupove podataka i pronalazio signale u njemu te se koristio za pomoć u probijanju kodova kroz Enigmu.

Ovo je opet stvar u biti dizajniran uređaj, ne mnogo za katalogiziranje, već za označavanje i preslikavanje podataka, te omogućuje uzimanje uzoraka i pronalazak unutar skupova podataka, u ovom slučaju probijanje kodova, pronalazak ključeva i izraza i pronalaženje redovno ih nalazimo u skupima podataka. Tako smo prošli na ovom putu pronalaženja podataka i vodeći ka katalogiziranju podataka.

A onda su se pojavile te velike masovne niske cijene strojeva, samo strojevi bez stalnih polica. Napravili smo vrlo zanimljive stvari, a jedna od stvari koju smo napravili s njima je da smo izgradili grozdove s niskim troškovima koji bi mogli započeti indeksiranje planeta, i vrlo su poznati ovi veliki brendovi koji su dolazili i odlazili, ali Google je najčešći dom marka za koju smo svi čuli - postala je stvarni glagol, a znate da ste uspješni kada vaš brend postane glagol. No ono što nas je Google naučio, a da toga nisu shvatili, možda ni u poslovnom svijetu, nije uspjelo indeksirati cijeli planet do određenog nivoa i katalogizirati podatke koji su bili širom svijeta te ih učiniti dostupnim na vrlo jednostavan način, prikladan obrazac u maloj jednorednoj formuli, web-stranici s gotovo ničim na sebi, a vi upišete svoj upit, ide i nalazi jer su već prelistali planet, indeksirali ga i učinili lako dostupnim.

I ono što smo primijetili je: "Pa, stani, ne radimo to u organizacijama - zašto je to tako? Zašto imamo organizaciju koja može preslikati cijeli planet i indeksirati ga, pretraživati ​​i indeksirati, i učiniti ga dostupnim, možemo ga pretraživati, a zatim kliknemo stvar da bismo je pronašli i kako doći Nisu to učinili interno? "Dakle, danas postoji puno ovih malih stalka strojeva širom svijeta koji rade to za intranete i pronalaze stvari, ali još uvijek se samo uklapaju u ideju da nadiđu tradicionalni web stranicu ili poslužitelju datoteka.

Umjesto da sada uđemo u ovu sljedeću generaciju kataloga podataka na mnogo načina, otkrivanje pristupa podacima putem post-it bilješki i razgovora hladnjakom vode zapravo više nije prikladna metoda za otkrivanje i katalogiziranje podataka, a u stvari, mislim da to nikada nije bilo stvarno je bilo. Ne možemo više voditi cijeli taj izazov ljudima samo prenošenjem bilješki, objavljivanjem bilješki i čavrljanjem o njima. Sada smo i izvan tog područja gdje je došao i nestao ovaj pristup sljedećeg roda katalogiziranju podataka. Moramo ga zagrliti. Da je ovo bio jednostavan problem, već smo ga riješili na mnogo načina ranije, ali mislim da to nije lako pitanje, samo indeksiranje i pozivanje podataka samo je jedan dio toga, znajući što se nalazi u podacima i izgradnja metapodataka oko onoga što otkrijemo, a zatim stavljanje na raspolaganje u jednostavnom, potrošnom obliku, posebno za samoposluživanje i analitiku. Problem se još uvijek rješava, ali mnogi dijelovi slagalice u pet godina dobro su i istinski riješeni i dostupni.

Kao što znamo, ljudi koji katalogiziraju podatke recept su za neuspjeh, jer je ljudska greška jedna od najvećih noćnih mora s kojom se bavimo u obradi podataka, a redovito govorim o ovoj temi gdje je po mom mišljenju ljudi koji ispunjavaju papirnate obrasce vjerojatno najveća noćna mora bavimo se velikim podacima i analitikom, tako da stalno moramo popravljati ono što čine, čak i do jednostavnih stvari poput datuma i polja, a ljudi ih stavljaju u pogrešan format.

Ali kao što sam rekao, vidjeli smo da internetske tražilice svakodnevno indeksiraju svijet, pa sada dovodimo do ideje da se to može učiniti na skupima poslovnih podataka u procesu otkrivanja, a alati i sustavi sada su lako dostupni kao što ćete danas naučiti. Dakle, trik je, prema mom mišljenju, odabir pravih alata, najboljih alata za posao. I prikladnije povrh svega, pronalaženje pravog dijela koji će vam pomoći da krenete ovim putem. I vjerujem da ćemo danas čuti o tome, ali prije nego što to učinimo, preći ću na moj fakultet, Robin Bloor i čuti njegov stav o toj temi. Robin, mogu li vam prenijeti?

Robin Bloor: Da, svakako možeš. Da vidimo da li to radi, o da, da li to radi. Dobro, dolazim iz drugog smjera nego stvarno Dez, ali završit ću na istom mjestu. Ovdje se radi o povezivanju s podacima, pa sam samo pomislio da ću proći kroz stvarnost povezivanja podataka, stvarno po točku.

Postoji činjenica da su podaci fragmentirani nego ikada prije. Količina podataka raste fenomenalno, ali u stvari različiti izvori podataka također nevjerojatno rastu, pa stoga podaci postaju sve više fragmentirani. Ali zbog analitičkih aplikacija, posebno - ali to nisu jedine aplikacije - imamo stvarno dobar razlog za povezivanje sa svim tim podacima, pa smo zaglavili na teškom mjestu, zaglavili smo u svijetu fragmentiranih podataka, a u podacima postoji prilika kako ga je Dez zvao, novo ulje.

Što se tiče podataka, nekad je živjelo na vrti disk, bilo u datotečnim sustavima ili bazama podataka. Sada živi u mnogo raznovrsnijem okruženju, živi u datotečnim sustavima, ali danas živi i u slučajevima Hadoop, ili čak Spark slučajevima. Živi u više vrsta baze podataka. Ne tako davno, standardizirali smo neku relacijsku bazu podataka, pa znate da je to prošlo kroz prozor u posljednjih pet godina, jer postoji potreba za bazama podataka, a postoji i potreba za bazama podataka s grafikonima, tako da znate, igra ima promijenila. Tako je živio na vrti disku, ali sada živi i na SSD-u. Najnovija količina SSD-a - definitivno najnovija SSD jedinica izlazi iz Samsunga - dvadeset gigabajta, što je ogromno. Sada živi u memoriji, u smislu da glavna kopija podataka može biti u memoriji, a ne na disku, mi nismo koristili takve sustave; mi to sada radimo. I živi u oblaku. Što znači da može živjeti u bilo kojoj od ovih stvari, u oblaku, nećete nužno znati gdje je u oblaku, imat ćete samo njegovu adresu.

Samo da bi se utvrdio problem, Hadoop do sada nije uspio kao proširiva baza podataka. Nadali smo se da će to postati proširiva mapa podataka s ljestvicama, a to će jednostavno postati jedan datotečni sustav za sve, i to bi bilo - u osnovi će se nebo pojaviti na nebu, a jednorog će plesati naokolo, a ništa od toga se nije dogodilo. Što znači da se suočavamo s problemom prijevoza podataka, a ponekad nije potreban transport podataka, ali je i poteškoća. Podaci danas stvarno imaju gravitaciju, nakon što ste ušli u više terabajt podataka, pokupili ih i bacili na neku vrstu uzroka, latencije se pojavljuju na vašoj mreži ili se pojavljuju na raznim mjestima. Ako želite prevoziti podatke okolo, vrijeme je važan. Danas gotovo uvijek postoje ograničenja u tome koliko vremena imate da biste dobili jednu stvar, jedan podatak iz jednog mjesta na drugo. Nekada je postojalo ono što smo mislili kao batch prozore, kad je stroj mirisao, i bez obzira koliko podataka imali, jednostavno biste ga mogli baciti okolo i sve bi uspjelo. Pa to je nestalo, živimo u mnogo više stvarnom svijetu. Stoga je tajming faktor. Čim želite premjestiti podatke, pa ako podaci imaju gravitaciju, vjerojatno ih ne možete premjestiti.

Upravljanje podacima je faktor u smislu da vi zapravo morate upravljati svim tim podacima, ne dobijate ih besplatno, a umnožavanje će možda biti potrebno kako bi se podaci doista mogli obaviti s onim što treba obaviti, jer možda ga nema gdje god ste stavili. Možda nema dovoljno resursa za normalnu obradu podataka. Tako se podaci repliciraju, a podaci se repliciraju više nego što biste zamislili. Mislim da mi je netko davno rekao da se prosječan podatak replicira najmanje dva i pol puta. ESB-ovi ili Kafka predstavljaju opciju za protok podataka, no to danas zahtijeva arhitekturu. U današnje vrijeme doista trebate razmišljati na ovaj ili onaj način, o tome što zapravo znači bacati podatke. Prema tome, obično je poželjno pristupiti podacima gdje ih ima, sve dok, naravno, možete postići performanse koje su vam potrebne kada zapravo tražite podatke, a to ovisi o kontekstu. Dakle, svejedno je teška situacija. U pogledu podataka o upitima, nekada smo mogli razmišljati u smislu SQL-a, stvarno smo došli do sada, znate, različitih oblika upita, SQL da, ali susjedni, također graf upiti, Spark je samo jedan primjer radeći graf, jer također trebamo pretraživati ​​tekst, više nego ikad prije, također vršiti ponovnu izradu vrsta pretraživanja, što je doista komplicirano traženje obrazaca, i istinsko podudaranje uzoraka, sve su to stvari uzavrele. I svi su oni korisni jer dobivaju ono što tražite, ili vam mogu pružiti ono što tražite.

Upiti sada pokrivaju više podataka, tako da to nije uvijek radilo, a često je i izvedba užasna ako to učinite. Dakle, to ovisi o okolnostima, ali ljudi očekuju da će moći postavljati podatke iz više izvora podataka, tako da je federacija podataka jedne ili druge vrste sve aktuelnija. Vrlo je česta i virtualizacija podataka, što je različit način rada, ovisno o izvedbi. Upiti podataka su zapravo dio nekog procesa, a ne cijeli proces. Vrijedi naglasiti da ako stvarno gledate performanse analitike, stvarna analitika može potrajati puno duže od prikupljanja podataka, jer to ovisi o okolnostima, ali upiti podataka su apsolutna nužnost ako želite učiniti bilo koje vrsta analitike na više izvora podataka, i zapravo, stvarno morate imati mogućnosti koje obuhvaćaju.

Pa o katalozima. Katalozi postoje s razlogom, barem mi kažemo da, znate, to je, imamo direktorijume, i imamo sheme u bazama podataka, i svaki katalog imamo, a gdje god idete, naći ćete jedno mjesto i zapravo ćete otkrijte da postoji neka vrsta kataloga, a unificirani globalni katalog je tako očigledno dobra ideja. Ali vrlo malo tvrtki ima tako nešto. Sjećam se da smo u godini od dvije tisuće - pane dvije tisuće panika - sjećam se da komunisti nisu mogli ni odrediti koliko izvršnih datoteka imaju, bez obzira na to koliko različitih skladišta podataka su imali, a vjerojatno je to sada slučaj, znate, da većina tvrtki ne poznaje aktivno u globalnom smislu, koje podatke ima. Ali očito postaje sve potrebnije imati globalni katalog ili barem globalnu sliku onoga što se događa zbog rasta izvora podataka i stalnog rasta aplikacija, a što je posebno potrebno za analitiku, jer također na jedan način, a tu su i druga pitanja poput loze i problema s podacima, a potrebno je zbog sigurnosti, mnogih aspekata upravljanja podacima, ako zaista ne znate koje podatke imate, ideja da ćete vi upravljati to je samo apsurdno. Dakle, u tome su svi podaci na neki način katalogizirani samo činjenica. Pitanje je je li katalog koherentan i što zapravo možete učiniti s njim. Pa ću se vratiti u Rebeccu.

Rebecca Jozwiak: U redu, hvala Robin. Slijedeće je David Crawford iz Alationa, David. Ja ću ići naprijed i predati vam loptu, a vi je možete odnijeti.

David Crawford: Puno vam hvala. Zaista vas cijenim što ste imali ovaj nastup. Mislim da ću započeti s tim, tako da mislim da je moja uloga ovdje da uzmem dio te teorije i vidim kako se ona zapravo primjenjuje te rezultate koje možemo voziti kod stvarnih kupaca i tako da možete vidjeti nekoliko na dijapozitivu, želim razgovarati o tome koje ćemo rezultate moći vidjeti u analitičkim eventualnim poboljšanjima. Tako da motiviramo za raspravu, razgovarat ćemo o tome kako su tamo stigli. Tako da imam sreću što pomalo usko surađujem s puno stvarno pametnih ljudi, ovih kupaca, i želim samo istaknuti nekoliko onih koji su uspjeli stvarno izmjeriti i razgovarati o tome kako je utjecaj kataloga podataka utjecao na njihovog analitičara tijek rada. I samo da nakratko ostanem na čelu, mislim da je jedna od stvari koje vidimo promjene, a stihovi u katalozima podataka, prethodna posredovana rješenja i jedan od načina na koji odnosi stvarno razmišljaju o rješenjima koja sastavljamo, polazi od analitičara i raditi unatrag. Recimo, napravimo to na omogućavanju produktivnosti analitičara. Za razliku od pravedne usklađenosti ili za razliku od posjedovanja zaliha, mi radimo alat koji analitičare čini produktivnijim.

Kada razgovaram s znanstvenikom podataka iz tvrtke za financijske usluge Square, tamo je čovjek, Nick, koji nam je govorio o tome kako je njegovo, trebalo mu je nekoliko sati da pronađe pravi skup podataka za pokretanje izvještaja, a sada može učinite to u nekoliko sekundi koristeći pretragu tržišnog udjela, razgovarali smo s njihovim CTO-om koji je povukao njegove analitičare koji su koristili Square, oprostite, koristio je Alation, kako bi saznali koje su njihove, koje koristi vidjeli i prijavili 50 povećanje produktivnosti i da, eBay, jedan od najboljih svjetskih trgovaca na malo, ima preko tisuću ljudi koji redovno rade SQL analizu, a ja prilično usko radim s Deb Saysom, tko je projekt u svom timu alata za podatke, i otkrila je da kad keriri usvoje Alation, usvoje katalog, primjećuju dvostruku brzinu pisanja novih upita u bazu podataka.

To su stvarni rezultati, to su ljudi koji katalog zapravo primjenjuju u svojoj organizaciji, i želim vas provesti kroz ono što je potrebno da biste se postavili. Kako se katalog uspostavlja u tvrtki i možda je najvažnije reći je da se puno toga dogodi automatski, pa je Dez razgovarao o sustavima, učio o sustavima i upravo to čini moderni katalog podataka. Stoga instaliraju Alation u svoj podatkovni centar, a zatim ga povezuju s različitim izvorima metapodataka u svom podatkovnom okruženju. Malo ću se usredotočiti na baze podataka i BI alate - iz oba ćemo izdvojiti tehničke metapodatke, u osnovi o onome što postoji. Pa, pa koji stolovi? Kakvi izvještaji? Koje su definicije izvješća? Tako oni izdvoje te tehničke metapodate i automatski se stvori stranica kataloga za svaki objekt unutar tih sustava, a zatim oni izvade i sloj povrh tih tehničkih metapodataka, oni sloj nad podacima o upotrebi. To se prije svega događa čitanjem evidencija upita iz baze podataka, a ovo je stvarno zanimljiv izvor informacija. Dakle, kad god analitičar napiše upit, kad god alat za izvješćivanje, bilo da se uzgaja kod kuće, ili van police, da li izvještajni alat pokreće upit radi ažuriranja nadzorne ploče, kada aplikacija pokrene upit za umetanje podataka za rad skup podataka - sve se to stvari bilježe u zapisima upita baze podataka. Bez obzira na to imate li katalog ili ne, oni se bilježe u dnevnik upita s bazom podataka. Što katalog podataka može učiniti, a posebno ono što Alation-ov katalog može učiniti, je pročitati te zapise, postaviti upite unutar njih i stvoriti stvarno zanimljiv grafikon upotrebe na temelju tih zapisnika, a mi to uvodimo u igru ​​kako bismo informirali buduće korisnike podataka o tome kako su ih prošli korisnici podataka upotrebljavali.

Dakle, sve to znanje objedinimo u katalog, i samo da bismo to ostvarili, ovo su integracije koje su već implementirane kod kupaca, tako da smo vidjeli Oracle, Teradata, Redshift, Vertica i gomilu drugih relacijske baze podataka. U svijetu Hadoop postoji niz SQL-a na Hadoop-u, vrsta relacijskih, meta trgovina na vrhu datotečnog sustava Hadoop, Impala, Tez, Presto i Hive, a vidjeli smo i uspjeh s cloud Hadoop privatnim dobavljačima poput Altiscale-a, a mi također su se mogli povezati s Tableau serverima, MicroStrategy poslužiteljima i indeksirati nadzorne ploče tamo, kao i integracije s alatima za grafički prikaz podataka o znanosti kao što su Plotly.

Dakle, povezujemo se sa svim tim sustavima, povezali smo te sustave sa kupcima, uvukli smo tehničke metapodate, uvukli podatke o upotrebi i nekako automatski prepravili katalog podataka, ali na taj način centralizirajte znanje, ali samo centraliziranje stvari u katalogu podataka ne pruža samo po sebi stvarno predivan porast produktivnosti o kojem smo razgovarali s eBayom, Trgom i udjelom na tržištu. Da bismo to postigli, zapravo moramo promijeniti način na koji razmišljamo o predaji znanja analitičarima. Jedno od pitanja koje postavljaju da se pripreme za to bilo je "Kako katalog zapravo utječe na tijek rada analitičara?"

To je ono o čemu provodimo čitav dan razmišljajući, a kako bismo razgovarali o ovoj promjeni u razmišljanju, o push stihovima "pull modelu", želio sam napraviti kratku analogiju s onim kakav je svijet prije i nakon čitanja na Kindle. Dakle, to je samo iskustvo koje možda neki od vas imaju, dok čitate fizičku knjigu, naiđete na riječ, niste sigurni da znate definiciju te riječi vrlo dobro, možete to pogoditi iz konteksta, a ne vjerovatno da ćete ustati će se s kauča, odšetati do police s knjigama, pronaći svoj rječnik, isprazniti ga i prebaciti na pravo mjesto na abecednom popisu riječi da biste bili sigurni da, da, imali ste tačno definiciju, i znate nijanse toga. Dakle, to se zapravo ne događa. Dakle, kupite aplikaciju Kindle i tamo počnete čitati knjige i ugledate riječ u koju niste posve sigurni i dodirnete tu riječ. Odjednom, tačno na istom zaslonu, je definicija riječi u rječniku, sa svim njenim nijansama, različitim primjerima korištenja, a vi malo prelazite prstom i dobijete članak iz Wikipedije o toj temi, dobivate alat za prijevod koji ga možete prevesti na druge jezike ili s drugih jezika, a odjednom vam je znanje jezika toliko bogatije, i događa se zadivljujuće više puta, u odnosu na vrijeme kad ste morali ići i povuci taj resurs za sebe.

I tako, ono što ću tvrditi je da je tijek rada za analitičara i način na koji će analitičar postupati s dokumentacijom podataka zapravo vrlo sličan načinu na koji će čitač komunicirati sa rječnikom, bilo fizičkim, bilo iako Kindle, i tako ono što mi, način na koji smo stvarno vidjeli ovo povećanje produktivnosti, nije prosipanje kataloga, već ga povezivanje s tijekom rada analitičara, i tako, oni su me zamolili da napravim demonstraciju ovdje, a ja želim da bi to bio fokus ovog izlaganja. Ali samo želim postaviti kontekst za demo. Kad razmišljamo o poticanju znanja o podacima na korisnike kada im zatrebaju, mislimo da je pravo mjesto za to, mjesto gdje provode svoje vrijeme i gdje rade analize, alat SQL upita. Mjesto na kojem pišete i pokrećete SQL upite. Tako smo jedan napravili i napravili ga, a ono što se u njemu zaista razlikuje od ostalih alata za upite je njegova duboka integracija s katalogom podataka.

Dakle, naš alat za upit zove se Alation Compose. To je web-alat za upite i pokazat ću vam ga u sekundi. Web-alat za postavljanje upita koji djeluje na sve one logotipe baze podataka koje ste vidjeli na prethodnom slajdu. Ono što ću posebno pokušati pokazati je način na koji informacije iz kataloga dolaze do korisnika. I to čini na tri različita načina. To čini kroz intervencije i tu netko može upravljati podacima ili upravljač podacima ili na neki način administrator ili upravitelj reći: "Želim nekako intervenirati s bilješkom ili upozorenjem u tijek rada i pobrinite se da bude dostavljen korisnicima u pravo vrijeme. "Dakle, to je intervencija i to ćemo pokazati.

Pametni prijedlozi način je na kojem alat koristi svo svoje zbirno znanje iz kataloga da bi predložio predmete i dijelove upita dok ga pišete. Najvažnije što tamo treba znati je da doista koristi zapisnik upita kako bi to učinio, predložio stvari na temelju upotrebe i pronašao čak dijelove upisa koji su prethodno napisani. I to ćemo pokazati.

A zatim pregledi. Pregledi su dok unosite naziv predmeta, pokazat ćemo vam sve što katalog zna ili barem najrelevantnije stvari koje katalog zna o tom objektu. Dakle, uzorci podataka, koji su ih prije upotrebljavali, logično ime i opis tog objekta, dolaze vam sve dok ih pišete, a da ih ne morate tražiti.

Dakle, bez ikakvog više razgovora, doći ću do demonstracije, i samo ću čekati da se pojavi. Ono što ću vam ovdje pokazati je alat za upite. To je namjensko SQL sučelje za pisanje. To je u određenom smislu odvojeno sučelje od kataloga. Dez i Robin razgovarali su o katalogu, a ja malo skačem po kataloškom sučelju ravno na to kako je izravno doveden u službu tijeka rada.

Ovdje samo prikazujem mjesto na kojem mogu upisati SQL, a na dnu ćete vidjeti kako se pojavljuju neke informacije o objektima koje spominjemo. Dakle, tek ću početi tipkati upit i prestat ću kad dođem do jedne od tih intervencija. Stoga ću upisati "select", i želim godinu. Želim ime. Idem potražiti neke podatke o plaćama. Dakle, ovo je skup podataka o obrazovanju. Ima podatke o visokoškolskim ustanovama, a ja gledam prosječnu fakultetsku plaću koja se nalazi u jednoj od tih tablica.

Dakle, zapravo sam upisao riječ "plaća". To nije baš u ime stupca. Za prijedloge koristimo i logičke i metapodatke. Ono što želim ovdje istaknuti je ova žuta kutija koja se pojavljuje ovdje. Piše da na ovom stupcu postoji upozorenje. Nisam to tražio, nisam pohađao tečaj o tome kako pravilno koristiti te podatke. Došlo mi je i događa se upozorenje o ugovoru o povjerljivosti koji ima veze s tim podacima. Dakle, postoje neka pravila objavljivanja. Ako ću ispitivati ​​ove podatke, izvadit ću podatke iz ove tablice, trebao bih biti oprezan kako ću ih otkriti. Dakle, ovdje imate politiku upravljanja. Postoje određeni izazovi u vezi s usklađivanjem zbog kojih je toliko lakše uskladiti se s tim pravilima kada za to vrijeme znam podatke.

Dakle, to sam shvatio, a onda ću također pogledati školarinu. I ovdje vidimo kako se pregledi prikazuju. Na ovom stupcu poduke vidim - na stolu s institucijama postoji stupac poduke i vidim profil toga. Alation ide i izvlači uzorke podataka iz tablica, a u ovom slučaju pokazuje mi nešto što je prilično zanimljivo. Prikazuje mi raspodjelu vrijednosti i pokazuje mi da se nula vrijednost pokazala u uzorku 45 puta i više nego bilo koja druga vrijednost. Tako da imam neki osjećaj da nam možda nedostaju neki podaci.

Ako sam napredni analitičar, to će možda već biti dio mog tijeka rada. Pogotovo ako sam osobito pažljiv, gdje bih učinio hrpu upita za profiliranje prije vremena. Kad god se približavam novom podatku, uvijek razmišljam o tome što je naša pokrivenost podacima. Ali ako sam novi u analizi podataka, ako sam novi u ovom skupu podataka, pretpostavit ću da, ako postoji stupac, on je popunjen cijelo vrijeme. Ili mogu pretpostaviti da ako nije popunjen, nije nula, nijedan ili nešto slično. Ali u ovom slučaju imamo puno nula i ako bih napravio prosjek vjerojatno bi bili u krivu, ako sam samo pretpostavio da su te nule zapravo nula umjesto da nedostaju podaci.

Ali Alation, uvođenjem ovog pregleda u svoj tijek rada, od vas traži da pogledate ove podatke i čak pruži priliku početnicima-analitičarima da vide da ovdje ima nešto za primijetiti. Dakle, imamo taj pregled.

Sljedeće što ću učiniti jest pokušati saznati iz kojih tablica dobivam ove informacije. Dakle, ovdje vidimo pametne prijedloge. Ide stalno, ali posebno ovdje nisam još ništa napisao, ali predložit će mi koje tablice možda želim koristiti za ovaj upit. I najvažnije što treba znati o tome je da koristi prednosti statistike uporabe. Dakle, u okruženju poput, na primjer, eBay-a, u kojem imate stotine tisuća tablica u jednoj bazi podataka, posjedovanje alata koji može nekako pogoditi pšenicu iz panjeva i korištenje tih statistika upotrebe zaista je važno za izradu ovih prijedlozi nešto vrijede.

Dakle, predložit ćemo ovu tablicu. Kad pogledam pregled, mi zapravo ističemo tri stupca koja sam već spomenuo u upitu. Dakle znam da ima tri, ali nema ime. Moram steći ime, pa ću se pridružiti. Kada se pridružim, sada imam ove preglednike koji će mi pomoći da pronađem gdje je tablica s nazivom. Tako vidim da ovaj ima lijepo oblikovano, vrsta pravilno napisanih velikih slova. Čini se da ima jedan red s nazivom za svaku instituciju, tako da ću to shvatiti, a sad mi treba uvjet za pridruživanje.

I eto, ovo što Alation radi je ponovno gledanje u zapise upita, vidjevši prethodna vremena da su se te dvije tablice spojile, i predlaže različite načine pridruživanja. Još jednom, tu je neka intervencija. Ako pogledam jedan od ovih, dobio sam upozorenje koje mi pokazuje da se to treba koristiti samo za skupnu analizu. To će vjerojatno proizvesti pogrešnu stvar ako pokušavate nešto učiniti kroz ustanovu po instituciji. Dok je ovaj, uz OPE ID označen je kao pravi način spajanja ove dvije tablice ako želite podatke na sveučilišnoj razini. Dakle, to radim i to je kratak upit, ali upisao sam svoj upit bez da stvarno moram imati uvid u to koji su podaci. Nikada zapravo nisam pogledao ER dijagram tog skupa podataka, ali već dosta znam o tim podacima jer mi dolaze relevantni podaci.

Dakle, to su neka od tri načina na koja katalog može, putem integriranog alata za upite, izravno utjecati na tijek rada dok pišete upite. Ali jedna od drugih prednosti toga što je alat za upite integriran s katalogom jest taj što, kad završim svoj upit i spremim ga, mogu staviti naslov poput „Nastava u institucijama i na fakultetskoj plaći“, a ovdje imam gumb koji će omogućuje mi da ga samo objavim u katalogu. Postaje mi vrlo lako nahraniti ovu leđa. Čak i ako ga ne objavim, snima se kao dio dnevnika upita, ali kad ga objavim, zapravo postaje dio načina na koji je centralizirano mjesto u kojem živi sve znanje podataka.

Ako kliknem na Pretraživanje svih upita u Alaciji, preuzet ću se - a ovdje ćete vidjeti još nekoliko kataloškog sučelja - preusmjerit ću se na namjensku pretragu upita koja mi pokazuje način pronalaska upita u svim cijela organizacija. I vidite da je moj novoobjavljeni upit na vrhu. I neki će ovdje primijetiti da, kad hvatamo upite, također hvatamo autore, i nekako uspostavljamo ovaj odnos između mene kao autora i tih objekata podataka o kojima sada nešto znam. Utvrđen sam kao stručnjak za ovaj upit i za te podatke. To je zaista korisno kada ljudi trebaju ići naučiti podatke, a zatim mogu pronaći pravu osobu o kojoj će učiti. A ako sam zapravo novi u podacima, da li sam napredni analitičar - kao napredni analitičar, mogu pogledati ovo i vidjeti hrpu primjera koji će me pokrenuti na novom skupu podataka. Kao osoba koja se možda ne osjeća super pametnom u SQL-u, mogu pronaći unaprijed postavljena upita koja su izvješća koja mogu iskoristiti.

Evo jednog Phil Mazanetta o srednjim SAT rezultatima. Kliknite na ovo i ja dobivam neku vrstu kataloške stranice za sam upit. Govori o napisanom članku koji upućuje na ovaj upit, tako da postoji neka dokumentacija koju moram pročitati želim li naučiti kako ga koristiti. A mogu ga otvoriti u alatu za upis klikom na tipku Nova poruka i mogu ga ovdje samo pokrenuti bez uređivanja. Zapravo, morate vidjeti malo naših laganih mogućnosti izvještavanja, gdje, kada pišete upit, možete upasti u varijablu predloška poput ove i stvara jednostavan način za stvaranje obrasca za izvršavanje upita na temelju na par parametara.

To je ono što imam za demo. Vratit ću se na slajdove. Samo da bismo zaključili, pokazali smo kako administrator, upravitelj podataka, može intervenirati stavljajući upozorenja na objekte koji se prikazuju u alatu za upite, kako Alation koristi svoje znanje o korištenju podataka podataka za pametne prijedloge, kako to donosi u profiliranju i drugim savjetima za poboljšanje tijekova rada analitičara kad dodiruju određene predmete i kako se sve te vrste vraća u katalog kada se upisuju novi upiti.

Očito sam glasnogovornik u ime tvrtke. Reći ću lijepe stvari o katalozima podataka. Ako želite čuti izravno od jednog od naših kupaca, Kristie Allen iz Safewaya vodi tim analitičara i ima stvarno zgodnu priču o vremenu kad joj je trebalo stvarno potući sat kako bi se isporučio marketinški eksperiment i kako je cijela tim je koristio Alation da surađuje i vrlo brzo se okrene na tom projektu. Dakle, možete pratiti ovu bit.ly vezu kako biste provjerili tu priču ili ako želite čuti malo o tome kako bi Alation mogao unijeti katalog podataka u vašu organizaciju, rado ćemo postaviti personalizirani demo. Hvala puno.

Rebecca Jozwiak: Puno hvala, David. Siguran sam da Dez i Robin imaju nekoliko pitanja prije nego što se obratim publici Pitanja i odgovori. Dez, hoćeš li prvo ići?

Dez Blanchfield: Apsolutno. Volim ideju o ovom konceptu objavljenih upita i povezujući ga s izvornikom stvaranja. Bio sam dugogodišnji prvak ove ideje internog prodavaonica aplikacija i mislim da je to zaista sjajan temelj na kojem se treba graditi.

Došao sam nekako kako bih stekao uvid u neke organizacije koje vidite da to rade, i neke priče o uspjehu koje su mogle imati tijekom cijelog putovanja ne samo da koriste vaš alat i platformu za otkrivanje podataka, već također transformirati svoje unutarnje kulturne i ponašanja u ponašanju. Sad imaju ovakvu internu trgovinu aplikacija koju jednostavno preuzmete, koncept u kojem ne mogu samo da je pronađu, već zapravo mogu započeti s razvijanjem malih zajednica s vlasnicima tog znanja.

David Crawford: Da, mislim da smo se iznenadili. Vjerujemo u vrijednost dijeljenja upita, kako iz moje prošlosti kao voditelja proizvoda u Adtechu, tako i od svih kupaca s kojima smo razgovarali, ali i dalje sam iznenađen koliko je često to jedna od prvih stvari koje kupci razgovaraju o vrijednosti koju dobivaju iz Alate.

Obavljao sam neko testiranje korisničkog alata za upite kod jednog od naših kupaca zvanog Invoice2go, i imali su relativno novog menadžera proizvoda, a oni su rekli - zapravo mi je rekao, neobuzdan tijekom korisničkog ispitivanja: "Zapravo ne bih uopće pisati SQL, osim što ga Alation olakšava. "I naravno, kao premijer, nekako sam rekao:" Kako to misliš, kako smo to učinili? ", a on je rekao, " Pa, stvarno je jednostavno jer se mogu prijaviti i mogu vidjeti sve te postojeće upite. "Pokretanje s praznom pločom sa SQL-om nevjerojatno je teško učiniti, ali modificirati postojeći upit na kojem možete vidjeti ispisani rezultat i možete reći, "Oh, samo mi treba ovaj dodatni stupac", ili, "Moram ga filtrirati prema određenom rasponu datuma", to je mnogo lakše učiniti.

Vidjeli smo vrste ovih pomoćnih uloga, poput menadžera proizvoda, možda ljudi u prodajnim mjestima, koji se počinju baviti i koji su uvijek željeli naučiti SQL i započeti ga podizati koristeći ovaj katalog. Vidjeli smo i da je puno tvrtki pokušalo napraviti neku vrstu otvorenog koda. Pokušao sam izraditi takve stvari interno, gdje prate upite i stavljaju ih na raspolaganje, a tu su i zaista neki naporni dizajnerski izazovi kako bi ih učinili korisnim. Facebook je imao interni alat koji su nazvali HiPal koji je obuhvatio sve upite napisane na Hiveu, ali ono što otkrijete je da ako ne gurnete korisnike na pravi način, jednostavno završite s vrlo dugačak popis odabranih izjava. A kao korisniku koji pokušava shvatiti je li mi upit koristan ili je li uopće dobar, ako samo pogledam dugačak popis odabranih izjava, trebat će mi puno više da tamo dobijem nešto vrijednije nego počevši od nule. Pozorno smo razmislili o tome kako napraviti katalog upita koji će prave stvari donijeti naprijed i pružiti ih na koristan način.

Dez Blanchfield: Mislim da svi prolazimo na tom putu od vrlo mladog doba, preko odraslih, na mnogo načina. Gomila tehnologija. I ja osobno sam prošao kroz tu istu istinsku stvar, poput, naučio sam smanjiti kod. Prolazio bih kroz časopise, a potom i knjige, i studirao bih do određene razine, a onda sam trebao proći i zapravo steći još malo obuke i obrazovanja o tome.

Ali nehotice sam otkrio da sam, čak i kad sam išao od predavanja i čitanja časopisa, čitanja knjiga i sjećanja tuđih programa i odlaska na tečajeve, nastavio učiti koliko i izvođenjem tečajeva, koliko sam razgovarao s drugima ljudi koji su imali neka iskustva. I mislim da je zanimljivo otkriće da, sada kada to donesete na analizu podataka, u osnovi vidimo tu istu paralelu, da su ljudska bića uvijek prilično pametna.

Drugo što zapravo želim razumjeti jest da će na vrlo visokoj razini mnoge organizacije pitati: „Koliko vremena treba da se dođe do te točke?“ Koji je prijelazni trenutak kada ljudi dobiju vaša platforma instalirana i oni su počeli otkrivati ​​vrste alata? Koliko brzo ljudi samo gledaju kako se ova stvar pretvara u stvarno trenutni „a-ha“ trenutak u kojem shvate da se više ne brinu o ROI-ju jer je tu, ali sada zapravo mijenjaju način poslovanja. ? Otkrili su izgubljenu umjetnost i očekuju da s njom mogu učiniti nešto stvarno, jako zabavno.

David Crawford: Da, mogu se malo dotaknuti toga. Mislim da kad se instaliramo, da je jedna od lijepih stvari, jedna od stvari koje ljudi vole u vezi s katalogom koji je izravno povezan u podatkovne sustave, taj da ne započinjete prazno tamo gdje ga morate nekako ispuniti. stranica po stranicu. A to se nekako odnosi na prethodna podatkovna rješenja u kojima biste započeli s praznim alatom i morali biste započeti s stvaranjem stranice za sve što želite dokumentirati.

Budući da toliko stvari dokumentiramo automatski ekstrahiranjem metapodataka, u osnovi u roku od nekoliko dana od instaliranja softvera, možete imati sliku svog podatkovnog okruženja koja je najmanje 80 posto tamo. I onda pomislim čim ljudi počnu pisati upite pomoću alata, automatski se spremaju natrag u katalog i tako će se početi pojavljivati.

Ne želim biti pretjerano nestrpljiv u iznošenju toga. Mislim da je dva tjedna prilično dobra konzervativna procjena, na mjesec dana. Dva tjedna do mjesec dana, konzervativna procjena da se stvarno okrećete i osjećate se kao da dobivate vrijednost od toga, kao da počinjete dijeliti neko znanje i biti u mogućnosti otići tamo i saznati stvari o svojim podacima.

Dez Blanchfield: Zapravo, prilično je zapanjujuće kad razmislite. Činjenica je da će nekima od velikih platformi podataka koje učinkovito indeksirate i katalogizirati biti potrebno ponekad i godinu dana da se pravilno implementiraju i implementiraju i ustanu.

Posljednje pitanje koje sam vam zadao prije nego što se predahnem Robin Blooru, jesu konektori. Jedna od stvari koja mi odmah iskoči je da ste očito riješili cijeli izazov. Dakle, brzo se postavlja nekoliko pitanja. Prvo, kako se brzo implementiraju konektori? Očito započinjete s najvećom platformom, poput Oraclesa i Teradata i tako dalje, kao i DB2-ova. Ali koliko redovito vidite da novi priključci prolaze i koliko vremena preuzimaju? Zamišljam da za njih imate standardni okvir. I koliko duboko uđete u to? Na primjer, svjetski Oracles i IBM, pa čak i Tereadata, a zatim i neke od popularnijih platformi kasnog otvorenog koda. Rade li izravno s vama? Otkrivate li to sami? Morate li znati znanje o tim platformama?

Kako izgleda nekako razviti konektor i koliko duboko se uključite u ta partnerstva kako biste osigurali da ti konektori otkriju sve što možda možete?

David Crawford: Da, svakako, to je sjajno pitanje. Mislim da većim dijelom možemo razviti priključke. Sigurno smo to radili kad smo bili mlađi startupi i nismo imali mušterija. Veze možemo sigurno razviti bez potrebe za internim pristupom. Nikada ne dobivamo nikakav poseban pristup podatkovnim sustavima koji nisu javno dostupni, a često ne trebaju nikakve unutarnje informacije. Koristimo usluge metapodataka dostupnih od strane samih podataka. Često mogu biti prilično složeni i s njima je teško raditi. Konkretno poznajem SQL Server, način na koji oni upravljaju zapisnikom upita, postoji nekoliko različitih konfiguracija i to je nešto na čemu zapravo morate raditi. Morate razumjeti nijanse i gumbe i biranje na njima kako biste ga pravilno postavili i to je nešto na čemu radimo s kupcima od kada smo to radili već nekoliko puta prije.

Ali, u određenoj mjeri, mi koristimo vrste javnih API-ja koji su dostupni ili javna sučelja. Imamo partnerstva s nekoliko ovih tvrtki, to je uglavnom osnova za certifikaciju, tako da se oni osjećaju ugodno kad govorimo da radimo i oni nam mogu pružiti resurse za testiranje, ponekad i rani pristup možda platformi koja izlazi kako bi bili sigurni da radimo na novim verzijama.

Da preokrenem novu vezu, rekao bih opet, pokušavajući biti konzervativan, recimo šest tjedana do dva mjeseca. Ovisi o tome koliko je slična. Tako neki od Postgre djeluju nekako slično kao Redshift. Redshift i Vertica dijele puno njihovih detalja. Tako da možemo iskoristiti te stvari. Ali da, šest tjedana do dva mjeseca bilo bi fer.

Imamo i API-je, tako da - mi mislimo o Alation kao i metapodatkovnoj platformi, tako da ako ništa nije na raspolaganju da bismo posegnuli i automatski zgrabili, postoje načini da sami možete napisati konektor i gurnuti ga u naš sustav. da se sve još uvijek centralizira u jednoj tražilici.

Dez Blanchfield: Fantastično. Cijenim to. Pa ćemo ga predati Robinu, jer sam siguran da i on ima mnoštvo pitanja. Robin?

Rebecca Jozwiak: Robin je možda u nemilosti .

Dez Blanchfield: Prigušili ste se.

Robin Bloor: Da, točno. Oprosti, zanemario sam sebe. Kad ovo implementirate, koji je postupak? Nekako sam znatiželjan jer na mnogim mjestima može biti puno podataka. Pa kako to funkcionira?

David Crawford: Da, svakako. Ulazimo, prvo je to vrsta IT procesa kako bi se osiguralo da je naš poslužitelj predviđen, osiguravajući da su mrežne veze dostupne, da su portovi otvoreni kako bismo zapravo mogli pristupiti sustavima. Svi često znaju s kojim sustavima žele započeti. Znajući unutar podatkovnog sustava koji će im - a ponekad ćemo im i pomoći. Pomoći ćemo im da pogledaju početni pregled uputa da bi shvatili tko koristi što i koliko korisnika ima u sustavu. Pa ćemo vam pomoći otkriti gdje - oni često, ako imaju stotine ili tisuće ljudi koji se mogu prijaviti u baze podataka, zapravo ne znaju gdje se prijavljuju, pa možemo to saznati iz evidentira upite koliko jedinstvenih korisničkih računa zapravo se prijavljujete i izvršavate upite ovdje u mjesec dana ili slično.

To možemo iskoristiti, ali često samo one najvažnije. Postavljamo ih da se postave i tada slijedi postupak: "Dajmo prednost." Paralelno se može dogoditi niz aktivnosti. Usredotočio bih se na obuku za korištenje alata za upite. Jednom kada ljudi počnu koristiti alat za postavljanje upita, prije svega, mnogo ljudi voli činjenicu da je to samo jedno sučelje za sve njihove različite sustave. Oni također vole činjenicu da je web-temeljen, ne uključuje nijednu instalaciju ako to ne žele. Sa sigurnosnog stajališta vole da imaju svojevrsnu jedinstvenu točku ulaza, s mrežnog stajališta, između vrste corp IT mreže i podatkovnog centra u kojem žive izvori proizvodnih podataka. I tako će postaviti Alation kao alat za upite i početi koristiti Compose kao točku pristupa za sve ove sustave.

Kad se to dogodi, ono na što smo se fokusirali na treningu, razumijevanje nekih razlika između internetskog ili poslužiteljskog alata za upit u odnosu na jedan na radnoj površini i neke nijanse korištenja da. A istovremeno ćemo pokušati identificirati najvrjednije podatke, opet koristeći informacije iz dnevnika upita i reći: „Hej, možda biste htjeli ući i pomoći ljudima da to shvate. Počnimo s objavljivanjem reprezentativnih upita na ovim tablicama. "To je ponekad najučinkovitiji način da se ljudi brzo spuste. Pogledajmo vlastitu povijest upita, objavimo ih tako da se prikazuju kao prvi upiti. Kad ljudi pogledaju stranicu tablice, mogu vidjeti sve upite koji su se dotakli te tablice i odatle mogu započeti. A onda započnimo dodavati naslove i opise ovim objektima kako bi ih lakše pronašli i pretraživali, tako da znate neke nijanse kako ih koristiti.

Osiguravamo detaljni pregled dnevnika upita kako bismo generirali loze. Jedna od stvari koju radimo je da pregledamo evidenciju upita u trenucima kad se podaci premještaju iz jedne tablice u drugu, a to nam omogućava postavljanje jednog od najčešće postavljanih pitanja o tablici podataka, odakle je to došlo? Kako u to vjerovati? Ono što možemo pokazati nije samo iz kojih drugih tablica dolazi, već i kako se transformiralo na putu. Opet, ovo se pokreće zapisnikom upita.

Na taj način osiguravamo da su te stvari postavljene i da postajemo crta roda u sustav i ciljamo najvrjednije i najkorištenije dijelove metapodataka koje možemo uspostaviti na stranicama tablice, tako da kad tražite, nađete nešto korisno.

Robin Bloor: Dobro. Drugo pitanje - ima puno pitanja publike, pa ne želim ovdje zauzimati previše vremena - drugo pitanje koje mi pada na pamet jest samo točke boli. Puno softvera kupljeno je zbog toga što ljudi, na ovaj ili onaj način, imaju problema s nečim. Pa što je uobičajena točka boli koja ljude vodi u Alaciju?

David Crawford: Da. Mislim da ih ima nekoliko, ali mislim da je jedno od onih koje čujemo prilično često analitičar u brodu. "Morat ću u kratkom roku zaposliti 10, 20, 30 ljudi koji će iz tih podataka morati proizvesti nove uvide, kako će doći do brzine?" Dakle, analitičar ukrcavanja je nešto što sigurno uhvatiti u koštac. Tu je i oslobađanje starijih analitičara da troše svoje vrijeme na odgovore drugih na podatke o podacima. I to je vrlo često. I jedno i drugo su u osnovi obrazovni problemi.

I onda bih rekao da je drugo mjesto koje vidimo kako ljudi prihvaćaju Alation kada su željeli uspostaviti potpuno novo podatkovno okruženje za nekoga u kome rade. Oni se žele interno oglašavati i trživati ​​kako bi ih ljudi iskoristili. Potom je Alation pretpostavka za to novo analitičko okruženje vrlo privlačna. Ima dokumentaciju, ima jedinstvenu točku uvođenja u - jedinstvenu točku pristupa sustavima i to je drugo mjesto na koje će ljudi doći k nama.

Robin Bloor: U redu, prebacit ću vas u Rebecca jer publika pokušava doći do vas.

Rebecca Jozwiak: Da, ovdje imamo puno stvarno dobrih pitanja publike. A David, ovaj je bio posebno poziran za tebe. Dolazi od nekoga tko očito ima iskustva s ljudima koji zloupotrebljavaju upite, a on nekako kaže da što više osnažujemo korisnike, to je teže upravljati odgovornom uporabom računskih resursa. Možete li se braniti od širenja pogrešnih, ali uobičajenih upitnih fraza?

David Crawford: Da, vidim to pitanje. Sjajno je pitanje - jedno imamo često. Bol sam vidio i u prijašnjim tvrtkama, gdje trebate osposobljavati korisnike. Na primjer, "Ovo je tablica dnevnika, dnevnici se vraćaju godinama. Ako ćete napisati upit na ovu tablicu, zaista se morate ograničiti po datumu. "Dakle, na primjer, to je trening koji sam prošao u prethodnoj tvrtki prije nego što sam dobio pristup bazi podataka.

Imamo nekoliko načina na koji ovo pokušavamo riješiti. Rekao bih da mislim da su podaci dnevnika upita zaista jedinstveno vrijedni za njihovo rješavanje. To daje još jedan uvid nasuprot onome što baza podataka radi interno sa svojim planom upita. A ono što radimo je jedna od tih intervencija - imamo ručne intervencije koje sam pokazao i to je korisno, zar ne? Tako, primjerice, na određenom pridruživanju možete reći: "Ukinut ćemo ovo". Imat će veliku crvenu zastavu kad se pojavi u pametnom prijedlogu. Dakle, to je jedan od načina pokušaja dolaska do ljudi.

Druga stvar koju radimo je automatizirana u vrijeme izvršenja intervencija. Zapravo ćemo upotrijebiti stablo odgovora upita prije nego što ga pokrenemo kako bi ga vidjeli, uključuje li određeni filter ili nekoliko drugih stvari koje tamo i radimo. Ali jedan od najvrjednijih i najjednostavnijih za objašnjenje je, uključuje li filtar? Kao i onaj primjer koji sam upravo dao, ova tablica dnevnika, ako ćete je pitati, mora imati datumski raspon, na stranici tablice možete odrediti da odredite primjenu filtra datumskog raspona. Ako netko pokuša pokrenuti upit koji ne uključuje taj filtar, on će ih zapravo zaustaviti velikim upozorenjem i reći će: "Vjerojatno biste trebali dodati neki SQL koji izgleda ovako na svoj upit." oni žele. Nećemo ih u potpunosti zabraniti da je koriste - također je upit, na kraju dana moraju pokrenuti upite. Ali pred njih postavljamo prilično veliku barijeru i dajemo im prijedlog, konkretan primjenjivi prijedlog za izmjenu upita za poboljšanje njihove izvedbe.

To zapravo radimo automatski u nekim slučajevima, opet promatrajući zapisnik upita. Ako vidimo da neki stvarno veliki postotak upita na ovoj tablici koristi određeni filtar ili određenu klauzulu pridruživanja, tada ćemo to stvarno iskočiti. To ćemo promovirati u intervenciju. Zapravo mi se dogodilo na internom skupu podataka. Imamo podatke o klijentima i imamo korisničke ID-ove, ali korisnički ID je postavljen, jer je to neka vrsta - imamo korisničke ID-ove kod svakog kupca. Nije jedinstven, pa ga morate spajati s ID-om klijenta kako biste dobili jedinstveni ključ za pridruživanje. I pisao sam upit i pokušao sam nešto analizirati i iskočilo je i rekao: "Hej, čini se da se svi ostali pridružuju ovim tablicama i s ID-om klijenta i sa korisničkim ID-om. Jeste li sigurni da to ne želite učiniti? "I zapravo me sprečilo da napravim neku pogrešnu analizu. Dakle, to radi kako za točnost analize, tako i za izvedbu. Na takav način mi rješavamo taj problem.

Rebecca Jozwiak: To bi mi se činilo djelotvornim. Rekli ste da ljude nećete nužno blokirati da prikupljaju resurse, ali nekako ih podučavate da ono što rade možda i nije najbolje, zar ne?

David Crawford: Uvijek pretpostavljamo da korisnici nisu zlonamjerni - dajte im najbolje namjere - i na taj način pokušavamo biti prilično otvoreni.

Rebecca Jozwiak: Dobro. Evo još jednog pitanja: "Koja je razlika između upravitelja kataloga, poput vašeg rješenja, i MDM alata? Ili se zapravo oslanja na drukčije princip proširivanjem izbora tablica upita, dok bi MDM to učinio automatski, ali s istim osnovnim principom prikupljanja metapodataka. "

David Crawford: Da, mislim da je, kad gledam tradicionalna MDM rješenja, glavna razlika filozofska. Sve se odnosi na to tko je korisnik. Ovako kao što sam rekao na početku svog izlaganja, Povezanost, mislim da smo, kad smo bili osnovani, bili osnovani s ciljem da analitičarima omogući stvaranje više uvida, bržeg njihovog stvaranja, da budu precizniji u uvidima da su proizvesti. Mislim da to ikada nije bio cilj tradicionalnog rješenja za MDM. Ta rješenja imaju tendenciju da se usmjere na ljude koji trebaju izraditi izvješća o tome koji su podaci zabilježeni u SCC-u ili interno u neke druge svrhe revizije. To ponekad može omogućiti analitičarima, ali to je češće, ako će to omogućiti praktičaru u njihovom radu, vjerojatnije je omogućiti arhitektu podataka kao što je DBA.

Kad razmišljate o stvarima sa stajališta analitičara, tada započinjete graditi alat za upite koji MDM alat nikada ne bi učinio. Tada počinjete razmišljati o uspješnosti i točnosti, kao i o razumijevanju koji se podaci odnose na moje poslovne potrebe. Sve su to stvari koje nam nekako padaju na pamet pri dizajniranju alata. To se uključuje u naše algoritme pretraživanja, ulazi u izgled stranica kataloga i mogućnost doprinosa znanju iz cijele organizacije. To ide u činjenicu da smo izgradili alat za upite i da smo katalog ugradili izravno u njega, tako da mislim da to zaista i dolazi od toga. Koga korisnika prvo imate na umu?

Rebecca Jozwiak: Dobro, dobro. To mi je zaista pomoglo objasniti. koji je umirao da bi se držao arhiva jer je morao otići, ali stvarno je želio da mu se odgovori pitanje. Rekao je da je u početku spomenuto da postoji više jezika, ali je li SQL jedini jezik pod utjecajem komponente Compose?

David Crawford: Da, to je istina. I jedna od stvari koje sam primijetio, kao što sam bio svjedok eksplozije različitih vrsta baza podataka, baza podataka, baza podataka grafova, ključnih spremišta vrijednosti, jest da su oni zaista moćni za razvoj aplikacija. Oni tamo mogu stvarno služiti određenim potrebama na bolje načine nego što to mogu relacijske baze podataka.

Ali, kada ga vratite u analizu podataka, kad ga vratite natrag - kad želite te podatke pružiti ljudima koji će raditi ad hoc izvještavanje ili ad hoc kopanje podataka, oni se uvijek vraćaju u relacijsku vezu Barem sučelje za ljude. To je samo zato što je SQL lingua franca analize podataka, pa to znači i za ljude, to je i za alate koji se integriraju. Mislim da je to razlog što je SQL na Hadoopu toliko popularan i postoji toliko pokušaja da se to riješi, zato što na kraju dana to ljudi znaju. Vjerojatno postoje milijuni ljudi koji znaju pisati SQL, a ne bih riskirao milijune koji znaju napisati Mongo okvirni upit za cjevovod za cjevovod. I da je to standardni jezik koji se koristi za integraciju na zaista širokim platformama. Dakle, sve što to govori, od nas se rijetko traži da izađemo izvan nje jer je ovo sučelje koje većina analitičara koristi, i to je mjesto na koje smo se, posebno u Compose-u, fokusirali na pisanje SQL-a.

Rekao bih da je podatkovna znanost mjesto na kojem se najviše bave i zato povremeno postavljamo pitanja o korištenju Pig-a ili SAS-a. To su stvari s kojima se u Composeu definitivno ne bavimo i koje bismo željeli zabilježiti u katalogu. A vidim i R i Python. Imamo nekoliko načina na koje smo napravili sučelja koja možete koristiti upitima napisanim u Alaciji unutar R i Python skripti, tako da često kada ste znanstvenik podataka i radite na skriptnom jeziku, izvorni podaci nalaze se u relacijskoj bazi podataka. Započinjete sa SQL upitom, a zatim ga dalje obradite i stvarate grafikone unutar R i Pythona. I napravili smo pakete koje možete uvesti u one skripte koje povlače upite ili rezultate upita iz Alationa tako da tamo možete imati kombinirani tijek rada.

Rebecca Jozwiak: Dobro, super. Znam da smo malo prošli kraj vrha sata, tek ću vam postaviti još jedno ili dva pitanja. Znam da ste razgovarali o svim različitim sustavima na koje se možete povezati, ali što se tiče podataka s računalom i interno hostiranih podataka, možete li to zajedno pretraživati ​​u vašem jedinstvenom pogledu, na vašu jednu platformu?

David Crawford: Naravno. Postoji nekoliko načina za to. Mislim, izvana ugošćen, zamislio bih, pokušavam razmišljati o tome što bi to točno moglo značiti. To može značiti bazu podataka da netko gostuje u AWS-u za vas. To bi moglo značiti javni izvor podataka iz data.gov. Povezujemo se izravno s bazama podataka tako da se prijavimo kao i druga aplikacija s računom baza podataka i tako izvučemo metapodate. Ako imamo račun i otvorimo mrežni priključak, možemo doći do njega. A onda, kad te stvari nemamo, imamo nešto što se naziva virtualnim izvorom podataka, što vam u osnovi omogućuje potiskivanje dokumentacije, bilo automatski, pisanjem vlastitog konektora ili popunjavanjem, čak i poput CSV prijenosa, dokumentirati podatke uz vaše interne podatke. To se sve smješta u tražilicu. To se može uputiti u članke i drugu dokumentaciju i razgovore unutar sustava. Tako postupamo kada se ne možemo izravno povezati sa sustavom.

Rebecca Jozwiak: Ok, to ima smisla. Samo ću vam postaviti još jedno pitanje. Jedan sudionik je postavljanje pitanja, "Kako treba potvrditi, provjeriti ili održavati sadržaj kataloga podataka, kako se izvorni podaci ažuriraju, kako se izvorni podaci mijenjaju itd."

David Crawford: Da, to je pitanje koje dobivamo puno, i mislim da jedna od stvari koje smo - jedna od naših filozofija, kao što sam rekao, ne vjerujemo da su korisnici zlonamjerni. Pretpostavljamo da pokušavaju pridonijeti najboljem znanju. Neće ući i namjerno obmanjivati ​​ljude u vezi s podacima. Ako je to problem u vašoj organizaciji, možda Alation nije pravi alat za vas. Ali ako pretpostavite dobre namjere od strane korisnika, onda o tome razmišljamo kao o nečemu, dolazi nadogradnja, a onda obično ono što radimo jest da postavimo upravitelja zaduženog za svaki podatkovni objekt ili svaki odjeljak podataka. A mi možemo obavijestiti te upravitelje kada se izmjene metapodataka izvrše i oni se na taj način mogu nositi s njima. Ako vide ažuriranja, provjeravaju ih. Ako nisu u pravu, mogu ih vratiti i izmijeniti te ih informirati, a nadamo se da će čak kontaktirati s korisnikom koji je doprinio informacijama i pomoći im u učenju.

Dakle, to je primarni način na koji razmišljamo o tome. Ova vrsta prijedloga gomile i uprave od strane stjuarda, tako da imamo neke mogućnosti oko toga.

Rebecca Jozwiak: Dobro, dobro. A ako samo možeš obavijestiti ljude kako najbolje mogu započeti s Alationom i kamo mogu posebno potražiti dodatne informacije. Znam da ste podijelili taj jedan bit.ly. Je li to najbolje mjesto?

David Crawford: Alation.com/learnmore Mislim da je to sjajan put. Da biste se prijavili za demonstraciju, stranica Alation.com ima puno sjajnih resursa, bijelih papira i vijesti o našem rješenju. Tako da mislim da je to sjajno mjesto za početak. Možete i poslati e-poštu.

Rebecca Jozwiak: Dobro, super. I znam, polaznici, oprosti ako danas nisam stigao na sva pitanja, ali ako ne, oni će biti proslijeđeni Davidu ili njegovom prodajnom timu ili nekome u tvrtki Alation, tako da definitivno mogu pomoći u odgovoru na vaša pitanja i pomoći razumjeti. što Alation radi ili što im najbolje ide.

I s tim, narode, nastavit ću nas potpisati. Arhive uvijek možete pronaći na InsideAnalysis.com. Također ga možete pronaći na Techopedia.com. Obično se ažuriraju malo brže, pa svakako to provjerite. I puno hvala Davidu Crawfordu, Dezu Blanchfieldu i Robinu Booru danas. Bila je to sjajna internetska emisija. I s tim ću se oprostiti. Hvala, ljudi. Doviđenja.

David Crawford: Hvala.

Snaga prijedloga: kako katalog podataka omogućava analitičarima