Dom Hardver Veliko željezo, upoznajte velike podatke: oslobađanje podataka glavnih okvira uz hadoop i iskru

Veliko željezo, upoznajte velike podatke: oslobađanje podataka glavnih okvira uz hadoop i iskru

Anonim

Osoblje Techopedia, 2. lipnja 2016

Oduzimanje: ekosustav Hadoop koristi se na glavnim računalima za brzu i učinkovitu obradu velikih podataka.

Trenutno niste prijavljeni. Prijavite se ili prijavite da biste pogledali videozapis.

Eric Kavanagh: U redu dame i gospodo, u četvrtak je četiri sata istočno, a ovih dana to znači da je naravno vrijeme za Hot Technologies. Da, doista, moje ime je Eric Kavanagh. Bit ću vaš moderator za današnji web seminar. Dobra je stvar, ljudi, „Veliko željezo, upoznaj velike podatke“ - jednostavno volim taj naslov - „Oslobađanje matičnih podataka s Hadoopom i Sparkom“. Razgovarat ćemo o starim novim susretima. Wow! Pokrivamo spektar svega o čemu smo razgovarali u posljednjih 50 godina IT poduzeća. Spark se sastaje s mainframeom, volim.

Postoji spot o vašem uistinu i dosta o meni. Godina je vruća. U ovoj seriji govorimo o vrućim temama jer stvarno pokušavamo pomoći ljudima da razumiju određene discipline, određene prostore. Što znači, na primjer, imati analitičku platformu? Što znači oslobađanje velikih podataka iz glavnih okvira? Što sve ovo znači? Pokušavamo vam pomoći razumjeti određene vrste tehnologija gdje se uklapaju u miks i kako ih možete koristiti.

Danas imamo dvojicu analitičara, a onda naravno Tendü Yogurtçu iz Syncsort. Ona je vizionarka na našem prostoru, vrlo joj je drago što je danas u mreži, s našim Dez Blanchfield-om i dr. Robin Bloor-om. Reći ću samo par brzih riječi. Jedno je to, ljudi, igrate veliku ulogu u ovom procesu, pa vas molim da se ne stidite postavljati dobra pitanja. Željeli bismo doći do njih tijekom Q&A komponente webcast, koja je obično na kraju emisije. I sve što moram reći je da imamo puno dobrog sadržaja, tako da sam uzbuđen kad čujem što ti dečki imaju za reći. A s tim ću ga predati Dez Blanchfield. Dez, pod je tvoj, odnesi to.

Dez Blanchfield: Hvala, Eric, i hvala svima što ste danas prisustvovali. Stoga se prilično uzbuđujem kada dobijem priliku razgovarati o jednoj od mojih najdražih stvari na svijetu, glavnim okvirima. Ovih dana ne primaju mnogo ljubavi. Moje je mišljenje da je mainframe izvorna platforma velikih podataka. Neki će tvrditi da su u to vrijeme bili jedino računalo i to je pošteno pitanje, ali već više od 60 godina zapravo su bili strojarnica onog što su veliki podaci od davnina bili popularni. A ja ću te povesti na malo putovanje zašto vjerujem da je to tako.

Vidjeli smo putovanje u tehnološkom paketu hardvera u kontekstu da se mainframes premješta sa slike koju sada vidite na ekranu. Ovo je stari FACOM mainframe, jedan od mojih omiljenih. Prešli smo u veliku željeznu fazu, kasne devedesete i dot-com bum. Ovo je Sun Microsystems E10000. Ova stvar je bila apsolutno čudovište na 96 CPU-a. Izvorno 64, ali mogao bi se nadograditi na 96 CPU-a. Svaki CPU mogao je pokrenuti 1.024 niti. Svaka nit može biti istovremeno s dozom primjene. Bio je samo monstruozan i zapravo je pokrenuo dot-com bum. Ovo su sve veliki jednorani kako ih mi zovemo, sada se pokrećemo, i ne samo velika poduzeća, neka od velikih web stranica.

A onda smo završili s ovim uobičajenim PC računarom izvan uobičajenih cijena. Jednostavno smo povezali puno jeftinih strojeva i stvorili smo grozd i pristupili smo velikom izazovu željeza i onome što je postalo velikim podacima, posebno u obliku Hadoop projekta koji je proizašao iz pretraživača otvorenog koda, Nutch. I ustvari smo rekreirali mainframe i puno malih CPU-a koji su zalijepljeni zajedno i koji mogu djelovati poput L-staza i u obliku izvođenja zasebnih poslova ili dijelova poslova koji su bili prilično učinkoviti na više načina. Jeftiniji ako ste započeli s manjim, ali nepromjenjivo mnogi od tih velikih grozdova postaju skuplji od glavnog okvira.

Moje gledište o tim stvarima je da smo, u naletu od dot-com procvata do onoga što je postalo Web 2.0 i sada jure jednoroge, zaboravili smo da ova platforma još uvijek napaja mnoge naše najveće kritične sustave. Kad razmišljamo o tome što se radi na mainframe platformama vani. Riječ je o velikim podacima, posebno datahorse-u, ali svakako velikim podacima. Tradicionalne sustave poduzeća i vlade poput bankarstva i upravljanja bogatstvom, posebno osiguranja, svi koristimo svaki dan.

Rezervacije i sustavi za upravljanje letom zrakoplova, posebno upravljanje letom gdje je kritično u stvarnom vremenu. Skoro da je svaka država i savezna vlada u neko doba imala glavni okvir, a nepromijenjeno ih još uvijek ima. Trgovina na malo i proizvodnja. Neki stari softver koji je upravo postojao i nikad nije otišao. Samo nastavlja s napajanjem u proizvodnim okruženjima i sigurno u maloprodaji. Medicinski sustavi. Sustavi obrane, svakako obrambeni sustavi.

Proteklih nekoliko tjedana pročitao sam mnoge članke o činjenici da neki od sustava za upravljanje raketama i dalje rade na starim mainframeovima za koje se bore da pronađu dijelove. Oni smišljaju kako nadograditi u nove glavne okvire. Transportni i logistički sustavi. Ovo možda ne zvuči kao seksi tema, ali to su teme kojima se svakodnevno bavimo u svim linijama. A neka vrlo velika telekomunikacijska okruženja još uvijek se pokreću na mainframe platformama.

Kad razmišljate o vrstama podataka koji su tamo, svi su kritični za misiju. Zaista su važne platforme i platforme koje svakodnevno uzimamo zdravo za gotovo i na mnogo načina omogućavaju život. Pa tko još uvijek koristi mainframe i tko su svi ti ljudi koji se zadržavaju na tim velikim platformama i imaju sve te podatke? Pa, kao što rekoh ovdje, vjerujem da je lako prevariti pomicanje medija s velikog željeza na stalke uobičajenih skupova ili jeftinih računala ili x86 strojeva, misleći da je mainframe umro i otišao. Ali podaci kažu da se mainframe nikad nije ugasio i u stvari je tu da ostane.

Istraživanje koje sam ovdje sastavio u posljednjih nekoliko tjedana pokazalo je da 70 posto podataka, posebno velikih poduzeća, podaci i dalje zapravo prebivaju u okviru nekog oblika. Sedamdeset i jedan posto Fortune 500s još uvijek negdje vodi osnovne poslovne sustave na glavnim računalima. Zapravo, ovdje u Australiji, imamo niz organizacija koje imaju podatkovni centar usred grada. To je učinkovito podzemno računalo učinkovito, a broj glavnih računala upravo tu radi, otkucava i rado obavlja svoj posao. I vrlo malo ljudi zna da se šetajući ulicama, pod njihovim nogama, u jednom određenom dijelu grada, nalazi se ovaj ogroman podatkovni centar ispunjen mainframe. Devedeset i dvije od 100 banaka širom svijeta, sto najboljih banaka koje još uvijek, još uvijek upravljaju bankarskim sustavima na glavnim računalima. Dvadeset i tri od 25 najboljih trgovačkih lanaca širom svijeta koriste mainframe kako bi i dalje vodili svoje sustave upravljanja maloprodajom na EIP i BI platformama.

Zanimljivo je da 10 od 10 najboljih osiguravača i dalje upravljaju svojim platformama na mainframe-u i oni zapravo napajaju svoje cloud usluge na mainframe-u. Ako negdje koristite web sučelje ili mobilnu aplikaciju koja ima sučelje softvera, to zapravo govori o nečemu što je stvarno strašno i veliko.

Još sam pronašao preko 225 državnih i lokalnih vladinih agencija širom svijeta koji rade na mainframe platformama. Siguran sam da za to postoji puno razloga. Možda nemaju proračun za razmatranje novog željeza, ali to je ogroman trag vrlo velikih okruženja koja rade na mainframeu s vrlo kritičnim podacima. Kao što sam već napomenuo, većina nacija i dalje upravlja svojim ključnim obrambenim sustavima na središnjoj platformi. Siguran sam da na mnogo načina pokušavaju sići tamo, ali eto ti.

U 2015. godini IDC je proveo anketu, a 350 CIO ispitanih izvijestilo je da još uvijek posjeduju i upravljaju velikim željezom u obliku glavnih okvira. I učinilo mi se da je to vjerovatno više od broja velikih Hadoop grozdova koji se trenutno proizvode širom svijeta - zanimljiv mali statis tamo. Dat ću to i potvrditi, ali bio je to velik broj. Tristo pedeset CIO-ova izvijestilo je da još uvijek imaju jednu ili više glavnih okvira.

Prošle, 2015. godine, IBM nam je pokrenuo snažni Z13, trinaestu inačicu svoje mainframe platforme. Mediji su razgovarali o toj stvari jer su bili zaprepašteni da IBM i dalje pravi glavne okvire. Kad su podigli kapuljaču i pogledali što se skriva ispod stvari, shvatili su da je zapravo jednaka gotovo svim modernim platformama nad kojima smo se uzbuđivali u obliku velikih podataka, Hadoopa i, svakako, klastera. To je stvar pokrenuo Spark, a sada i Hadoop. Na njemu biste mogli pokrenuti tisuće i tisuće Linux strojeva, a izgledao je i osjećao se kao i svaki drugi klaster. Bio je to prilično zapanjujući stroj.

Mnoge organizacije su se zauzele za ovo, a zapravo sam dao neke podatke koliko se ovih strojeva bavi. Sad sam vidio da je 3270 tekstualni terminal već neko vrijeme zamijenjen web preglednicima i mobilnim aplikacijama i da ima puno podataka koji to podržavaju. Mislim da sada ulazimo u razdoblje u kojem smo shvatili da ti glavni okviri ne prolaze i da postoji znatna količina podataka. Dakle, ono što sada radimo je jednostavno dodavanje onoga što nazivam izvanrednim alatima za analizu. To nisu prilagođene aplikacije. Ovo su stvari koje su jednokratne. To su stvari koje doslovno možete kupiti samo u pakiranom kutiji, i uključiti se u vaš glavni okvir i napraviti neke analitike.

Kao što sam rekao prije, mainframe postoji oko 60 godina. Kad razmišljamo o tome koliko je dugo, to je duže od karijere većine živih IT stručnjaka. A zapravo vjerojatno neki njihov život, čak. 2002. godine IBM je prodao 2.300 glavnih računala. U 2013. godini naraslo je na 2.700 glavnih okvira. To je 2700 prodaja glavnih računala u jednoj godini u 2013. Nisam mogao dobiti točne podatke o 2015, ali pretpostavljam da se brzo približava 3000 prodanih jedinica godišnje u 2015., 2013. I radujem se što ću to moći potvrditi.

Izlaskom Z13, 13. iteracija mainframe platforme, za koju mislim da ih je koštala oko 1, 2 ili 1, 3 milijarde dolara da bi se ispočetka razvili, IBM to jest, ovo je stroj koji izgleda i osjeća se baš kao i bilo koji drugi klaster koji danas imamo i domaće vodi Hadoop i Spark. A zasigurno se mogu povezati s drugim analitičkim i velikim alatima za podatke ili neizostavno biti povezani s nekim vašim postojećim ili novim Hadoop skupinama. Mislim da je uključivanje platforme mainframe u vašu veliku strategiju podataka neophodno. Očito, ako ga imate, dobili ste puno podataka i želite smisliti kako ih tamo ukloniti. I preostaje im da skupljaju prašinu na različite načine, mentalno i emotivno koliko god radi svijet svijeta, ali oni su ovdje da ostanu.

Povezivanje i sučelje svih vaših analitičkih alata s podacima smještenim u mainframeu trebali bi biti ključni dio vašeg poduzeća, a posebno vladinih planova za velike podatke. Softver ih uvijek primjećuje, dobro ih pregledavaju i shvaćaju šta se nalazi u tim stvarima i povezuju umove koji počinju dobivati ​​malo uvida i malo osjećaja za ono što se zapravo nalazi pod kapom. A s tim ću ga predati svom dragom kolegi, dr. Robinu Blooru i on će dodati na ovo malo putovanje. Robin, odvedi ga.

Robin Bloor: Pa, hvala. Ok, otkad je Dez otpjevao pjesmu menedžmenta, ući ću u ono što mislim da se događa s obzirom na stari svijet mainframea i novi Hadoop. Valjda je ovdje veliko pitanje kako upravljati svim tim podacima? Nije moje mišljenje da se mainframe dovodi u pitanje zbog velike podatkovne sposobnosti - njegova velika podatkovna sposobnost je izuzetno, kao što je Dez istaknuo, izuzetno sposobna. Zapravo na njega možete staviti Hadoop klastere. Tamo gdje je izazovan, s obzirom na njegov ekosustav, i ja ću to nekako detaljnije razraditi.

Evo nekoliko pozicioniranja u mainframeu. Ima visok ulazni trošak i ono što se zapravo događalo u prošlosti, od sredine 90-ih, kada je popularnost glavnih mainframea počela da opada, skloni su da izgube svoj krajnji kraj, oni ljudi koji su kupovali jeftine mainframe i nije. Za ove ljude stvarno nije posebno ekonomski. Ali što je više, u srednjem i visokom opsegu glavnog mainframa, on je i dalje zapravo bio, i što je dokazano zapravo, nevjerojatno jeftino računanje.

Linux ga je morao spasiti jer je Linux implementiran na mainframe omogućio naravno pokretanje svih Linux aplikacija. Mnogo Linux aplikacija tamo je otišlo prije nego što su veliki podaci bili riječ ili dvije riječi. Zapravo je prilično izvrsna platforma za privatni oblak. Zbog toga može sudjelovati u hibridnim oblačnim implementacijama. Jedan od problema je nedostatak vještina mainframea. Postojeće vještine u matičnom okviru zapravo ostare u smislu da ljudi napuštaju industriju zbog umirovljenja iz godine u godinu i tek se zamjenjuju s obzirom na broj ljudi. Dakle, to je problem. Ali to je još uvijek jeftino računanje.

Područje gdje su izazovni, naravno, je cijela ova Hadoop stvar. To je slika Douga Cuttinga s izvornim Hadoop slonom. Hadoop ekosustav je - i ostat će - dominantan ekosustav velikih podataka. Nudi bolju razmjeru nego što se mainframe zapravo može postići, a niži trošak kao pohranu podataka je na daleki način. Hadoop ekosustav se razvija. Najbolji način za razmišljanje o tome je kad određena hardverska platforma i operativno okruženje s njom postane dominantno, tada ekosustav oživljava. A to se dogodilo s IBM mainframeom. Pa, kasnije se dogodilo s Digital VAX-om, dogodilo se sa Sunčevim poslužiteljima, dogodilo se s Windowsom, dogodilo se s Linuxom.

I što se dogodilo jest da se Hadoop, o kojem uvijek razmišljam ili volim misliti, kao o nekakvom distribuiranom okruženju podataka, ekosustav razvija nevjerojatnom brzinom. Mislim ako samo spominjete razne impresivne priloge koji su otvorenog koda, Spark, Flink, Kafka, Presto, a zatim dodate u tu neku bazu podataka, NoSQL i SQL mogućnosti koje sada sjede na Hadoopu. Hadoop je najaktivniji ekosustav koji zapravo postoji vani, zasigurno u korporativnom računarstvu. Ali ako ga želite tretirati kao bazu podataka, u ovom trenutku jednostavno ne uspoređuje ono što ja smatram stvarnim bazama podataka, posebno u prostoru skladišta podataka. A to u određenoj mjeri objašnjava uspjeh niza velikih NoSQL baza podataka koje ne rade na Hadoopu, poput CouchDB-a i tako dalje.

Kao podatkovno jezero ima daleko bogatiji ekosustav od bilo koje druge platforme i neće se iz njega uklanjati. Njegov ekosustav nije samo otvoreni izvorni ekosustav. Sada je dramatičan broj softverskih članova koji imaju proizvode koji su u osnovi stvoreni za Hadoop ili su uvezeni u Hadoop. I upravo su stvorili ekosustav da ne postoji ništa što bi se moglo natjecati s njim u pogledu njegove širine. A to znači da je zaista postala platforma za velike inovacije podataka. Ali po mom mišljenju još uvijek je nezrelo i mogli bismo dugo raspravljati o tome što je, a nije, recimo, operativno sazrijevanje s Hadoop-om, ali mislim da je većina ljudi koji gledaju ovo područje dobro svjesna da je Hadoop desetljećima iza glavnog okvira u smislu operativne sposobnosti.

Jezero s podacima u razvoju. Jezero podataka je platforma po bilo kojoj definiciji i ako mislite da postoji sloj podataka u korporativnom računarstvu, vrlo je lako to zamisliti u smislu fiksnih baza podataka plus podatkovnog jezera koji čine sloj podataka. Primjene podataka na jezeru su brojne i raznolike. Ovdje imam dijagram koji samo prolazi kroz različite podatke o hrpanju podataka koje je potrebno učiniti ako koristite Hadoop kao scensko područje ili Hadoop i Spark kao poprište. I imate cijelu stvar - liniju podataka, čišćenje podataka, upravljanje metapodacima, otkrivanje metapodataka - može se koristiti i za sam ETL, ali često zahtijeva ETL za unošenje podataka. Glavni podaci, poslovna definicija podataka, upravljanje uslugama što se događa u Hadoopu, upravljanju podacima životnog ciklusa i ETL-om izvan Hadoopa, a također imate i aplikacije za izravnu analitiku koje možete pokrenuti na Hadoopu.

I zato je postao vrlo moćan i tamo gdje je uspješno implementiran i implementiran, obično ima barem kolekciju ovakvih aplikacija koje se pokreću iznad njega. A većina onih aplikacija, posebno onih s kojima sam upoznat, one trenutno nisu dostupne u glavnom okviru. Ali možete ih pokrenuti na mainframe, na Hadoop grupi koja se izvodila u particiji mainframe.

Jezero podataka postaje, po mom mišljenju, prirodni prostor za brzu analizu baza podataka i za BI. Ono postaje mjesto na kojem uzimate podatke, bilo da se radi o korporativnim podacima ili vanjskim podacima, miješajte se s njima dok to, recimo, ne bude dovoljno čisto i dobro strukturirano za upotrebu, a zatim ih proslijedite. A sve je to još u povojima.

Prema mom mišljenju, koegzistencija mainframe / Hadoop, prva stvar je da velike tvrtke vjerojatno neće napustiti mainframe. Zapravo, pokazatelji koje sam nedavno vidio govore da rastu ulaganja u mainframe. Ali oni neće zanemariti ni Hadoop ekosustav. Vidim brojke 60 posto velikih tvrtki koje koriste Hadoop čak i ako je puno njih zapravo samo prototipiranje i eksperimentiranje.

Jedina osnova je: "Kako napraviti da ove dvije stvari koegzistiraju?", Jer će trebati dijeliti podatke. Podaci koji se unose u podatkovno jezero koje trebaju prenijeti u glavni okvir. Podaci koji se nalaze u glavnom okviru možda će morati ići u podatkovno jezero ili kroz podatkovno jezero da bi se pridružili drugim podacima. I to će se dogoditi. A to znači da zahtijeva brz prijenos podataka / mogućnost ETL-a. Malo je vjerojatno da će se radna opterećenja dinamički dijeliti u, recimo, okruženju mainframe-a ili s nečim u Hadoop okruženju. To će biti podaci koji se dijele. A većina podataka neminovno će se nalaziti na Hadoopu samo zato što je za to najniža platforma. I konačna analitička obrada vjerojatno će i tamo stajati.

Ukratko, u konačnici treba razmisliti u smislu korporacijskog sloja podataka koji će za mnoge tvrtke obuhvatiti i mainframe. A tim podatkovnim slojem treba proaktivno upravljati. Inače njih dvoje neće dobro postojati. Mogu ti proslijediti loptu Eric.

Eric Kavanagh: Opet, Tendü, upravo sam te učinio izvođačem, pa ti to oduzmi.

Tendü Yogurtçu: Hvala, Eric. Hvala vam što ste me primili. Bok svima. Govorit ću o Syncsort iskustvu s kupcima u vezi s tim kako mi vidimo kako se podaci kao sredstvo u organizaciji izravnavaju od mainframea do velikih podataka na analitičkim platformama. I nadam se da ćemo i mi imati vremena na kraju sesije da postavimo pitanja publici jer je to zaista najvrjedniji dio ovih web emitiranja.

Samo za ljude koji ne znaju što Syncsort radi, Syncsort je softverska tvrtka. Zapravo smo oko 40 godina. Započeti na strani mainframe-a, a naši proizvodi se kreću od mainframe-a do Unixa do velikih podatkovnih platformi, uključujući Hadoop, Spark, Splunk, i u prostoriji i u oblaku. Naš fokus je uvijek bio na proizvodima s podacima, proizvodima za obradu i integraciju podataka.

Naša strategija koja se odnosi na velike podatke i Hadoop je stvarno postala dio ekosustava od prvog dana. Kao vlasnici dobavljača koji su se stvarno fokusirali na obradu podataka s vrlo laganim motorima, mislili smo da postoji velika mogućnost sudjelovanja u tome da Hadoop postane platforma za obradu podataka i bude dio ove arhitekture skladišta podataka sljedeće generacije za organizaciju. Sudjelujemo u projektima otvorenog koda Apache od 2011. godine, počevši s MapReduceom. Bili su u prvih deset za Hadoop verziju 2, a zapravo su sudjelovali u više projekata, uključujući pakete Spark, neki od naših priključaka objavljeni su u Spark paketima.

Koristimo naš vrlo lagan motor za obradu podataka koji je u potpunosti ravan metapodatak na osnovi datoteka i vrlo dobro se slaže s distribuiranim datotečnim sustavima poput Hadoop Distribuiranog datotečnog sustava. I svoju baštinu iskorištavamo na mainframeu, svoju stručnost s algoritmima dok postavljamo proizvode sa velikim podacima. A usko surađujemo s glavnim dobavljačima, glavnim igračima ovdje, uključujući Hortonworks, Cloudera, MapR, Splunk. Hortonworks je nedavno najavio da će svoj proizvod preprodavati za ETL na brodu sa Hadoop-om. S Dell-om i Clouderom imamo vrlo blisko partnerstvo koje također preprodaje naš ETL proizvod u sklopu njihovih velikih podataka. A zapravo sa Splunk-om objavljujemo telemetriju mainframe-a i sigurnosne podatke na Splunk-ovim nadzornim pločama. Imamo blisko partnerstvo.

Što ima u vidu svaki izvršni direktor na razini C? Doista, „Kako mogu iskoristiti svoje podatke?“ Svi pričaju o velikim podacima. Svi pričaju o Hadoopu, Sparku, sljedećoj računalnoj platformi koja će mi možda pomoći u stvaranju poslovne okretnosti i otvaranju novih transformativnih aplikacija. Nove mogućnosti izlaska na tržište. Svaki izvršni direktor razmišlja: "Koja je moja strategija podataka, koja je moja inicijativa za podatke i kako da osiguram da ne ostanem iza svoje konkurencije, a još uvijek sam na ovom tržištu u naredne tri godine?" to vidimo dok razgovaramo sa našim kupcima, kao što govorimo s našom globalnom korisničkom bazom, koja je prilično velika, kao što možete zamisliti, s obzirom da smo dugo prisutni.

Dok razgovaramo sa svim tim organizacijama, to vidimo i u tehnološkom kupu u poremećaju koji se dogodio s Hadoopom. Zapravo, kako bi se udovoljilo ovom zahtjevu za podacima kao imovinom. Korištenje svih podataka koji organizacija ima. A vidjeli smo kako se arhitektura skladišta podataka poduzeća razvija tako da je Hadoop sada novo središte moderne arhitekture podataka. A većina naših kupaca, bilo da je riječ o financijskim uslugama, bilo da je to osiguranje, telco maloprodaja, inicijative obično ili pronađemo taj Hadoop kao uslugu ili podatke kao uslugu. Jer svi pokušavaju omogućiti dostupnost podataka za svoje vanjske ili interne klijente. A u nekim organizacijama vidimo inicijative poput gotovo tržišta podataka za svoje klijente.

A jedan od prvih koraka koji je postigao je sve iz stvaranja središta podataka za poduzeća. Ponekad će ga ljudi zvati podatkovnim jezerom. Stvaranje ovog središta podataka za poduzeća zapravo nije tako lako kao što zvuči jer doista zahtijeva pristup i prikupljanje gotovo svih podataka u poduzeću. A ti podaci dolaze iz svih novih izvora poput pokretnih senzora, kao i iz naslijeđenih baza podataka i nalaze se u batch načinu i u streaming modu. Integracija podataka uvijek je bila izazov, međutim, s brojem i raznolikošću izvora podataka i različitim stilovima isporuke, bilo da je serijska ili strujna u stvarnom vremenu, ona je još izazovnija u usporedbi s prije pet godina, prije deset godina. Ponekad to nazivamo i „Više nije ETL vašeg oca."

Stoga govorimo o različitim izvorima podataka. Budući da poduzeća pokušavaju shvatiti nove podatke, podatke koje prikupljaju s mobilnih uređaja, bilo da su senzori proizvođača automobila ili su to korisnički podaci tvrtke za mobilne igre, često moraju navesti najkritičnija imovina podataka u poduzeće, na primjer, podaci o kupcima. Ta najkritičnija podatkovna sredstva često žive u glavnom okviru. Usklađivanje podataka glavnog računara s tim novim izvorima koji se pojavljuju, prikupljeni u oblaku, prikupljeni mobilnim telefonom, prikupljeni na proizvodnoj liniji japanske automobilske kompanije ili internetskim aplikacijama za stvari, moraju imati smisla za ove nove podatke tako što će se uputiti u njihove naslijeđene skupove podataka. I ti naslijeđeni skupovi podataka često su na glavnom okviru.

A ako te tvrtke nisu u mogućnosti to učiniti, nisu u mogućnosti iskoristiti podatke mainframe-a, onda je propuštena prilika. Tada se podaci kao usluga ili iskorištavanje svih podataka o poduzeću zapravo ne uklapaju u najkritičnija sredstva u organizaciji. Tu je i dio telemetrije i sigurnosnih podataka, jer gotovo svi transakcijski podaci žive na glavnom okviru.

Zamislite da idete do bankomata, mislim da je jedan od sudionika poslao poruku sudionicima ovdje radi zaštite bankarskog sustava, kada prelazite karticom da su podaci o transakcijama poprilično globalno u glavnom okviru. I osiguravanje i prikupljanje podataka o sigurnosti i telemetriji iz glavnih okvira i njihovo stavljanje na raspolaganje putem Splunk nadzorne ploče ili drugih, Spark, SQL, postaje kritičniji nego ikad prije, zbog obujma podataka i raznolikosti podataka.

Setovi vještina jedan su od najvećih izazova. Budući da s jedne strane imate ogroman niz velikih podataka, ne znate koji će projekt preživjeti, a koji projekt neće preživjeti, trebam li zaposliti programere za košnice ili svinje? Trebam li ulagati u MapReduce ili Spark? Ili sljedeće, Flink, netko je rekao. Trebam li ulagati u jednu od tih računalnih platformi? S jedne strane, izazov za ekosustav koji se brzo mijenja, a s druge strane ti naslijeđeni izvori podataka. Novi setovi vještina zapravo ne odgovaraju i mogli biste imati problema jer se ti resursi zapravo povlače. Veliki je jaz u pogledu nabora vještina ljudi koji razumiju te naslijeđene hrpe podataka i koji razumiju sve veći tehnološki niz.

Drugi je izazov upravljanje. Kad stvarno pristupate svim podacima poduzeća na platformama, imamo kupce koji su se zabrinuli kako "ne želim da se moji podaci isporuče. Ne želim da se moji podaci kopiraju na više mjesta jer želim što više izbjeći višestruke kopije. Želim imati krajnji pristup bez njegovog slijetanja u sredinu. "Upravljanje tim podacima postaje izazov. A drugi dio je da ako pristupate podacima koji uska grla, ako prikupljate većinu svojih podataka u oblaku i pristupate i referencirate naslijeđene podatke, propusnost mreže postaje problem, platforma klastera. Postoji mnogo izazova u pogledu postojanja ove velike inicijative podataka i naprednih analitičkih platformi, a opet iskorištavanja svih poslovnih podataka.

Syncsort nudi, nazvani smo „jednostavno najboljima“, ne zato što smo jednostavno najbolji, već nas kupci zaista smatraju najboljim u pristupu i integriranju podataka mainframe-a. Podržavamo sve formate podataka iz glavnog okvira i stavljamo ih na raspolaganje za analizu velikih podataka. Bilo da se radi o Hadoopu ili Sparku ili sljedećoj računalnoj platformi. Jer naši proizvodi stvarno izoliraju složenost računalne platforme. Vi kao programer potencijalno razvijate prijenosno računalo, fokusirate se na cjevovod za podatke i kakve su pripreme podataka, korake za izradu tih podataka za analitiku, sljedeću fazu i poduzimate istu aplikaciju u MapReduce ili uzimajte to ista aplikacija oko u Sparku.

Pomogli smo našim kupcima u tome kada je YARN postala dostupna i oni su morali premjestiti svoje aplikacije s MapReduce verzije 1 u YARN. Pomažemo im da rade isto s Apache Sparkom. Naš proizvod, novo izdanje 9, pokreće se i sa Sparkom te isporučuje dinamičnu optimizaciju koja će ove aplikacije izolirati za buduće okvire računala.

Dakle, imamo pristup podacima mainframe-a, bilo da se radi o VSAM datotekama, bilo da je to DB2, bilo da se radi o telemetrijskim podacima, poput SMF zapisa ili Log4j ili syslogs, koji je potrebno vizualizirati kroz Splunk nadzorne ploče. Iako se to događa, jer organizacija može utjecati na postojeće inženjere podataka ili ETL skupove, vrijeme razvoja znatno se smanjuje. Zapravo s Dellom i Clouderom postojalo je neovisno sponzorirano mjerilo, i to je mjerilo usredotočeno na vrijeme razvoja koje trebate ako radite ručno kodiranje ili koristite druge alate kao što je Syncsort, a bilo je oko 60, 70 posto smanjenje vremena razvoja, Premoštavanje vještina postavlja jaz između grupa, preko tih hostova datoteka podataka, kao i onih hostija datoteka podataka u odnosu na ljude.

Obično tim za velike podatke ili tim za unos podataka ili tim koji ima zadatak razvijati ove podatke kao servisna arhitektura ne moraju nužno razgovarati s timom mainframea. Oni žele minimizirati tu interakciju gotovo u mnogim organizacijama. Otklanjanjem tog jaza napredovali smo. A najvažniji dio je stvarno osiguranje cijelog postupka. Jer u poduzeću kada se bavite ovom vrstom osjetljivih podataka postoji mnogo zahtjeva.

U visoko reguliranim industrijama poput osiguranja i bankarstva naši kupci pitaju, rekli su: „Nudite ovaj pristup podacima mainframe-a i to je sjajno. Možete li mi ponuditi i da taj zapis zapisa kodiran EBCDIC-om čuvam u izvornom formatu da bih mogao udovoljiti svojim zahtjevima revizije? ”Tako Hadoop i Apache Spark razumiju podatke matičnih okvira. Možete zadržati podatke u izvornom formatu zapisa, izvršiti obradu i raspodjelu računara platforme raspodjele i ako to trebate vratiti možete pokazati da zapis nije promijenjen, a format zapisa nije promijenjen, možete udovoljiti regulatornim zahtjevima,

I većina organizacija, dok stvaraju čvorište podataka ili podatkovno jezero, to također pokušavaju učiniti jednim klikom kako bi mogle preslikati metapodatke iz stotina shema u Oracle bazi u tablice košnica ili datoteke ORC ili parketa postaje potrebno. Dostavljamo alate i pružamo alate kako bi ovo omogućili pristup u jednom koraku, automatsko generiranje poslova ili kretanja podataka i automatski generiranje poslova za izradu mapiranja podataka.

Razgovarali smo o dijelu povezivanja, usklađenosti, upravljanju i obradi podataka. Naši proizvodi dostupni su i u premisi i u oblaku, što je stvarno vrlo jednostavno, jer tvrtke ne trebaju razmišljati o tome što će se dogoditi u sljedećih godinu ili dvije ako odlučim u potpunosti ići u javni oblak nasuprot hibridnom okruženje jer se neki klasteri mogu izvoditi u pretpostavci ili u oblaku. Naši proizvodi dostupni su na Amazon Marketplaceu, na EC2, Elastic MapReduce, ali i na Docker kontejneru.

Samo da završimo, tako da imamo dovoljno vremena za Q&A, zapravo se radi o pristupu, integriranju i usklađivanju s upravljanjem podacima, a sve to čini jednostavnijim. I dok ovo pojednostavljujemo, „jednom dizajnirajte i instalirajte bilo gdje“ u pravom smislu, zahvaljujući doprinosima otvorenog koda, naš se proizvod pokreće izvorno u protoku podataka Hadoop-a, izvorno pomoću Sparka, izolirajući organizacije iz ekosustava koji se brzo mijenja. I pružanje jednog cjevovoda za podatke, jedno sučelje, i za batch i za streaming.

A to također pomaže organizacijama da ponekad ocjenjuju te okvire, jer možda želite zapravo kreirati aplikacije i jednostavno pokrenuti MapReduce nasuprot Sparku i uvjeriti se u to, da, Spark to obećava i pruža sav napredak u iterativnim algoritmima za najbolje strojno učenje i aplikacije za prediktivnu analitiku rade sa Sparkom, mogu li i na ovom računalnom okviru izvršiti svoje streaming i grupno opterećenje? Možete testirati različite računalne platforme pomoću naših proizvoda. A dinamična optimizacija bez obzira radi li se o samostalnom poslužitelju, na svom prijenosnom računalu, u Google Cloudu nasuprot Apache Sparku, zaista je velika vrijednost za naše klijente. I uistinu su ga vodili izazovi koji su imali.

Samo ću pokriti jednu od studija slučaja. Ovo je Guardian životno osiguranje. A Guardianova je inicijativa zaista bila centralizirati imovinu podataka i učiniti je dostupnom za svoje klijente, smanjiti vrijeme za pripremu podataka i rekli su da svi govore o pripremi podataka uzimajući 80 posto cjelokupnog cjevovoda za obradu podataka i rekli su da je u stvari potrebno 75 do 80 posto za njih i željeli su smanjiti vrijeme pripreme podataka, vrijeme transformacije, ustupanje vremena na tržište za analitičke projekte. Stvorite tu okretnost jer dodaju nove izvore podataka. Omogućite taj centralizirani pristup podacima dostupan svim svojim klijentima.

Njihovo rješenje, uključujući Syncsort proizvode, upravo sada imaju tržište marketinških podataka Amazon Market podržano podatkovnim jezerom, koje je u osnovi Hadoop, i NoSQL bazom podataka. Oni koriste naše proizvode da dovedu sva sredstva podataka u jezero podataka, uključujući DB2 na mainframe, uključujući VSAM datoteke na mainframeu i naslijeđene izvore podataka baze podataka kao i nove izvore podataka. Kao rezultat toga, oni su centralizirali imovinu podataka za višekratnu upotrebu koja se može pretraživati, biti dostupna i dostupna njihovim klijentima. I stvarno su u mogućnosti dodavati nove izvore podataka i služiti svojim klijentima mnogo brže i učinkovitije nego prije. A analitičke inicijative čak i više napreduju s prediktivne strane. Pa ću pauzirati i nadam se da je ovo bilo korisno i ako imate pitanja za mene o bilo kojoj od povezanih tema, molim vas.

Eric Kavanagh: Naravno, i Tendü, samo ću ga baciti unutra. Dobio sam komentar od publike koji je samo rekao: „Sviđa mi se ovaj dizajn, jednom, razmjesti se bilo gdje.“ „Možete li se ukopati u to kako je to istina? Mislim, što ste učinili da omogućite tu vrstu okretnosti i postoji li porez? Kao, primjerice, kad govorimo o virtualizaciji, uvijek je malo poreza na učinak. Neki kažu dva posto, pet posto 10 posto. Što ste učinili kako biste jednom omogućili dizajn, rasporedite bilo gdje - kako to učiniti i postoji li neki porez povezan s njim u pogledu performansi?

Tendü Yogurtçu: Svakako, hvala. Ne, jer za razliku od nekih drugih dobavljača mi zapravo ne generiramo košnicu ili svinju ili neki drugi kod koji nije svojstven našim motorima. Tu su naši otvoreni izvori imali ogromnu ulogu, jer surađujemo s dobavljačima Hadoop-a, Cloudere, Hortonworks-a i MapR-a vrlo usko, a zbog doprinosa otvorenog koda, naš se motor zapravo pokreće kao izvor protoka., kao dio toka Hadoop, kao dio Iskre.

Što to također znači, imamo tu dinamičnu optimizaciju. To je došlo zbog toga što su kupci bili izazovni s računalnim okvirima. Dok su krenuli u proizvodnju s nekim aplikacijama, vratili su se i rekli: „Upravo stabiliziram svoj Hadoop klaster, stabiliziram se na MapReduce YARN verziju 2, MapReduce verziji 2, a ljudi pričaju da je MapReduce mrtav, iskre su sljedeća stvar, a neki ljudi kažu da će Flink biti sljedeća stvar, kako ću se ja nositi s tim? "

A ti su izazovi zaista postali toliko očiti, uložili smo u ovu dinamičku optimizaciju koju nazivamo inteligentnom izvedbom. U vrijeme izvođenja, kada posao, kada se ovaj cjevovod podataka šalje, na temelju klastera, bilo da je Spark, bilo da je to MapReduce ili samostalni Linux poslužitelj, mi odlučujemo kako taj posao izraditi, izvorno u našem motoru, kao dio toga Protok podataka Hadoop ili Spark. Nema režijskih troškova jer se sve postiže ovom dinamičnom optimizacijom koju imamo i sve je također učinjeno jer je naš motor tako izvorno integriran zbog naših doprinosa otvorenih izvora. Odgovara li to na vaše pitanje?

Eric Kavanagh: Da, to je dobro. I želim postaviti još jedno pitanje tamo, i tada ćemo Dez, možda i mi povesti tebe i Robina. Upravo sam dobio smiješan komentar jedne od naših sudionika. Pročitat ću ga jer je stvarno popriličan. On piše: "Čini se da je u povijesti stvari HOT" - shvati? Kao što je IoT - "što više pokušavate" pojednostaviti "nešto što je doista složeno, češće nego što se čini jednostavnijim, isporučuje se više visećeg konopa. Razmislite o upitu u bazu podataka, eksploziji, višestrukim navojem itd. “Možete li komentirati ovaj paradoks koji on spominje? Jednostavnost nasuprot složenosti i u osnovi što se zapravo događa ispod naslovnica?

Tendü Yogurtçu: Svakako. Mislim da je to vrlo valjana poanta. Kad pojednostavljujete stvari i radite ove optimizacije, na neki način ispod pokrivača netko treba shvatiti složenost onoga što se treba dogoditi, zar ne? Ako nešto paralizirate ili odlučujete kako izvoditi određeni posao s obzirom na računalni okvir, očito postoji neki dio posla koji se gurne, bilo da je kraj korisnika, kodiranje izbornika ili optimizacija motora. Tu je i dio toga, pojednostavljivanjem korisničkog iskustva velika je korist u pogledu mogućnosti korištenja skupova vještina koji postoje u poduzeću.

I taj paradoks možete nekako ublažiti, ublažiti taj izazov: "Da, ali ja nemam kontrolu nad svime što se događa ispod pokrivača, ispod haube u tom motoru", izlažući stvari naprednijim korisnicima ako želite imati takvu kontrolu. Ulaganjem u neke od stvari koje se mogu servisirati. Biti u mogućnosti ponuditi više operativnih metapodataka, više operativnih podataka, kao u primjeru koji je dao ovaj sudionik, za SQL upit kao i za pokretanje motora. Nadam se da odgovori.

Eric Kavanagh: Da, to zvuči dobro. Dez, odnesi to.

Dez Blanchfield: Stvarno mi je drago da dobijem malo više uvida u vaš otisak u doprinosima otvorenog koda i putovanju koje ste iskoristili iz svog tradicionalnog, dugogodišnjeg iskustva u mainframeu i vlasničkom svijetu, a zatim prelazak u doprinos otvorenom izvoru i kako se to odvijalo. I druga stvar koju želim razumjeti jest gledište koje vidite da tvrtke, ne samo IT odjeli, već i tvrtke sada uzimaju s obzirom na čvorišta podataka ili podatkovna jezera kao što to ljudi kažu i sada vide li ovaj trend samo jedno jedinstveno, konsolidirano jezero podataka ili vidimo li distribuirana jezera podataka i ljudi koriste alate kako bi ih složili?

Tendü Yogurtçu: Svakako. Za prvo je to bilo vrlo zanimljivo putovanje, kao softverska tvrtka vlasnika, jedna od prvih nakon IBM-a. Međutim, opet, sve je počelo s kupcima evanđelista koji su gledali Hadoop. Imali smo tvrtke kao što je ComScore, one su bile prve koje su prihvatile Hadoop jer su prikupljale digitalne podatke širom svijeta i nisu mogle zadržati 90 dana podataka, osim ako nisu uložile kutiju za skladištenje podataka u iznosu od deset milijuna dolara u svoje okoliš. Počeli su gledati Hadoop. S tim smo počeli i gledati Hadoop.

I kad smo donijeli odluku i priznali da će Hadoop zaista biti podatkovna platforma budućnosti, također smo shvatili da nećemo moći imati predstavu u ovom, uspješnom igranju u ovom slučaju, osim ako bili dio ekosustava. I usko smo surađivali s dobavljačima Hadoopa, s Clouderom, Hortonworksom, MapR-om, itd. Počeli smo stvarno razgovarati s njima jer partnerstvo postaje vrlo važno za potvrđivanje vrijednosti koju dobavljač može donijeti i osigurava da zajednički možemo ići u poduzeće i ponuditi nešto smislenije. Bilo je potrebno puno izgradnje odnosa jer nismo bili poznati po projektima otvorenog koda Apache, međutim, imali smo veliku podršku ovih dobavljača Hadoopa, moram reći.

Počeli smo raditi zajedno i promatrali smo središte kako možemo postići vrijednost bez čak i našeg softvera vlasnika u prostoru. To je bilo važno. Ne radi se samo o stavljanju nekih API-ja na koje se vaš proizvod može pokretati, nego o moći da se kaže da ću uložiti u to jer vjerujem da će Hadoop biti platforma budućnosti, pa tako i ulaganjem u izvore koje smo željeli napraviti sigurni da sazrijeva i postaje poduzeće spremno. Zapravo možemo omogućiti neke slučajeve uporabe koji nisu bili dostupni prije naših doprinosa. To će imati koristi za cijeli ekosustav i ta partnerstva možemo vrlo usko razviti.

Trebalo mi je dosta vremena. Počeli smo pridonositi u 2011., a 2013., 21. siječnja - sjećam se datuma jer je tog datuma počinio naš najveći doprinos, što je značilo da od tog trenutka možemo imati svoje proizvode općenito na raspolaganju - trebalo je dosta vremena da se razviju ti odnosi, pokazuju vrijednost, partneri postaju dizajnerski partneri s dobavljačima i s počiniteljima u zajednici otvorenog koda. Ali bilo je jako zabavno. Bilo nam je vrlo drago kao tvrtka biti dio tog ekosustava i razvijati veliko partnerstvo.

Drugo pitanje o podatkovnom čvorištu / jezeru podataka, mislim da kada ove podatke u većini slučajeva vidimo kao uslugu implementacije, da, to bi mogli biti klasteri, fizički pojedinačni ili više klastera, ali to je više konceptualno nego postati to jedinstveno mjesto za sve podatke. Budući da u nekim organizacijama postoje velike klasterske implementacije u pretpostavci, ipak imaju i klastere, na primjer, u javnom oblaku, jer se neki podaci koji su prikupljeni od mrežnih odjeljaka stvarno čuvaju u oblaku. Mogućnost postojanja jednog cjevovoda za podatke pomoću kojih možete zapravo koristiti oboje, i koristiti ih kao jedinstveno podatkovno čvorište, jedinstveno podatkovno jezero, postaje važno. Ne nužno samo fizičko mjesto, ali mislim da će imati to čvorište podataka i jezero podataka po klasterima, preko zemljopisa i možda na premisi i oblaku biti vrlo kritično. Pogotovo krećući naprijed. Ove godine počeli smo viđati sve više i više oblačnih implementacija. Odlično je. U prvoj polovici ove godine do sada vidjeli smo dosta razmještanja oblaka.

Eric Kavanagh: Dobro, u redu. I Robin, imaš li kakvih pitanja? Znam da nam preostaje još nekoliko minuta.

Robin Bloor: Dobro, mogu li joj postaviti pitanje. Prvo što mi je palo na pamet je da je bilo puno uzbuđenja oko Kafke i zanimalo me vaše mišljenje o Kafki i kako se integrirate s načinom na koji ljudi koriste Kafku?

Tendü Yogurtçu: Svakako. Da, Kafka postaje prilično popularna. Među našim kupcima vidimo kako je vrsta sloja za prijenos podataka i vidi kako su podaci sabirnica. Na primjer, jedan od naših kupaca zapravo je koristio neke vrste konzumirajućih podataka koji su ubačeni u ovu Kafku među višestrukim, poput tisuća online korisnika i koji su u mogućnosti to klasificirati i progurati.

Ponovno, Kafka je sabirnica podataka prema različitim potrošačima tih podataka. Klasificirajte neke napredne korisnike nasuprot ne tako naprednim korisnicima i učinite nešto drugačije napredujući u tom cjevovodu podataka. Kako se integriramo s Kafkom u osnovi, naš proizvod DMX-h postaje pouzdan potrošač, visoko učinkovit, pouzdan potrošač za Kafku. Može čitati podatke i to se ne razlikuje od čitanja podataka iz bilo kojeg drugog izvora podataka. Korisnicima dajemo mogućnost kontrole prozora bilo u pogledu vremenskog zahtjeva koji imaju ili broja poruka koje mogu konzumirati iz magistrale Kafka. A onda možemo i obogatiti te podatke jer su to prošli kroz naš proizvod i gurnuti natrag u Kafku. To smo testirali. Usporedili smo rezultate na mjestu kupca. Također certificirano od strane Confluent-a. Blisko surađujemo s momcima iz Confluent-a i vrlo je uspješan i jednostavan za korištenje. Opet se API-ji mijenjaju, ali ne morate brinuti jer proizvod to stvarno tretira kao samo još jedan izvor podataka, strujni izvor podataka. Zapravo je zabavno raditi s našim proizvodom i Kafkom.

Robin Bloor: U redu. Imam još jedno pitanje koje je općenito poslovno pitanje, ali Syncsort poznajem već duže vrijeme i uvijek ste imali reputaciju i isporučili izuzetno brz softver za ETL i svijet mainframea. Je li slučajno da se većina vašeg poslovanja sada prenosi u Hadoop? Je li slučajno da ste na jedan ili drugi način prilično dramatično proširili svoje poslovanje iz svijeta mainframea?

Tendü Yogurtçu: Naši proizvodi iz mainframea i dalje vode 50 posto glavnih glavnih svjetskih okvira. Tako da imamo vrlo jaku liniju proizvoda mainframea, osim onoga što radimo na velikim podacima i na kraju Hadoop-a. I još uvijek smo u većini projekata za pojednostavljivanje ili optimizaciju IT-a jer postoji jedan kraj na kojem želite biti u mogućnosti uključiti se u vaše podatke mainframe-a na velikim Multex platformama podataka i iskoristiti sve podatke o poduzeću, no postoje i vrlo kritična transakcijska opterećenja koji se i dalje prikazuje na mainframe-u, a tim kupcima nudimo načine kako da te aplikacije zaista učine učinkovitijima, pokreću se u zIIP motoru tako da ne troše toliko ciklusa obrade i MIPS, da bi bili isplativiji.

Mi i dalje ulažemo u mainframe proizvode i zapravo se igramo u ovom prostoru gdje ljudi idu od mainframe velikog željeza do velikih podataka i raspoređuju liniju proizvoda također na tim platformama. Tako da ne moramo nužno prebacivati ​​cijeli posao na jednu stranu, mi i dalje imamo vrlo uspješan posao na obje strane. A akvizicije su veliki fokus i za nas. Kako se razvija prostor za upravljanje podacima i za obradu podataka za velike podatkovne platforme, također se obvezujemo napraviti nekoliko besplatnih akvizicija.

Robin Bloor: Pa, pretpostavljam da te ne mogu pitati što oni jesu jer mi ne smiješ dopustiti da mi kažeš. Zanima me jesu li vidjeli mnoge implementacije Hadoopa ili Sparka zapravo na mainframe ili je to vrlo rijetka stvar.

Tendü Yogurtçu: Nismo ga vidjeli. Ima više pitanja u vezi s tim. Mislim da Hadoop na mainframeu nije imao puno smisla zbog vrste jezgrene strukture. Međutim, Spark na mainframeu ima puno smisla i Spark je zaista jako dobar s strojnim učenjem i prediktivnom analitikom te mogućnosti da imamo neke od tih aplikacija s podacima mainframea zaista mislim da ima puno smisla. Još nikoga nismo vidjeli, ali stvarno je to koristan slučaj koji vozi ove stvari. Ako vaš slučaj korištenja kao tvrtka više donosi te podatke mainframea i integrira s ostatkom skupova podataka na velikoj platformi podataka, to je jedna priča. Potreban je pristup podacima mainframe s platforme Multex s velikim podacima, jer je malo vjerovatno da vaše skupove podataka vratite iz otvorenih sustava i ponovo ih pozvate u mainframe. Međutim, ako imate neke podatke mainframea koje želite samo istražiti i malo otkriti otkrivanje podataka, primijeniti neki napredni AI i naprednu analitiku, onda bi Spark mogao biti dobar način da se krenete i pokrenete na mainframe.

Eric Kavanagh: I evo još jednog pitanja publike, zapravo još dva. Ja ću vam postaviti pitanje tima, a mi ćemo završiti. Jedan sudionik se pita, "Da li IBM integrira vaše otvorene izvore u svoj javni ekosustav u oblaku, drugim riječima, Bluemix?", A drugi je sudionik izrazio vrlo dobar poante, primjećujući da je Syncsort odličan za održavanje velikog željeza za one koji već je imate, ali ako tvrtke odustanu od novih glavnih računala u korist onoga što on naziva CE, zamrznite sve, to će vjerojatno propasti, ali napominje da ste stvarno dobri u premještanju podataka zaobilazeći operativne sustave do gigabajta u sekundi. Možete li razgovarati o vašoj osnovnoj snazi, kao što je spomenuo, i uključuje li IBM vaše stvari u Bluemix ili ne?

Tendü Yogurtçu: S IBM-om smo već partneri s IBM-om i razgovarali smo o njihovim uslugama oblaka podataka koji nude proizvod. Naši prilozi otvorenog koda otvoreni su svima koji ih žele iskoristiti. Neko od povezivanja s glavnim okvirom dostupno je i u paketima Spark, pa ne samo u IBM-u. Svatko ih može iskoristiti. U Bluemixu još nismo ništa konkretno napravili. I mislite li ponoviti drugo pitanje?

Eric Kavanagh: Da, drugo se pitanje odnosilo na vaše osnovno područje funkcionalnosti tijekom godina, koje je stvarno rješavalo uska grla ETL-a i očito je to nešto što vi i dalje radite kao mainframes, dobro, teoretski se držite podalje, iako Dez's poanta je još uvijek vrsta ljuljanje i valjanje vani. No, sudionik je upravo napomenuo da je Syncsort vrlo dobar u kretanju podataka zaobilazeći operativne sustave i do gigabajta u sekundi. Možete li to komentirati?

Tendü Yogurtçu: Da, zaista ukupna učinkovitost resursa bila je naša snaga, a skalabilnost i performanse bili su naša snaga. Mi ne pravimo kompromise, pojednostavljenje ima mnogo značenja, ne pravimo kompromise s tim. Kada su, primjerice, ljudi počeli razgovarati o Hadoopu 2014. godine, mnoge organizacije u početku nisu stvarno gledale na njegov učinak. Govorili su: "Oh, ako se nešto dogodi mogu dodati još nekoliko čvorova i bit ću dobro, izvedba nije moj zahtjev."

Dok smo razgovarali o najboljim performansama jer smo već trčali izvorno, nismo ni imali neke početne štucanje koje je Hive imao s više poslova MapReduce i režijom kada ih je pokrenuo. Ljudi su nam govorili: "Oh, to me ne brine, trenutno se ne brinite zbog toga."

Kad smo došli do 2015. godine, taj se krajolik promijenio jer su neki od naših kupaca već premašili skladište koji su imali u njihovim proizvodnim klasterima. Za njih je postalo vrlo kritično vidjeti što Syncsort može ponuditi. Ako uzimate neke podatke iz baze podataka ili glavnog okvira i pišete u parketni format u klasterima, bez obzira da li se prizemljite i postavite i napravite još jednu transformaciju ili samo izvršite transformaciju letjelice i format ciljne datoteke za slijetanje, napravili ste razliku jer štedite od pohranu, štedite od mrežnog pojasa, štedite od opterećenja na klasteru jer ne izvodite dodatne zadatke. Čini se da su one snage koje igramo u smislu toga da smo vrlo svjesni, kako osjećamo učinkovitost resursa ispod svoje kože.

Tako je opisujemo. Za nas je to kritično. Ne uzimamo zdravo za gotovo. Nikada ga nismo uzimali zdravo za gotovo pa ćemo i dalje biti jaki s tim utjecajem u Apache Sparku ili sljedećem računalnom okviru. To će i dalje biti naš fokus. A što se tiče dijela kretanja podataka i dijela podataka, definitivno je to jedna od naših prednosti i pristupamo DB2 ili VSAM podacima na glavnim okvirima u kontekstu Hadoop ili Spark.

Eric Kavanagh: Pa to je sjajan način da se okonča webcast, narode. Hvala vam puno na vašem vremenu i pažnji. Zahvaljujem vama, Tendü i Syncsort, što ste došli u prostoriju za informiranje i zakoračili u krug, kako kažu. Puno sjajnih pitanja iz publike. Vani je, stalno, okruženje. Arhivirat ćemo ovaj Hot Tech kao i svi drugi. Možete nas pronaći na adresi insideanalysis.com i na techopedia.com. Obično se digne za oko jedan dan. I s tim ćemo se oprostiti, ljudi. Puno ti hvala. Razgovarat ćemo uskoro. Čuvaj se. Doviđenja.

Veliko željezo, upoznajte velike podatke: oslobađanje podataka glavnih okvira uz hadoop i iskru