Sadržaj:
Apache Hadoop je već duže vrijeme temelj za velike aplikacije za podatke i smatra se osnovnom podatkovnom platformom za sve ponude s velikim podacima. Međutim, baza podataka i računanje u memoriji dobivaju na popularnosti zbog bržih performansi i brzih rezultata. Apache Spark novi je okvir koji koristi mogućnosti u memoriji za brzu obradu (gotovo 100 puta brže od Hadoopa). Dakle, proizvod Spark sve se više koristi u svijetu velikih podataka, a uglavnom za bržu obradu.
Webinar: Snaga prijedloga: Kako katalog podataka omogućava analitičarima Registrirajte se ovdje |
Što je iskre Apache?
Apache Spark je okvir otvorenog koda za obradu ogromnih količina podataka (velikih podataka) brzinom i jednostavnošću. Prikladan je za analitičke aplikacije temeljene na velikim podacima. Spark se može koristiti u okruženju Hadoop, samostalno ili u oblaku. Razvijen je na Kalifornijskom sveučilištu, a potom je ponuđen softverskoj fondaciji Apache. Stoga pripada zajednici otvorenog koda i može biti vrlo isplativa, što dodatno omogućava amaterskim programerima da rade s lakoćom. (Da biste saznali više o Hadoopovom otvorenom izvoru, pogledajte Što je utjecaj otvorenog koda na ekosustav Apache Hadoop?)
Glavna svrha Sparka je da programerima nudi aplikacijski okvir koji djeluje oko centrirane strukture podataka. Spark je također izuzetno moćan i ima urođenu sposobnost za brzu obradu ogromnih količina podataka u kratkom vremenu, pružajući na taj način izuzetno dobre performanse. To ga čini puno bržim od onog za što se kaže da mu je najbliži konkurent, Hadoop.