Sadržaj:
Definicija - Što znači svinja Apache?
Apache Pig je platforma koja se koristi za analizu velikih skupova podataka. Sastoji se od jezika na visokoj razini za izražavanje programa analize podataka, zajedno s infrastrukturom za ocjenu tih programa. Jedna od najznačajnijih značajki Svinje je ta da njezina struktura reagira na značajnu paralelizaciju.
Svinja djeluje na platformi Hadoop, piše podatke i čita podatke iz Hadoop distribuiranog datotečnog sustava (HDFS) i obavlja obradu pomoću jednog ili više MapReduce poslova. Apache Pig dostupan je kao open source.
Svinja Apache poznata je i kao programski jezik za svinje ili Hadoop pig.
Tehopedija objašnjava Apache Pig
Svinja Apache ima dva dijela: svinjski latinski jezik i motor svinje. Latinski jezik Svinja je skriptni jezik koji omogućuje korisnicima da ilustriraju način na koji tok podataka s jednog ili više ulaza mora biti očitan i obrađen, te mjesto na kojem se moraju pohraniti.
Neka od ključnih svojstava svinjske latinske su sljedeća:
- Jednostavno programiranje: Zamršeni zadaci koji se sastoje od različitih međusobno povezanih transformacija podataka jasno su kodirani kao sekvence protoka podataka. To ih čini jednostavnim za pisanje, razumijevanje i održavanje.
- Mogućnosti optimizacije: Način kodiranja zadataka omogućava sustavu da optimizira automatsko izvršenje. To omogućava korisniku da umjesto efikasnosti obraća pažnju na semantiku.
- Proširenost: Korisnicima je omogućeno da izrade vlastite funkcije za obavljanje posebne namjene. Moć svinje odgovoran je za izvršavanje protoka podataka pisanog svinjskim latinskim jezikom. Slično kao i dizajn standardnog sustava za upravljanje relacijskim bazama podataka (RDBMS), Apache Pig se sastoji od analizatora, analizatora i provjere tipa, osim operatora koji provode obradu podataka. Svinja ne uključuje transakcije, katalog podataka ili mogućnost direktnog rukovanja pohranom podataka ili korištenjem izvršnog okvira.