Sadržaj:
Klinička genomika je fascinantan predmet, gdje ljudi rade na vrhunskim tehnologijama za obradu brzih i točnih rezultata. Na tržištu je dostupno mnogo sekvencijskih genoma, koji proizvode petabajte podataka o sekvenci, a porast sekvenciranja u skoroj budućnosti će proizvesti podatke o pretjeranom stanju. Ovdje je Hadoop savršena platforma za obradu složenog rada iz genomike. Hadoop može pohraniti i sortirati ogromne količine informacija, a također može pružiti smislenu analizu. (Da biste saznali koliko podataka stvarno uključuje, pročitajte Razumijevanje bitova, bajtova i njihovih višestrukih.)
Sadašnjost i budućnost genomike
Danas je mapiranje genoma dostiglo vrhunac. Mnogi ljudi povezani s genomičkom industrijom pune su radoznalost, a kako se predstavljaju nove mogućnosti, bolja tehnologija je potreba sata. Redoslijed genoma vrlo je ponavljajući i zahtjevan posao. Samo u 2013. godini proizvedeno je oko 15 petabajta podataka, a samo 2.000 sekvenera. Taj iznos koji ispada iz čeljusti uključuje 300 KB sekvencioniranih podataka o ljudskom genomu. Po ovoj brzini proizvodnje podataka može se procijeniti da će se do 2018. proizvesti oko jedan pretjerani baz podataka. To će biti posljedica rasta sekvenci, koji će stvarati sve više i više podataka po radnji. Drugi razlog je pojava izuzetno moćnih i jeftinih strojeva za sekvenciranje genoma. Od 2008. godine cijena ovih strojeva stalno se smanjuje. To je zbog snažnih strojeva sljedeće generacije koji su se plasirali na tržište.
Potrebe industrije za mapiranje genoma
Za obradu podataka prikupljenih iz ljudskog genoma koriste se složeni algoritmi. Zatim, te podatke treba pohraniti. Može ga pregledati u budućnosti radi usporedbe s izvornim podacima. Zadatak obrade i spremanja 100 GB podataka nije previše težak, pogotovo ako to radite s moćnim strojevima zaposlenima u centrima za slijed. Studije pokazuju da se ta količina podataka može obraditi u samo oko 1.000 CPU sati, pa je to vrlo jednostavno. Takvom brzinom tehničkog napretka očito je da će industrija genoma uskoro obraditi tisuće gigabajta u samo nekoliko sekundi.
