BIG DATA SVET

Objavljeno : January 29, 2015

Hadoop! Šta je i šta nije?
Kako nastaje Hadoop?
hadoop-pic
Početkom XXI veka grupa entuzijasta je radila na open source Web pretraživaču pod imenom Nutch i sve je bilo obećavajuće, dok rastuća popularnost World Wide Web – a nije sa sobom donela i problem skalabilnosti za kreatore Nutch – a. 2003. godine Google objavljuje dokument pod nazivom Google File System ili skraćeno GFS gde detaljno opisuju arhitekturu distribuiranog fajl sistema koji su oni već uveliko koristili. Takođe 2004. godine Google objavljuje još jedan dokument pod nazivom MapReduce: Simplified Data Processing on Large Clusters. Ubrzo nakon toga Nutch je bio izgrađen na NDFS – u (Nutch Distributed File System) koji je pogađate bio vrlo sličan GFS – u i na MapReduce – u. Projekat Hadoop nastaje iz Nutch – a, a svoju pravu podršku dobija kada se jedan od osnivača pridružuje Yahoo – u 2006. godine, a 2008. Hadoop postaje Top Level Apache projekat. Danas je Hadoop praktično sinonim za BigData ili za obradu velikih količina podataka koji se koristi u ogromnom broju kompanija i javnom sektoru širom sveta.

Šta je Hadoop?

Hadoop je set tehnologija koji se koristi za skladištenje i obradu velikih količina podataka. U osnovi Hadoop čine HDFS (Hadoop Distributed File System) kao osnova za skladištenje podataka i MapReduce koji predstavlja interfejs za procesuiranje velikih količina podataka skladištenih u HDFS – u. Takođe danas je maltene neizbežno pomenuti i ostale alate kao što su Hive, Pig, Sqoop, Flume, Impala, Zookeeper, YARN, Avro, Spark itd. koji se smatraju sastavnim delom Hadoop ekosistema.
Hadoop dolazi u nekoliko različitih distribucija. Apache Hadoop je verzija koja je potpuno besplatna (open source) i može biti interesantna onima koji žele da zavire i ispod haube i pogledaju ili menjaju i source code samog sistema. Sve alate morate manuelno instalirati što može oduzeti dragoceno vreme i posebna pažnja se mora obratiti na različite verzije alata koje instalirate kako bi sve radilo na željeni način. Popularna komercijalna izdanja, koje takođe besplatno možete testirati, ali za komercijalnu upotrebu morate platiti su Cloudera, Hortonworks i MapR. Komercijalne verzije dolaze unapred pripremljene sa svim alatima i možete ih instalirati kao virtuelne mašine na vašem računaru. Proces instalacije je vrlo jednostavan za svakoga ko se sreo već sa VMWare – om ili VirtualBox – om i ne traje više od pola sata. U koliko planirate da Hadoop koristite u Cloud – u treba imati u vidu da nisu sve komercijalne verzije dostupne. Recimo AWS (Amazon Web Service) nudi open source verziju Hadoop – a, a od komercijalnih MapR je dostupna verzija.

Verovatno se pitate koji tip podataka ili koji je to scenario gde je Hadoop pravo rešenje? Prvi scenario je svakako gde količina podataka počinje da prevazilazi mogućnosti relacionih baza podataka i to se svakodnevno dešava u velikom broju organizacija. Čak i ako je moguća skalabilnost relacionih baza podataka do granice od više terabajta pa čak i do petabajta takav proces je neverovatno komplikovan i skup pa se kompanije često odlučuju da određene podatke jednostavno ignorišu. Treba imati na umu da nije u pitanju izbor da li da odbacimo relacione baze podataka i umesto njih implementiramo Hadoop, već da li Hadoop može biti pogodno rešenje za procesuiranje određene vrste podataka koje generišemo? U nekim slučajevima relacione baze i NoSQL baze podataka su mnogo bolje rešenje nego Hadoop.

Ako želimo da analiziramo veliku količinu bihevioralnih podataka (behavioral data) i ako na rezultat upita smo spremni da čekamo nekoliko sati ili više, onda je Hadoop pravo rešenje. Ako podatke posmatramo kao grupu (batch), a ne kao individualne rekorde Hadoop je pravo rešenje. Za analizu podataka sa web foruma i društvenih mreža, konkretnije sentimentalna analiza podataka Hadoop je dobar izbor. Stav posetilaca foruma o određenoj temi. Takođe podaci koje generišu medicinski uređaji koji nadziru rad organa ili uređaji koji mere određene aktivnosti u toku treninga sportista. Ponašanje posetilaca na sajtovima koji se bave prodajom preko Interneta. Sa kog linka je posetilac došao, koliko je posetilaca muškog pola kupilo određeni proizvod, koji su to proizvodi čija prodaja raste vikendom u određenoj geografskoj regiji itd. Kada su u pitanju maloprodajni objekti, da li mušterije koje kupuju pivo takođe kupuju i čips i koji brend, da li pred najavu velikih snegova zimi raste i koliko prodaja ključnih namirnica itd. Podaci koje generišu meteorološke stanice, streaming servisi i još mnogi drugi su problemi za koje je idealno rešenje Hadoop.

“U Americi je poznat slučaj oca koji je tužio Wallmart jer je njegova 16. godišnja ćerka dobijala email preporuke za kupovinu proizvoda za bebe. Kada se ispostavilo da je devojčica zaista trudna otac je bio primoran da se javno izvini. Bez analize bihevioralnih podataka tj. ponašanja devojčice na Wallmart web sajtu, tj. linkova koje je posetila Wallmart ne bi bio u stanju da predvidi njene potrebe bolje nego njen otac. Vrlo je verovatno da osnova takvog Wallmart – ovog sistema je upravo HDFS i Hadoop.”

Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Popunite obavezna polja *