Video: grupiranje podataka pojedinačno 01 (histogram) (Studeni 2024)
Poduzeća ne dobivaju nikakve bodove za efikasnost njihove infrastrukture ili za visok nivo podataka koje mogu prikupiti. Ono što se računa je kvaliteta analitike i inteligencije koju podaci daju.
U posljednjih nekoliko godina, Hadoop je riječ koja je postala najimitivnija za gutanje, obradu i transformiranje podataka. Ovaj open-source okvir za distribuirano pohranjivanje i obradu podataka stvorio je vlastiti prostor poduzeća i integrirao svoj put u sve glavne platforme u oblaku. Hadoop je daleko od jedine Big Data tehnologije o kojoj vrijedi razgovarati, ali postala je ona na kojoj se grade mnoge druge.
Problem za tvrtke je to što je prostor Hadoop prepun distribucija i opcija alata, a kako je objasnio direktor Gartner istraživanja Nick Heudecker, mnogi od njih izgledaju isto. Heudecker, čije istraživanje obuhvaća upravljanje informacijama, uključujući prostore Big Data i NoSQL, rekao je ako gledate opće mogućnosti obrade podataka, mnogi dobavljači nude vrlo slične značajke.
Probijanje tržišta
Postoje tri glavna start-up poduzeća Hadoop - Cloudera, Hortonworks i MapR - i svi oni neprestano rastu u 2015. Prema Gartneru, svaki ima oko 700 kupaca, daju ili uzimaju 10 posto, stavljajući globalno tržište između 2.100-2.400 Hadoop kupaca širom svijeta. Sva trojica nude i besplatni nivo i korporativni nivo svoje distribucije Hadoop, a svaki daje značajan open-source doprinos projektima pod zastavom Apache Software Foundation (ASF).
"Naši podaci pokazuju da je 44 posto upotrebe Hadoopa trenutno neplaćeno", rekao je Heudecker. "Postoji li jasan lider? Mislim da ne. Svi oni zahvaćaju udio na tržištu jer je to vrlo novi prostor."
U posljednjih nekoliko mjeseci, velik dio konkurencije između ove trojice srušio se na nadmetanje zbog mogućnosti analitike podataka i kreativnih načina integriranja Apache Spark-a, otvorenog koda Big Data engine-a za obradu podataka s korištenjem slučajeva iz real-time protoka podataka do strojnog učenja, MapR je nedavno najavio MapR Streams kao dio "konvergirane platforme podataka" integrirajući Hadoop, Spark obradu struje i analitiku. Hortonworks je uveo ažuriranje na Hortonworks platformu podataka (HDP) s in-memory Spark analitikom, a Cloudera nudi razne integracije s otvorenim izvorima Spark kroz svoju inicijativu One Platform, zajedno s ponudom Spark treninga.
"Dosta se događa u prostorima upravljanja informacijama i informacijskom infrastrukturom, a nije sve Hadoop", objasnio je Heudecker. "Iza Sparkova modela brze i memorijske obrade podataka postoji ogroman zamah, iako je Sparkov razvoj još uvijek u ranoj fazi. Spark će biti još jedna lingua franca u obradi podataka, poput SQL-a danas, i definitivno pokazuje znakove da ima nekih nogu kako sve više i više tvrtki ulaže u to."
Heudecker je također istaknuo važnost igrača u oblaku u Big Data-u; tehnološki divovi koji su integrirali Hadoop i druge Big Data tehnologije u svoju postojeću ponudu Infrastruktura kao usluga (IaaS).
Amazon Web Services (AWS) koristi svoju uslugu Amazon Elastic MapReduce (EMR) za orkestraciju na Hadoop-u utemeljenu u oblaku. Microsoft nudi čitav niz Big Data usluga u okviru svoje platforme Azure u oblaku, zajedno s Hortonworksom na njegovoj usluzi HDInsight za upravljanje Apache Hadoop, Spark, HBase i Storm, zajedno sa Azure Data Lake i Azure Data Analytics. IBM ima i svoju lokalnu IBM Open Platform ponudu za Hadoop i IBM BigInsights, paket analitike koji će se pokrenuti iznad njega, zajedno s upravljanim Hadoopom i Apache Spark-as-a-uslugom u svom Bluemix oblaku. Popis se nastavlja, a tvrtke pronalaze primjenjivije slučajeve upotrebe u oblaku.
"Procjenjujemo da samo AWS ima oko 5.000 kupaca, tako da je to dvostruko više od korisničke baze kombiniranih čistih igara", rekao je Heudecker. "Jedna od prednosti prelaska u oblak je to što ste dobili ekosustav. Možete dobiti čiste play Hadoop distribucije na bilo kojoj IaaS ponudi. MapR je dostupan u svim oblacima na koje se sjetite, osim IBM-ovih; isto za Cloudera i Hortonworks. Nismo vidjeli da dostupnost oblaka postaje previše faktor pri odabiru između drugog i drugog dobavljača."
Odabir strategije podataka poduzeća
I za mala i srednja poduzeća (SMB) i za rastuća poduzeća, kada ulažu u rješenja za obradu podataka i analitiku, Heudecker je rekao da je odlučujući faktor koja platforma može pružiti najvišu razinu usluge. Prema Gartnerovoj tvrtki najveći izazov je jaz u vještini - otkrivanje tko će upravljati platformom nakon što je instalira i implementira.
"Ako tvrtke traže partnera na platformi za podatke, tko će im pomoći pri ukupljanju podataka? Tko će im pomoći u izgradnji analitičke aplikacije? Što se tiče tri čista Hadoopa, kriteriji za ocjenu uglavnom su oko zrelost alata i konzola za upravljanje, alata za upravljanje podacima i performansi."
Drugi zanimljivi aspekt odabira Hadoop platforme je nedostatak vjernosti. Tvrtke preispituju svoju Hadoop platformu jednako često kao i svakih 6-12 mjeseci kako bi utvrdile da li su komponente za obradu podataka još uvijek u pravu, zbog toga koliko se brzo mijenja prostor i koliko su se mali igrači sami razlikovali. Heudecker je rekao da 20 posto tvrtki s kojima je razgovarao ima više Hadoop distribucija koje se izvode u njihovim podatkovnim centrima ili oblaku, ili dopuštaju različitim timovima da odaberu svoju platformu po izboru ili namjerno diverzificiraju kako se ne bi zaglavili sa samo jednom distribucijom Hadoop.
Ova vrsta raznolikog portfelja platforme hrani se onim što Frank Buytendijk, potpredsjednik istraživačkog odbora Gartner i ugledni analitičar koji se fokusira na digitalnu strategiju naziva "informacijom kao bogatstvom". Kao što ne možete voditi posao bez kapitala, rada, materijala i fizičkih ili virtualnih objekata, Buytendijk je rekao da ne možete voditi posao bez podataka.
"Ranije smo gledali poslovanje u smislu tri toka: primarni tok je roba, sekundarni tok novac, a tercijarni protok je informacija kako bismo osigurali da su roba i novac usklađeni. Sada je u većini poduzeća obrnuto.. Primarni tok su informacije, od identifikacije i konfiguracije do marketinga sadržaja, itd. Bez obzira na to zovete li Big Data ili ne, zapravo nije važno."
"Veliki podaci" su zastarjeli
Buytendjik je rekao da Big Data ne vidi kao zasebnu tehnologiju za tvrtke, već kao jednu temu ili način razmišljanja unutar vaše ukupne digitalne strategije.
"Ne vjerujem u strategiju velikih podataka", rekao je Buytendjik. "Gotovo da i nema poslovne strategije bez digitalnih komponenti, tako da vjerujem u digitalnu strategiju u kojoj sve vrste tehnologija pružaju kritične mogućnosti. To uključuje mobilne, društvene, cloud, IoT, pametne strojeve i velike podatke."
Heudecker vjeruje da ćemo sve manje i manje početi govoriti o "velikim podacima", jer sada su to samo podaci. To je način na koji posluju. Masivna količina i velika brzina podataka više nisu zastrašujući.
"Veliki podaci ponovo se preplavljuju informacijama i analitikom", rekao je Heudecker. "Kategorija Big Data iskreno se ne razlikuje. Uvijek nas pitaju veličina tržišta Big Data, ali što to uopće znači? Big Data zapravo nije tržište, to je koncept. Za posao, koji o Big Datau razmišljaju kao nešto jedinstveno i posebno što se radikalno razlikuje od onoga što ste prije napravili je greška. U ovom su trenutku podaci normalno."