Video: Jednostavna forma(obrazac) za unos podataka u Excelu tabele (Studeni 2024)
Pisali smo puno o ulozi podataka u modernom poslovanju. Od startupa i malih do srednjih poduzeća (SMBs) do velikih poduzeća, uvid u podatke i analize dostupniji su tvrtkama svih veličina nego ikad prije. To je dijelom zahvaljujući rastu samoposlužne poslovne inteligencije (BI) i alata za vizualizaciju podataka.
Iako prije korištenja BI alata ili pokretanja prediktivne analize na skupu podataka, postoji niz čimbenika koji se mogu odmaknuti. Započinje jednostavno razumijevanjem što su Big Data, što nisu (nagovještaj: nije kristalna kugla) i kako upravljati pohranom podataka, organizacijom, dozvolama i sigurnošću u vašoj arhitekturi podataka poduzeća. Ovdje dolazi do upravljanja podacima. Postupci kojima osiguravate upravljanje unutar poduzeća razlikuju se ovisno o tome s kim razgovarate. Ali u osnovi je upravljanje podacima povezano s povjerenjem i odgovornošću podataka, oženjenim sveobuhvatnim najboljim praksama sigurnosti podataka.
Razgovarao sam s Hortonworksom i MapR-om, dvama najvećih poduzeća Hadoop dobavljača na tržištu. Scott Gnau, glavni tehnološki direktor tvrtke Hortonworks, i Jack Norris, stariji potpredsjednik za podatke i aplikacije MapR-a, objasnili su što upravljanje podacima znači njihovim organizacijama. Razgovaralo se o tome kako se riješiti složenog izazova osiguranja upravljanja podacima unutar složenih arhitektura podataka i organizacijske hijerarhije velikog poduzeća.
Što je točno Upravljanje podacima i zašto nam je to potrebno?
Upravljanje znači osigurati da su podaci poduzeća autorizirani, organizirani i odobreni u bazi podataka s što je moguće manje pogrešaka, a istovremeno se čuvaju privatnost i sigurnost. Uspostaviti nije lako ravnotežu, pogotovo kad je stvarnost gdje se i kako pohranjuju i obrađuju podaci stalno u toku. Norris MapR-a objasnio je zašto tvrtke moraju gledati upravljanje podacima s više razine i usredotočiti se na širu mrežu podataka.
"Kada počnete skalirati raznolikost i brzinu Big Data-a kojima se bavimo, morate imati upravljanje podacima, ali to je u ovom širem kontekstu. Koji su podaci koji imate, tko ima pristup njima i kako ste upravljanje rodom tih podataka tijekom vremena? " rekao je Norris. "Sa stajališta upravljanja podacima, možete imati različite faze podataka koji postoje u sustavu koji se mogu snimiti tako da se možete vratiti u bilo kojem trenutku u cjevovod. Radi se o uspostavljanju revizijske kontrole i kontroli pristupa na podatkovnoj platformi kako biste napravili sigurno otkrivanje podataka i analitika su transparentni, bez obzira jeste li poslovni menadžer koji gleda skupove financijskih podataka ili podatkovni znanstvenik koji radi sa sirovim podacima iznad struje."
Izvor: Rimes Kliknite sliku za cjelovit prikaz.
Hortonworks 'Gnau uključio se u sličnu točku. Bilo da se bavite skladištem podataka ili arhitekturom jezera podataka, upravljanje podacima radi na uravnoteženju suprotstavljenih sila. Riječ je o neograničenom pristupu podacima kako bi se potaknuli inovacije i stekli uvidi, precizna dopuštenja i privatnost za istodobnu zaštitu tih podataka do kraja.
"Usporedite i usporedite stari svijet tradicionalnog upravljanja u prostoru podataka; bilo je to malo lakše", rekao je Gnau. "Podaci su se nekoć definirali ulogom posla ili aplikacijom. U novom svijetu najviše dobivate kada znanstvenici imaju pristup što većem broju podataka i otkrivaju da je sretni medij vrlo važan.
"To je sasvim nova paradigma u načinu na koji trebate pristupiti upravljanju", dodao je Gnau. "U ovom novom svijetu smatram teme upravljanja i sigurnosti koje treba pokriti zajedno. Mnoge se tvrtke i dalje trude da to pređu kako bi omogućile svojim znanstvenicima podataka da budu efikasni u pronalaženju tih novih slučajeva upotrebe, a istovremeno, razumijevanje kako postupati sa sigurnošću, privatnošću, upravljanjem - sve ono što je važno iz najnovije perspektive, a također i iz perspektive reputacije tvrtke."
Kako bi plan upravljanja podacima o poduzećima trebao obuhvatiti i zadovoljiti sve one suprotstavljene snage? Ispunjavanjem svakog zahtjeva metodički, korak po korak.
Kako izraditi plan upravljanja podacima
Hortonworks, MapR i Cloudera su tri najveća neovisna igrača na Hadoop svemiru. Tvrtke imaju svoje sfere utjecaja kada je u pitanju upravljanje podacima. MapR je objavio niz bijelih radova o ovoj temi i izgradio upravljanje podacima na cijeloj svojoj konvergiranoj platformi podataka, dok Hortonworks ima vlastito rješenje sigurnosti i upravljanja podacima i suosniva Inicijativu za upravljanje podacima (DGI) 2015. godine. To je dovelo do otvaranja -source Apache Atlas projekt koji pruža otvoreni okvir za upravljanje podacima za Hadoop.
Ali kada je u pitanju kako svaki dobavljač izrađuje sveobuhvatno upravljanje podacima i sigurnosnim strategijama, Gnau i Norris su razgovarali slično. Slijede kombinirani koraci koje Hortonworks i MapR preporučuju poduzećima na umu prilikom izrade plana upravljanja podacima.
Najveći: Granalni pristup podacima i autorizacija
Obje se tvrtke slažu da ne možete imati učinkovito upravljanje podacima bez detaljne kontrole. MapR ovo ostvaruje prvenstveno kroz izraze kontrole pristupa (ACE). Kao što je Norris objasnio, ACE koriste grupiranje i logičku logiku za kontrolu fleksibilnog pristupa podacima i autorizaciji, s dopuštenjima koja se temelje na ulogama i postavkama vidljivosti.
Rekao je da misli na to kao na Gartnerov model. Na osi Y na donjem kraju su stroga upravljanja i niska okretnost, a na X-osi na gornjem kraju su veća okretnost i manje upravljanje.
"Na niskoj razini zaštitite osjetljive podatke tako što ih obmanjujete. Na vrhu imate povjerljive ugovore za znanstvenike s podacima i BI analitičare", rekao je Norris. "Skloni smo tome sa mogućnostima maskiranja i različitim prikazima gdje zaključavate neobrađene podatke na dnu što je više moguće i postupno pružate više pristupa dok, na gornjem kraju, administratorima ne omogućite širu vidljivost. Ali kako to dati pristup pravim ljudima?
"Ako danas pogledate popis kontrole pristupa, reći će da je to nešto poput" svi koji imaju inženjering mogu tome pristupiti ", dodao je Norris. "Ali ako želite da nekoliko odabranih direktora na projektu unutar IT-a ima pristup ili svi osim osobe, morate stvoriti posebnu grupu. To je pretjerano kompliciran i iskrivljen način gledanja na pristup."
Tu dolazi do davanja prava pristupa različitim razinama i grupama, prema Norrisu. "Kombinirali smo ACE na različite načine na koje možete pristupiti podacima - kroz datoteke, tablice, potoke itd. - i implementirali prikaze bez zasebnih kopija podataka. Na taj način pružamo prikaze istih neobrađenih podataka i vlasničke preglede mogu imati različite razine pristupa. To vam daje integriraniju sigurnost koja je izravnija."
Hortonworks obrađuje granuliran pristup na sličan način. Integrirajući Apache Atlas za upravljanje i Apache Ranger, Gnau je rekao da tvrtka rukuje autorizacijom na razini poduzeća kroz jednu staklenu ploču. Ključna je, kako je rekao, sposobnost kontekstualno odobriti pristup bazi podataka i određenim oznakama metapodataka pomoću pravila temeljenih na oznakama.
"Jednom kad se netko nalazi u bazi podataka, riječ je o tome da ih vodi kroz podatke do kojih bi trebali imati relevantan pristup", rekao je Gnau. "Rangerove sigurnosne politike na razini objekta, fino i precizno i svugdje između toga mogu se nositi s tim. Uključivanjem te sigurnosti u upravljanje stvari postaju stvarno zanimljive.
"Da biste postigli razmjere u velikim organizacijama, te uloge morate integrirati s upravljanjem i označavanjem metapodataka", dodao je Gnau. "Ako se prijavim iz Singapura, možda postoje drugačija pravila koja se temelje na lokalnim zakonima o privatnosti ili korporacijskoj strategiji. Jednom kada tvrtka definira, postavi i razumije ta pravila iz holističke perspektive odozgo prema gore, možete isključiti pristup na temelju određena pravila postavljaju tijekom izvršavanja svega unutar osnovne platforme."
Izvor: IBM Big Data & Analytics Hub. Kliknite sliku za cjelovit prikaz.
2. Perimetrična sigurnost, zaštita podataka i integrirana provjera autentičnosti
Upravljanje se ne događa bez sigurnosti krajnje točke. Gnau je rekao da je važno izgraditi dobar perimetar i vatrozid oko podataka koji se integriraju s postojećim sustavima i standardima za provjeru autentičnosti. Norris se složio da je, kada je u pitanju provjera autentičnosti, važno da se tvrtke sinkroniziraju s isprobanim sustavima.
"Pod autentifikacijom se radi o tome kako se integrirati s LDAP-om, Active Directoryom i uslugama direktorija treće strane", rekao je Norris. "Također podržavamo Kerberos korisničko ime i lozinku. Važno je ne stvoriti zasebnu zasebnu infrastrukturu, već način integriranja u postojeću strukturu i sustave upravljanja poput Kerberosa."
3. Šifriranje podataka i tokenizacija
Sljedeći korak nakon osiguranja vašeg perimetra i autentifikacije svih detaljnih pristupa podacima koje odobravate: Provjerite da li su datoteke i podaci o osobnoj identifikaciji (PII) šifrirani i tokenizirani od kraja do kraja kroz cjevovod za podatke. Gnau je razgovarao o tome kako Hortonworks osigurava podatke o PII-u.
"Jednom kada prijeđete obod i dobijete pristup sustavu, mogućnost zaštite podataka iz PII-a izuzetno je važna", rekao je Gnau. "Morate šifrirati i tokenizirati te podatke, tako da bez obzira na to tko ima pristup njima mogu pokrenuti analitiku koja im je potrebna bez izlaganja bilo kojeg od tih podataka iz PII-a duž crte."
Što se tiče sigurnog pristupa šifriranim podacima i u pokretu i u mirovanju, MapR-ov Norris objasnio je da je važno imati na umu i slučajeve korištenja, kao što su sigurnosno kopiranje i obnova od katastrofe (DR). Raspravljao je o konceptu MapR-a nazvanom logički volumen koji može primijeniti politike upravljanja na rastuću skupinu datoteka i mapa.
"MapR je na najnižoj razini izradio WAN replikaciju za DR i vremenski usklađene snimke svih podataka koji se mogu postaviti na različite frekvencije u imeniku ili volumenu", rekao je Norris. "To je šire od upravljanja podacima. Možete imati fizički klaster s direktorijima, a zatim je koncept logičkog volumena zaista zanimljiva jedinica za upravljanje i način grupiranja stvari dok kontrolirate zaštitu podataka i učestalost. To je još jedna strelica u podacima IT administratora podrhtavanje upravljanja."
4. Stalna revizija i analitika
Gledajući širu sliku upravljanja, i Hortonworks i MapR rekli su da strategija ne funkcionira bez revizije. Ta razina izbirljivosti i odgovornosti u svakom koraku procesa je ono što omogućava informacijskim tehnologijama da zapravo „upravljaju“ podacima, za razliku od jednostavnog postavljanja politika i kontrola pristupa i nade najboljeg. To je i način na koji poduzeća mogu održavati svoje strategije aktualnima u okruženju u kojem se svakodnevno mijenjaju način na koji vidimo podatke i tehnologije koje koristimo za upravljanje i analizu.
"Posljednji dio moderne strategije upravljanja je evidentiranje i praćenje", rekao je Gnau. "Već smo u poretku Big Data i IoT i presudno je biti u mogućnosti pratiti pristup i prepoznati uzorke u podacima, tako da, kako se strategija treba ažurirati, mi smo ispred krivulje."
Norris je rekao da revizija i analiza mogu biti tako jednostavni kao praćenje datoteka JavaStation Notation (JSON). Nije svaki podatak vrijedan praćenja i analiziranja, ali vaše poslovanje nikada neće znati koje - sve dok ne utvrdite uvid koji se mijenja u igru ili se ne dogodi kriza i ne morate pokrenuti revizijski trag.
"Svaka JSON datoteka dnevnika otvorena je za analizu i imamo Apache Drill za upit JSON datoteka sa shemama, tako da nije ručni IT korak za postavljanje analize metapodataka", rekao je Norris. "Kad uključite sve događaje za pristup podacima i svaku administrativnu radnju, moguć je širok raspon analitike."
5. Jedinstvena arhitektura podataka
Konačno, tehnološki službenik ili IT administrator koji nadgleda strategiju upravljanja podacima u poduzeću trebao bi razmisliti o specifičnostima detaljnog pristupa, provjere autentičnosti, sigurnosti, šifriranja i revizije. Ali tehnološki službenik ili IT administrator ne bi se tu trebao zaustaviti; radije bi ta osoba trebala razmisliti o tome kako se svaka od tih komponenti ubacuje u svoju veću arhitekturu podataka. Također bi trebali razmisliti o tome kako ta infrastruktura treba biti skalabilna i sigurna - od prikupljanja i pohrane podataka pa sve do BI-a, analitike i trećih usluga. Gnau je rekao da se upravljanje podacima odnosi toliko na preispitivanje strategije i izvršavanja, koliko i na samu tehnologiju.
" To nadilazi jednu staklenu ploču ili zbirku sigurnosnih pravila", rekao je Gnau. "To je jedinstvena arhitektura gdje stvarate ove uloge i one se sinkroniziraju na cijeloj platformi i svim alatima koje unesete u nju. Ljepota sigurno upravljane infrastrukture je okretnost kojom se stvaraju nove metode. Na svakoj razini platforme, pa čak i na u hibridnom oblačnom okruženju, imate jedinstvenu referentnu točku da biste shvatili kako ste implementirali svoja pravila. Svi podaci prolaze kroz ovaj sloj sigurnosti i upravljanja."