Dom Značajke Ovi zagovornici žele osigurati da naši podaci ne nestanu

Ovi zagovornici žele osigurati da naši podaci ne nestanu

Sadržaj:

Video: Prisega zastupnica i zastupnika Kluba zeleno-lijevog bloka u Saboru (Rujan 2024)

Video: Prisega zastupnica i zastupnika Kluba zeleno-lijevog bloka u Saboru (Rujan 2024)
Anonim

Krajem svibnja ove godine, točno pet mjeseci od inauguracije 45. predsjednika Sjedinjenih Država, skupina ljudi zabrinuta zbog stava nove uprave prema znanosti i klimatskim promjenama obilježila je svoju posebnu obljetnicu.

Nedaleko od kampusa Sveučilišta u Sjevernom Teksasu, na ravnicama sjeverno od Dallasa, nekoliko desetaka pojedinaca okupilo se u Data Rescue Dentonu kako bi identificirali i preuzeli kopije saveznih podataka o klimi i okolišu. Ova okupljanja u stilu hackatona dobila su veliku pozornost u danima koji su prethodili otvaranju; Dentonu je to bio 50. takav događaj od siječnja.

Organizirajući se u početku iz zabrinutosti da bi nova uprava mogla izbrisati ili prikriti klime i druge podatke o okolišu, činilo se da se najgori strahovi spasilaca podataka ostvaruju kada je jedna od prvih akcija Trumpove Bijele kuće bila brisanje stranica o klimatskim promjenama sa njezine web stranice. Potom je američko Ministarstvo poljoprivrede, nakon što je uklonilo izvješća o inspekciji i dobrobiti životinja sa svojih web stranica, odgovorilo na zahtjev Nacionalnog zemljopisnog zakona o slobodi informacija s 1.771 stranica u cijelosti uređenog materijala.

Svatko može pristupiti više od 153.000 federalnih skupova podataka putem portala otvorenih podataka središnje države na adresi data.gov. Ali to je samo djelić podataka koji postoje u magli vladine birokracije, bez obzira na još manji dio koji se nalazi na poslužitelju.

"Negdje oko 20 posto vladinih podataka dostupno je na mreži", rekao je Jim Jacobs, knjižničar za Saveznu državnu službu u Sveučilišnoj knjižnici Stanford. "To je priličan komad stvari koje nisu dostupne. Iako agencije imaju vlastite wikije i sustave za upravljanje sadržajem, jedini put kad saznate za neke je to ako ih netko izvrši."

Da budemo sigurni, doista je prikupljeno puno informacija i sada se nalazi na nevladinim poslužiteljima. Između događanja Izbjegavanja podataka i projekata kao što je Potraga za kraj roka od 2016., arhivirano je više od 200 TB vladinih web stranica i podataka. No, organizatori spašavanja počeli su shvaćati da djelimični napori na stvaranju cjelovitih kopija terabajta podataka iz vladinih znanstvenih podataka ne mogu se realno održati dugoročno - to bi bilo poput sparkivanja Titanika tenkom.

Dakle, iako je Data Rescue Denton završio kao jedan od posljednjih organiziranih ovakvih događaja, kolektivni napori potaknuli su širu zajednicu na zajednički rad na postizanju više vladinih podataka koji su otkriveni, razumljivi i upotrebljivi, napisao je Jacobs u postu na blogu.

Pogled u knjižnice

Na Sveučilištu Pennsylvania, Bethany Wiggin je direktorica Penn programa u okolišnim humanističkim znanostima, gdje je bila središnja u pokretu Data Refuge, pokretač događanja Data Rescue. Fokus se sada pomaknuo, kako kaže, usmjeravanjem nacionalnih okvira za dugoročne napore, a ne lokalnim, periodičnim epizodama.

"Shvatili smo vještine koje su se pojavile na raznim mjestima radeći na događajima s podacima o spašavanju nešto što bi se moglo smanjiti", rekao je Wiggin, posebno u istraživačkim knjižnicama. "Ali ovi su se napori događali i prije nego što smo pokrenuli. Moć Datafugea bila je ugušiti te veze; katalizirati dugotrajne, sporo napredujuće projekte; i obasjati svjetlo koliko su oni važni."

Wiggin u posljednje vrijeme pomaže predvoditi Knjižnice + Mreža, novo partnerstvo istraživačkih knjižnica, knjižničnih organizacija i grupa otvorenih podataka koji su katalizirali proširenje tradicionalne uloge knjižnica u očuvanju pristupa informacijama. Sudionici uključuju istraživačku biblioteku Sveučilišta Stanford, Kalifornijsku digitalnu biblioteku i Mozilla Foundation, uz doprinose i suradnju entiteta u širokom rasponu poput Nacionalnog arhiva i glavnih službenika podataka nekoliko saveznih zavoda.

Jedan od projekata, na primjer, je LOCKSS ("puno kopija čuva stvari") koje Jacobs koordinira već nekoliko godina. Temelji se na istom principu kao i 200 godina stara mreža knjižnica poznata kao Federalni knjižnični program; te su knjižnice službena spremišta publikacija američkog Ureda za tisak (GPO).

LOCKSS je, nasuprot tome, privatna digitalna inačica ovog sustava koja se do sada sastoji od 36 knjižnica koje svojom suradnjom skupljaju publikacije iz GPO-a. To je model kako se digitalna informacija može zaštititi od brisanja ili neovlaštenog pristupanja tako što se može široko fizički raširiti.

"Ne možete osigurati očuvanje ako nemate kontrolu nad sadržajem", rekao je Jacobs. "Dio onoga što je depozitarne knjižnice činilo važnim i korisnim u zadnjih 200 godina je to što nitko u vladi nije mogao uređivati ​​dokument bez da zapravo ode u 1.500 knjižnica i kaže 'Da, promijenite ovu stranicu ovdje."

Softver LOCKSS koristi provjere predmemorije sadržaja na bitnoj razini i uspoređuje ga sa sadržajem kojeg posjeduju druge knjižnice, što Jacobs kaže da pomaže osigurati dugoročno očuvanje popravkom degradiranih datoteka.

John Chodacki, još jedan suradnik mreže Libraries +, direktor je kustoske za Kalifornijsku digitalnu knjižnicu, virtualnu informacijsku ustanovu koja opslužuje svih 10 kampusa u sustavu Sveučilišta u Kaliforniji. Radeći s graditeljem Code za znanost i društvo Maxom Ogdenom i Philipom Ashlockom, glavnim arhitektom data.gov-a, Chodacki kaže da je njihov fokus bio na korištenju data.gov kao dvosmjerne ulice.

Prvo su pokazali da bi samo spašavanje podataka moglo biti mnogo efikasnije spajanjem kopije data.gov i stavljanjem na vanjsko web mjesto, datamirror.org, sa skriptu za nadgledanje koja provjerava postoje li ažuriranja. Tada su Chodacki i suradnici također započeli gledati mogu li dovedeni skupovi podataka i metapodaci u zrcalo ući u postojeće radne tokove agencija. Pregledavanje stranica putem ogledala.

Prema izvršnoj naredbi Obame iz 2013. godine koja je nalagala objavljivanje strojno čitljivih podataka na data.gov, agencije bi i dalje bile odgovorne za stvaranje zapisa koji su navedeni na tom portalu; Chodacki i Ogden ideja je da predloženo skupove podataka jednostavno pomaže u širenju posla.

"Ne moramo replicirati cijeli ekosustav", rekao je Chodacki. "Federalna vlada i ove agencije bave se podacima duže nego što je dosadno govoriti o velikim podacima, na mnogo robusniji način nego bilo tko drugi."

Javno-privatna partnerstva

Pitanje troškova je očito kada je riječ o načinu na koji agencije mogu prepoznati koje su skupove podataka najvrjednije za javnost, a zatim objavljuju linkove do svojih metapodataka ili stvarnih skupova podataka putem vladinog portala. Izvještaj Kongresnog ureda za proračun (CBO) za prijedlog zakona o OPEN-ovim podacima o vladi koji se trenutno nalazi u Senatu - a koji bi kodificirao Obamin izvršni poredak u zakon - procjenjuje da bi njegova puna provedba koštala dva milijuna dolara između 2018. i 2021. godine.

Kad je riječ o državnom novcu, to zapravo ne predstavlja stvarno povećanje potrošnje, zaključio je CBO.

Učinkovitost je, međutim, drugačije pitanje, s kojim Ed Kearns iz Nacionalne uprave za oceane i atmosferu eksperimentira s privatnim partnerima, uključujući Amazonove web usluge i Google. Kearns, glavni urednik podataka NOAA-e, rekao je da su veća dostupnost i upotreba podataka NOAA glavni cilj Velikog projekta.

Tvrtke identificiraju koje skupove podataka žele i NOAA ih bez dodatnih troškova prosljeđuje u javnost. Kearns je rekao da sve što NOAA ima na stolu, ali cilj petogodišnjeg partnerstva nije izbacivanje svih NOAA podataka u oblak - samo strateški komadi.

Hosting takvih skupova podataka na oblačnim uslugama privatnih tvrtki nudi nekoliko prednosti FTP pristupu u stilu 80-ih koji je i dalje standard za prijenos velikih skupova podataka iz federalnih agencija. Za početak, skupovi podataka NOAA obično su ogromni - agencija nadgleda Zemljine oceane, atmosferu, sunce i svemirsko vrijeme - a ponekad im je potrebna javna isporuka tjednima ili mjesecima.

Jedan primjer je arhivska radarska arhiva NEXRAD Level-II Level-II dopplera. Prema studiji koju je u svibnju objavilo Američko meteorološko društvo, za prenošenje čitave arhive NEXRAD od 270 terabata jednom kupcu u listopadu 2015. trebalo bi 540 dana uz cijenu od 203.310 USD. Potpuna kopija arhive nikad nije bila dostupna za vanjsku analizu prije nego što je NOAA radila s Amazonom i Googleom kako bi je stavila u oblak.

Eksperiment je također imao zanimljive rane rezultate s povećanjem upotrebe. NOAA-ove web stranice i prognoze već primaju neke od najviših razina prometa među vladinim web mjestima, ali nakon što je Google nedavno integrirao jedan skup podataka o klimi i vremenima, veličine približno gig, u svoju bazu podataka BigQuery, tvrtka je izvijestila da isporučuje 1, 2 petabajta ovog skupa podataka od 1. siječnja do 30. travnja - daleko više nego ikad do sada u sličnom vremenskom okviru s NOAA poslužitelja.

"Google ga je uspio otvoriti potpuno novoj publici", rekao je Kearns.

Nisu samo kiša i sezonske temperature. Skupovi podataka koji su sada dostupni putem Big Data partnera uključuju podatke o ribarstvu, morsko vrijeme i katalog koji vodi IBM koji navodi trenutne, prognoze, povijesne i geoprostorne skupove podataka iz NOAA centara. Budući skupovi podataka mogli bi uključivati ​​čak i podatke o ekosustavima i genomiciji ribarstva.

Ali prema dizajnu, partnerstvo omogućuje suradnicima da odaberu ono što najviše žele, što nosi rizik da opskurni, ali potencijalno visoko vrijedni skupovi podataka, neće vidjeti puno dnevnog svjetla. Kearns kaže da je prerano reći što bi se na kraju moglo prepoznati kao vrijedno.

"Opseg i doseg onoga što s ovim podacima mogu učiniti fantastično je za nas", dodao je. "Ne možemo zamisliti sve moguće namjene."

U manjem obimu, Grad Philadelphia također je surađivao s privatnim entitetom na objavljivanju skupova podataka za koje je javnost rekla da bi se to pokazalo najkorisnijim. Iako mu veličina grada daje svakodnevnu operativnu manevriranje od savezne jedinice, Phillyjev model predstavlja jedan pristup za strategiranje izdanja još neobjavljenih skupova podataka.

Azavea, softverska tvrtka sa sjedištem u Phillyju, specijalizirana za vizualizaciju podataka, surađivala je s glavnim gradskim uredom za informacije Timom Wisniewskim na izradi popisa neobjavljenih skupova podataka za koje bi neprofitne organizacije u gradu mogle biti zainteresirane za korištenje. Wisniewski i Azavea koristili su i gradski mrežni katalog metapodataka i podatke gradskog odjela za izradu popisa. Azavea i ostali partneri zatim su predali popis u neprofitne organizacije Philadelphia i pokrenuli OpenDataVote, natječaj za javnost da glasa o projektima koje su te neprofitne organizacije predložile kako će koristiti svoje omiljene skupove podataka.

Nedavni pobjednik bio je prijedlog koji je uložio obrazovni neprofitni MicroSociety da se pomoću podataka grada o donatorima u školskom okrugu Philadelphia koristi za mjerenje učinka neprofitnih programa u školama.

"Možemo reći da je ova gradska neprofitna organizacija zainteresirana za određeni skup podataka jer mogu učiniti nešto s tim i da je ovo mnogo ljudi glasalo za njihovu potporu", rekao je Wisniewski. "Omogućuje nam odlazak u odjele s čvrstim slučajevima upotrebe, umjesto da kažemo, hej, objavimo ove podatke samo zato."

Stari podaci i novo

Ali što se događa čak i kad postoji mnogo pristupa podacima koji su već vani, kada nove politike i direktive o financiranju znače da se sami podaci više ne generiraju? To je velika briga, rekla je Ann Dunkin, koja je u vrijeme predsjednika Obame radila kao glavni informatički službenik Agencije za zaštitu okoliša, a sada vodi informatičku službu u kalifornijskoj okrugu Santa Clara.

"Ljudi su zabrinuti zbog starih podataka, ali ono što me najviše zabrinjava je to što se novi podaci ne stavljaju na raspolaganje istom brzinom kao prije ili se uopće ne stvaraju", rekao je Dunkin.

U jednoj analizi predloženog federalnog proračuna za 2018. godinu časopisa Science, mnoge vladine agencije ostvarile bi značajna smanjenja svojih proračuna za istraživanje ako se proračun usvoji kako je predloženo. Otprilike smanjenje od 22 posto na Nacionalnim institutima za zdravstvo rezultiralo bi plaćanjem istraživačkim sveučilištima; zahtjev NASA-e za proračun eliminirao bi inicijative za praćenje emisija stakleničkih plinova i druge programe znanosti o zemlji. Klimatski programi NOAA-e također bi se mogli zatvoriti sličnim razinama smanjenja.

Za vrijeme svog mandata, EPA je radila na tome da svoje prikupljanje podataka pretvori u alat za svakoga tko će razumjeti zdravlje svoje okoline i kako na to reagirati. Dan lošeg zraka? Ne izlazi napolje. Struja niz zagađen? Držite djecu dalje.

"Moje očekivanje je da će se to pomaknuti unatrag", dodao je Dunkin. "Mogao bih pogriješiti, ali ako kažete da nećemo davati podatke dostupnima, logičan zaključak su skupovi podataka koji bi mogli pomoći članovima javnosti da također neće biti dostupni ili ne generirani u prvom redu."

Wiggin Data Refuge radi na projektu pripovijedanja vezanom uz ovo pitanje za koji se nada da će katalizirati više ljudi da zahtijevaju neprestano objavljivanje podataka i stvoriti temelj za podršku za nastavak postojećih programa prikupljanja podataka u saveznoj vladi. Priče "Tri priče u našem gradu" prikazat će često skriveni utjecaj koji savezni podaci imaju na neočekivanim mjestima, počevši prvo u Filadelfiji, a potom i na drugim mjestima u cijeloj zemlji.

"Ključni dio pokreta Data Refuge, kako prijeđemo na sljedeću fazu, pomaže ljudima da shvate koliko široko korišteni podaci koji se proizvode u Federaciji", rekao je Wiggin. "Bilo da ste to nazvali klimom ili zdravljem ili javnom sigurnošću, to je još uvijek savezni podatak. To je u zajednicama, u gradskoj vijećnici, policijskim naporima, vojsci. Moramo se stalno sjećati koliko su ti podaci važni."

Resursi:

  • Gateway za zaštitu podataka o okolišu EPA: portal za metapodatke Agencije za zaštitu okoliša.
  • Otvoreni podaci @ DOE: portal otvorenih podataka Ministarstva energetike.
  • Portal podataka podataka USA Economic Research Service
  • Resursi velikih podataka NOAA: Poveznice na stranice platforme velikih podataka partnera na kojima se nalaze podaci koje generira NOAA.
  • Sveučilište Sjevernog Teksasa: Cyber ​​groblje: arhiva neispravnih, zastarjelih ili zatvorenih vladinih web stranica.
  • Projekt arhiviranja podataka o zaštiti okoliša i upravljanje inicijativama: Alati, kôd i aplikacije koje se odnose na otkrivanje i arhiviranje podataka vlade.
  • Internet Arhiva povratni stroj
  • Internetska arhiva: Kako spremiti stranice na povratnoj mašini: Šest načina imenovanja stranica za arhiviranje.
  • Kalifornijska digitalna biblioteka: Web-arhiva završetka termina: Zbirka web stranica američke vlade spremljena od pretraživanja i indeksiranja od krajnjeg roka od 2008. do danas.
  • FreeGovInfo.info: Široki sadržaji s informacijama o portalima podataka na državnoj i saveznoj razini i arhivima vijesti o otvorenim pitanjima podataka.
  • Klimatsko ogledalo: Zbirka podataka o klimi okupljenih od strane volontera.

Ova se priča prvi put pojavila u PC Magazine Digital Edition. Pretplatite se danas za više originalnih priču o vijestima, vijestima, osvrtima i kako tos!

Ovi zagovornici žele osigurati da naši podaci ne nestanu