Dom Naprijed razmišljanje Zašto je budućnost strojnog učenja

Zašto je budućnost strojnog učenja

2024

Sadržaj:

Natjecanje za strojno učenje

Video: Рулонные шторы День-Ночь Открытого типа для окон от JB Production (Studeni 2024)

Na ovogodišnjoj SC16 Supercomputing konferenciji istakla su se dva trenda. Prvi je pojavljivanje Intelove najnovije Xeon Phi (Knights Landing) i Nvidijine najnovije Tesle (P100 temeljen na Pascalu) na Top500 listi najbržih računala na svijetu; oba sustava sletila su u prvih 20. Drugi je veliki naglasak na to kako proizvođači čipova i sustava preuzimaju koncepte iz modernih sustava strojnog učenja i primjenjuju ih na superračunala.

Na trenutnoj reviziji popisa Top500 koji se ažurira dva puta godišnje, vrh ljestvice i dalje je čvrsto u rukama računala Sunway TaihuLight iz kineskog Nacionalnog centra za računalstvo u Wuxiu i računala Tianhe-2 s kineskog nacionalnog superračunala Centar u Guangzhouu, kao što je to bilo od junijske izložbe ISC16. Nijedno drugo računalo nije u potpunosti po ukupnim performansama, s sistemima trećeg i četvrtog mjesta - još uvijek superračunalo Titan u Oak Ridgeu i sustav Sequoia u Lawrence Livermoreu - oba pružaju otprilike polovinu performansi Tianhe-2.

Prvi od njih temelji se na jedinstvenom kineskom procesoru, 1, 45 GHz SW26010, koji koristi 64-bitnu RISC jezgru. Ima neusporedivih 10.649.600 jezgri koje daju 125.4 petaflopa teoretske vršne propusnosti i 93 petaflopa maksimalno izmjerenih performansi na referentnoj vrijednosti Linpack, koristeći 15, 4 megavata snage. Treba napomenuti da iako ovaj stroj s velikim maržama prelazi ljestvice u izvedbi Linpacka, kod ostalih testova ne postiže se tako dobro. Postoje i druge referentne vrijednosti, poput referentne vrijednosti visokih performansi Conjugate Gradients (HPCG), gdje strojevi imaju tendenciju da vide samo 1 do 10 posto svojih teorijskih vrhunskih performansi, a gdje gornji sustav - u ovom slučaju, Riken K - i dalje donosi manje nego 1 petaflop.

Ali Linpack testovi su standard za razgovor o računalima visokih performansi (HPC) i onome što se koristi za stvaranje Top500 liste. Pomoću Linpackovih testova, stroj broj 2, Tianhe-2, bio je prvi na ljestvici posljednjih nekoliko godina, a koristi Xeon E5 i starije Xeon Phi (Knights Corner) akceleratore. To nudi 54, 9 petaflopa s teorijskim vrhunskim performansama i referentnim vrijednostima od 33, 8 petaflops u Linpacku. Mnogi promatrači smatraju da je zabrana izvoza novijih verzija Xeon Phi-a (Knights Landing) Kineze dovela do stvaranja vlastitog superračunarskog procesora.

Knights Landing, formalno Xeon Phi 7250, odigrao je veliku ulogu u novim sustavima na listi, počevši od superračunala Cori u Nacionalnom laboratoriju Lawrence Berkeley na petom mjestu, s maksimalnom izvedbom od 27, 8 petaflopsa i izmjerenom izvedbom od 14 petaflops, Ovo je Cray XC40 sustav, koji koristi međusobno povezivanje Ovna. Imajte na umu da Knights Landing može djelovati kao glavni procesor, sa 68 jezgara po procesoru koji isporučuju 3 vrha teraflopa. (Intel navodi drugu verziju čipa sa 72 jezgre na 3, 46 teraflopa vrhunske teorijske dvostruke preciznosti u svom cjeniku, ali nijedan od strojeva na ovom popisu ne koristi ovu verziju, možda zato što je cjenovnija i troši više energije.)

Raniji Xeon Phis mogao se pokretati samo kao ubrzivači u sustavima koji su kontrolirani od strane tradicionalnih Xeon procesora. Na šestom mjestu nalazio se Oakforest-PACS sustav Japanskog zajedničkog centra za napredna računala visokih performansi, postigavši 24, 9 vršnih petaflopa. To je izgradio Fujitsu, koristeći Knights Landing i Intelovu Omni-Path međusobnu vezu. Knights Landing koristi se i u sustavu broj 12 (računalo Marconi u talijanskoj CINECA, kojeg je izgradilo Lenovo i koristi Omni-Path) i sustav broj 33 (Kamfor 2 na japanskom sveučilištu Kyoto, koji je izgradio Cray i koristi Ovna povezati).

Nvidia je također bila dobro zastupljena na novoj listi. Sustav broj 8, Piz Daint u Švicarskom nacionalnom centru za superračunanje, nadograđen je na Cray XC50 s Xeonima i Nvidia Teslom P100, a sada nudi nešto manje od 16 petaflopa teorijskih vrhunskih performansi i 9, 8 petaflops performansi Linpack-a nadogradnja sa 7, 8 petaflops vrhunskih performansi i 6, 3 petaflops performansi Linpack u ranijoj iteraciji temeljenoj na Cray XC30 s Nvidia K20x akceleratorima.

Drugi sustav temeljen na P100 na popisu bio je Nvidijin vlastiti DGX Saturn V, zasnovan na vlastitim sustavima DGX-1 tvrtke i Infiniband međusobnom povezivanju, koji je ušao na 28. mjestu liste. Imajte na umu da Nvidia sada prodaje i procesore i uređaj DGX-1, koji uključuje softver i osam Tesla P100. Sustav DGX Saturn V, koji Nvidia koristi za interna AI istraživanja, ima gotovo 4, 9 vršnih petaflopa i 3, 3 Linpack petaflops. No, ono što Nvidia ističe jest da troši samo 350 kilovata snage, što je čini mnogo energetski učinkovitijim. Kao rezultat toga, ovaj sustav je na vrhu Green500 liste energetski najučinkovitijih sustava. Nvidia ističe da je to znatno manje energije od Xfona Phi-2-zasnovanog sustava koji ima slične performanse (gotovo 5, 5 petaflops vrha i 3, 1 Linpack petaflops).

Zanimljiva je usporedba, s Nvidia-om koja postiže bolju energetsku efikasnost na GPU-ima, a Intel prikazuje poznatiji programski model. Siguran sam da ćemo vidjeti više konkurencije u godinama koje dolaze, jer se različite arhitekture natječu da vide koja će od njih prva dostići "izvrsno računanje" ili će umjesto njih doći kineski domaći pristup. Trenutno, Projekt računarskih računa za Ministarstvo energetike SAD-a očekuje da će prvi strojevi za mjerenje ugradnje biti instalirani 2022. godine i započeti s radom sljedeće godine.

Zanimljivo mi je primijetiti da, unatoč naglasku na mnogim jezgrovnim akceleratorima poput rješenja Nvidia Tesla i Intel Xeon Phi, samo 96 sustava koristi takve akceleratore (uključujući i one koji Xeon Phi koriste samo); za razliku od 104 sustava prije godinu dana. Intel je i dalje najveći dobavljač čipova, sa svojim čipovima u 462 od 500 najboljih sustava, a slijede ih IBM Power procesori u 22. Hewlett-Packard Enterprise stvorio je 140 sustava (uključujući one koje je izgradio Silicon Graphics, koji je HPE stekao), a Lenovo je izgradio 92, i Cray 56.

Natjecanje za strojno učenje

Bilo je brojnih najava u showu ili oko njega, a većina se bavila nekim oblikom umjetne inteligencije ili strojnog učenja. Nvidia je najavila partnerstvo s IBM-om na novom alatu softvera za duboko učenje pod nazivom IBM PowerAI koji pokreće IBM Power poslužitelje koristeći Nvidijinu NVLink interkonekciju.

AMD, koji je u prošlosti mislio i u HPC i u strojno učenje, radi na tome da to promijeni. Na ovom se području tvrtka fokusirala na vlastite Radeon GPU-ove, gurnula svoje FirePro S9300 x2 poslužitelje i najavila partnerstvo s Google Cloud Platformom kako bi mu se omogućilo korištenje u oblaku. Ali AMD nije toliko uložio u softver za programiranje GPU-a, kao što je naglašavao OpenCL zbog vlasničkog pristupa Nvidie. AMD je na izložbi predstavio novu verziju svoje Radeon Open Compute Platform (ROCm) i predstavio planove za podršku svojih GPU-ova u heterogenim računalnim scenarijima s više CPU-a, uključujući svoje nadolazeće "Zen" x86 CPU-e, ARM arhitekture koje počinju s Cavium ThunderX i IBM Power 8 CPU-ovi.

Na predstavljanju, Intel je govorio o novoj verziji svog trenutnog čipa Xeon E5v4 (Broadwell) podešenom za opterećenja s plutajućim točkama, te o tome kako slijedeća verzija na platformi Skylake izlazi sljedeće godine. Ali u kasnijem događaju tog tjedna, Intel je objavio niz najava namijenjenih za pozicioniranje svojih čipova u prostoru umjetne inteligencije ili strojnog učenja. (Evo poteza ExtremeTech.) Mnogo toga ima implikacija za računalstvo visokih performansi, ali uglavnom je odvojeno. Za početak, osim standardnih Xeon procesora, tvrtka također promovira FPGAs za obavljanje većine inferencing u neuronskim mrežama. To je jedan od glavnih razloga što je tvrtka nedavno kupila Altera, a takve FPGA-ove sada koriste tvrtke poput Microsofta.

No, fokus na AI prošli tjedan bavio se nekim novijim čipovima. Prvo, tu je Xeon Phi, gdje je Intel naznačio da će trenutna verzija Knights Landing biti nadopunjena sljedeće godine novom verzijom nazvanom Knights Mill, usmjerenom na tržište "dubokog učenja". Najavljeno na IDF-u, ovo je još jedna 14nm verzija, ali s podrškom za izračune s pola preciznosti, koji se često koriste u treningu neuronskih mreža. Doista, jedna od velikih prednosti trenutnih Nvidia čipova u dubinskom učenju je njihova podrška za izračun s pola preciznosti i operacijama s 8-bitnim cijelim brojevima, što Nvidia često naziva "terapijom dubokog učenja". Intel je rekao da će Knights Mill isporučiti do četiri puta više performansi Knights Landing za dubinsko učenje. (Ovaj je čip još uvijek predviđen za naknadno praćenje 10nm verzije pod nazivom Knights Hill, vjerojatno usmjerenije na tradicionalno tržište visokih performansi.)

Najzanimljiviji za sljedeću godinu je dizajn tvrtke Nervana, koji je nedavno nabavio Intel, a koji koristi niz obrađenih klastera dizajniranih za obavljanje jednostavnih matematičkih operacija povezanih s velikom propusnom memorijom (HBM). Prvo u ovoj obitelji bit će Lake Crest, koje je dizajnirano prije nego što je Intel kupio tvrtku i proizveden na 28nm TSMC procesu. Zbog testnih verzija u prvoj polovici sljedeće godine, Intel kaže da će pružiti više računalnih performansi od GPU-a. Na kraju će uslijediti Knights Crest koji na neki način implementira Nervanovu tehnologiju zajedno s Xeonom, s pojedinostima još uvijek nenajavljenim.

"Očekujemo da će tehnologije tvrtke Nervana u naredne tri godine stvoriti probojno povećanje performansi u sljedeće tri godine za osposobljavanje složenih neuronskih mreža, omogućujući znanstvenicima sa podacima brže rješavanje svojih najvećih AI izazova", napisao je izvršni direktor Intela Brian Krzanich.

Intel je također nedavno najavio planove za kupnju Movidiusa, što čipove koji se zasnivaju na DSP-u posebno pogodnim za zagovaranje računalnog vida - opet, za donošenje odluka na temelju prethodno obučenih modela.

To je komplicirana i evoluirajuća priča - zasigurno ne tako jednostavna kao Nvidijina težnja svojim GPU-ovima svuda. Ali ono što jasno govori jest samo kako se brzo pokreće strojno učenje i mnogo različitih načina na koje tvrtke planiraju riješiti problem, od GPU-a poput Nvidije i AMD-a, do mnogih jezgrenih x86 procesora, poput Xeon Phi-a, do FPGA-ova, specijaliziranim proizvodima za osposobljavanje kao što su Nervana i IBM-ov TrueNorth, za prilagođavanje DSP-ovih sličnih motora poput Googleovih Tensor Processing Unit. Bit će vrlo zanimljivo vidjeti ima li na tržištu mjesta za sve te pristupe.