Video: Diving into the TPU v2 and v3 (Studeni 2024)
U posljednjih nekoliko tjedana došlo je do velikog broja važnih uvođenja novih računalnih platformi dizajniranih posebno za rad na dubokim neuronskim mrežama za strojno učenje, uključujući Googleove nove "oblačne TPU" i Nvidijin novi Volta dizajn.
Meni je ovo najzanimljiviji trend u arhitekturi računala - čak i više od AMD-a, a sada Intel predstavlja 16-jezgrene i 18-jezgrene CPU-e. Naravno, postoje i drugi alternativni pristupi, ali Nvidia i Google zasluženo privlače puno pažnje zbog svojih jedinstvenih pristupa.
Na Google I / O vidio sam kako uvodi "oblak TPU" (za jedinicu za obradu tenzora, što ukazuje da je optimiziran za Googleov okvir strojnog učenja TensorFlow). TPU prethodne generacije, predstavljen na prošlogodišnjoj izložbi, ASIC je dizajniran prvenstveno za zastrašivanje - izvođenje operacija strojnog učenja - ali nova verzija dizajnirana je za usavršavanje i obuku takvih algoritama.
U nedavnom radu, Google je dao više detalja o izvornom TPU-u, za koji je opisao da sadrži matricu od 256-do-256 jedinica s višestrukim nakupljanjem (MAC) (ukupno 65.536) s maksimalnim učinkom od 92 teraopa (trilijun operacija po drugi). Upute dobiva od domaćeg CPU-a preko PCIe Gen 3 sabirnice. Google je rekao da je riječ o 28 nm matri koja je bila manja od polovine veličine Intel Haswell Xeon 22nm procesora i da je nadmašio taj procesor i Nvidijin 28nm K80 procesor.
Nova verzija, nazvana TPU 2.0 ili oblački TPU (vidi se gore), zapravo sadrži četiri procesora na ploči, a Google je rekao da je svaka ploča sposobna dostići 180 teraflopa (180 bilijuna operacija s pomičnim zarezom u sekundi). Kao što je također važno, ploče su dizajnirane da rade zajedno, koristeći prilagođenu mrežu brzih brzina, pa djeluju kao jedinstveno strojno učenje superračunanja koje Google naziva "TPU pod".
Ovaj TPU podij sadrži 64 TPU-ove druge generacije i pruža do 11, 5 petaflopa kako bi se ubrzao trening jednog velikog modela strojnog učenja. Na konferenciji je Fei Fei Li, koji vodi Google-ovo istraživanje AI, rekao da, iako jedan od velikih modela učenja za prevod prevoditelja traje čitav dan za obuku 32 najbolja komercijalno dostupna GPU-a, on se sada može obučiti za jednaka točnost u poslijepodnevnim satima koristeći jednu osmu TPU-ovog podmetača. To je veliki skok.
Shvatite da to nisu mali sustavi - Pod bi trebao izgledati veličine četiri uobičajena računala.
I čini se da svaki od pojedinih procesora ima vrlo velike toplotne odvode, što znači da se ploče ne mogu preložiti prejako. Google još nije dao puno detalja o tome što se promijenilo u ovoj verziji procesora ili međusobnom povezivanju, ali vjerojatno se i to temelji na 8-bitnim MAC-ovima.
Prije tjedan dana, Nvidia je predstavila svoj najnoviji ulazak u ovu kategoriju, masivni čip poznat kao Telsa V100 Volta, koji je opisao kao prvi CPU s ovom novom Volta arhitekturom, dizajniran za vrhunske GPU-e.
Nvidia je rekla kako je novi čip sposoban za 120 TensorFlow teraflopa (ili 15 32-bitnih TFLOPS-a ili 7, 5 64-bitnih.) Koristi novu arhitekturu koja uključuje 80 strujnih multiprocesora (SM), od kojih svaki uključuje osam novih "tenzorskih jezgara" i predstavlja 4x4x4 niz koji može izvoditi 64 FMA (Fused Multiply-Add) operacija po satu. Nvidia je rekla da će ponuditi čip u svojim radnim stanicama DGX-1V sa 8 V100 ploča u trećem kvartalu, slijedeći prijašnji DGX-1 tvrtke koji je koristio raniju P100 arhitekturu.
Tvrtka je navela da bi ovaj kutija od 149.000 dolara trebao isporučiti 960 teraflopa performansi, koristeći 3200 vata. Kasnije će, prvo rečeno, isporučiti osobnu DGX postaju s četiri V100, a u četvrtom tromjesečju rečeno je da će veliki dobavljači poslužitelja isporučiti V100 poslužitelje.
Ovaj čip prvi je najavljen za korištenje TSMC-ovog 12nm procesora, a bit će to ogroman čip s 21, 1 milijardi tranzistora na umrezi od 815 kvadratnih milimetara. Nvidia je kao rane kupce ovog čipa naveo i Microsoft i Amazon.
Imajte na umu da postoje velike razlike između tih pristupa. Google TPU-ovi su zaista prilagođeni čipovi, dizajnirani za TensorFlow aplikacije, dok je Nvidia V100 nešto općenitiji čip, sposoban za različite vrste matematike za ostale aplikacije.
U međuvremenu, drugi veliki pružatelji usluga oblaka razmatraju alternative, a Microsoft koristi oba GPU-a za obuku i polja programirajuća polja (FPGA) za pronalaženje i nudi oba kupca. Web stranice Amazon pružaju programerima i instance GPU-a i FPGA. A Intel je gurao FPGA-ove i niz drugih tehnika. U međuvremenu, niz novih startapa radi na alternativnim pristupima.
Na neki je način ovo najdrastičnija promjena koju smo vidjeli u radnoj stanici i poslužiteljskim procesorima tijekom godina, barem otkad su programeri prvi put počeli koristiti „GPU compute“ prije nekoliko godina. Bit će fascinantno vidjeti kako se to razvija.