Video: Штора День-ночь (Prosinac 2024)
Najtoplija tema u računanju ovih dana je strojno učenje, a to je sigurno vidljivo na strani hardvera. Proteklih tjedana čuli smo mnogo o novim čipovima dizajniranim za dubinsko učenje, od Nvidijinih Tesla P100 i Drive PX 2 do Googleovih procesorskih jedinica za tenzorere do Intelovog Xeon Phi-a. Dakle, nije iznenađujuće da smo na konferenciji Hot Chips prošli tjedan čuli nekoliko različitih tvrtki s vrlo različitim pristupima dizajnu prilagođenom strojnom učenju i obradi vida.
Možda najveća vijest bilo je otkrivanje Nvidia više detalja o njegovom Parker čipu, korištenom u modulu Drive PX 2 za samostalne vožnje automobila i usmjeren na dubinsko učenje autonomnih strojeva. Ovaj čip koristi dvije prilagođene ARM kompatibilne Denver CPU jezgre, četiri ARM Cortex-A57 jezgre i 256 onoga što Nvidia naziva Pascal CUDA (grafičke) jezgre.
Nvidia je rekla da je ovo prvi čip koji je osmišljen i ocijenjen za automobilsku upotrebu, s posebnim karakteristikama otpornosti, te je govorio o njegovoj većoj brzini i memoriji, napominjući da jezgra Denvera pruža značajno poboljšanje performansi po vatu. Među novim značajkama su hardverska potpomognuta virtualizacija, s do 8 VMS-a za omogućavanje integracije značajki automobila koje se tradicionalno rade na zasebnim računalima. Općenito, kompanija je navela da model Drive PX 2 može imati dva od ovih Parker čipova i dva diskretna GPU-a, s ukupnom performansom od 8 teraflopa (dvostruka preciznost) ili 24 operacije dubokog učenja (8-bitna ili polovična preciznost.) Tvrtka je uključila mjerila kako ih je uspoređivala s trenutnom mobilnom obradom koristeći SpecInt_2000, relativno staro mjerilo. No, performanse izgledaju impresivno, a Volvo je nedavno rekao da će ga koristiti za testiranje autonomnih vozila koja počinju sljedeće godine.
Naravno, postoje i mnogi drugi pristupi.
Kineski pokretač DeePhi razgovarao je o FPGA baziranom platformi za neuronske mreže, s dvije različite arhitekture, ovisno o vrsti mreže koja je uključena. Aristotel je dizajniran za relativno male konvolucijske neuronske mreže i zasnovan je na Xilinx Zynq 7000, dok je Descartes osmišljen za veće ponavljajuće neuronske mreže koristeći dugoročnu memoriju (RNN-LSTM), temeljenu na Kintex Ultrascale FPGA. DeePhi tvrdi da su njegov prevodilac i arhitektura skratili vrijeme razvoja u usporedbi s većinom korištenja FPGA-ova i da upotreba FPGA-e može pružiti bolje performanse od Nvidijinih Tegra K1 i K40 rješenja.
Drugi pristup je uporaba procesora digitalnog signala ili DSP-a, koji obično vrlo brzo obavlja određenu funkciju ili maleni skup funkcija, upotrebljavajući vrlo malo energije. Često su oni ugrađeni u druge, složenije čipove kako bi se ubrzale određene funkcije, poput obrade vida. Brojne tvrtke, uključujući Movidius, CEVA i Cadence, dijelile su svoja rješenja na Hot Chipsu.
Movidius je pokazao svoje rješenje temeljeno na DSP-u, poznato kao Myriad 2 jedinica za obradu vida, i bio je izložen u dronu DJI Phantom 4. Također je pokazalo kako Myriad 2 nadmašuje GPU-ove i GoogLeNet-ovu neuronsku mrežu korištenu u 2014. ImageNet natječaju.
CEVA je promovirala svoj CEVA-XM4 Vision DSP, posebno prilagođen za obradu vida i usmjeren na automobilsko tržište, zajedno sa svojom CEVA Deep Neural Network 2 platformom za koju je rekao da bi mogla potrajati sve što je napisano za okvire Caffe ili TensorFlow i optimizirati je da se pokrene. na svom DSP-u. Novi procesor trebao bi u SoCs biti sljedeće godine.
U međuvremenu, Cadence, koja čini obitelj Tensilica procesora vida (koji se mogu ugrađivati u druge proizvode), raspravljala je o svojoj najnovijoj verziji Vision P6, koja je dodala nove značajke kao što su vektorska podrška s plutajućom tačkom i druge značajke za revolucionarne neuronske mreže, Prvi proizvodi uskoro bi trebali izaći.
Microsoft je govorio o pojedinostima hardvera za svoje slušalice HoloLens, rekavši da je koristio 14nm Intel Atom Cherry Trail procesor pod operativnim sustavom Windows 10 i prilagođeno čvorište holografske procesne jedinice (HPU 1.0), čvorište proizvedeno od strane TSMC-a na 28nm procesu. To uključuje 24 DSP jezgre Tensilica.
Osobito me uzeo jedan od Cadenceovih dijapozitiva koji su pokazali razlike u propusnosti i učinkovitosti GPU-a, FPGA-ova i različitih vrsta DSP-a u pogledu operacija množenja dodavanja, jednog od ključnih sastavnih blokova neuronskih mreža. Iako se očito koristio (kao i sve prezentacije dobavljača), ipak je ukazao na to kako različite tehnike variraju u pogledu brzine i učinkovitosti (performanse po vatu), a da ne spominjemo troškove i jednostavnost programiranja. Ovdje postoji puno rješenja za različite pristupe, a bit će zanimljivo vidjeti kako to izgleda u sljedećih nekoliko godina.