Hjem Fremadrettet tænkning Hot chips: maskinlæring tager centrum

Hot chips: maskinlæring tager centrum

2024

Video: Xbox Series X Up To 10X Performance Boost In Ray Tracing & Machine Learning - Hot Chips 2020 (Oktober 2024)

Det hotteste emne i computing i disse dage er maskinlæring, og det er bestemt synligt på hardwaresiden. I de seneste uger har vi hørt meget om nye chips designet til dyb læring, fra Nvidias Tesla P100 og Drive PX 2 til Googles Tensorbehandlingsenheder til Intels Xeon Phi. Så det er ikke overraskende, at vi på Hot Chips-konferencen i sidste uge hørte fra en række forskellige virksomheder med nogle meget forskellige tilgange til design skræddersyet til maskinlæring og visionbearbejdning.

Den største nyhed var måske Nvidias afsløring af mere detaljerede oplysninger om sin Parker-chip, der blev brugt i Drive PX 2-modulet til selvkørende biler og sigter mod dyb læring for autonome maskiner. Denne chip bruger to specialbyggede ARM-kompatible Denver CPU-kerner, fire ARM Cortex-A57-kerner og 256 af hvad Nvidia betegner Pascal CUDA (grafik) kerner.

Nvidia sagde, at dette var den første chip, der er designet og klassificeret til bilindustrien, med særlige elasticitetsfunktioner, og talte om dens hurtigere hastighed og hukommelse, og bemærkede, at Denver-kernen giver en betydelig forbedring af ydelsen pr. Watt. Blandt de nye funktioner er hardware-assisteret virtualisering med op til 8 VMS for at muliggøre integration af bilfunktioner, der traditionelt udføres på separate computere. Alt i alt sagde virksomheden, at Drive PX 2-modellen kan have to af disse Parker-chips og to diskrete GPU'er, med en samlet ydelse på 8 teraflops (dobbelt præcision) eller 24 dyb læringsoperationer (8-bit eller halv-præcision.) Virksomheden inkluderede benchmarks, der sammenlignede det positivt med den aktuelle mobile behandling ved hjælp af SpecInt_2000, en relativt gammel benchmark. Men ydelsen ser imponerende ud, og Volvo har for nylig sagt, at den vil bruge den til at teste autonome køretøjer, der starter næste år.

Der er selvfølgelig mange andre tilgange.

Kinesisk opstart DeePhi diskuterede en FPGA-baseret platform for neurale netværk med to forskellige arkitekturer afhængigt af typen af netværk involveret. Aristoteles er designet til relativt små indviklede neurale netværk og baseret på Xilinx Zynq 7000, mens Descartes er designet til større tilbagevendende neurale netværk ved hjælp af lang kortvarig hukommelse (RNN-LSTM), baseret på Kintex Ultrascale FPGA. DeePhi hævder, at dens kompilator og arkitektur skærer udviklingstid sammenlignet med de fleste anvendelser af FPGA'er, og også at brug af en FPGA kan levere bedre ydelse end Nvidias Tegra K1- og K40-løsninger.

En anden fremgangsmåde er at bruge en digital signalprocessor eller DSP, der typisk udfører en bestemt funktion eller et lille sæt funktioner meget hurtigt ved hjælp af meget lidt energi. Ofte indlejres disse i andre, mere komplekse chips for at fremskynde visse funktioner, såsom synshåndtering. En række virksomheder, herunder Movidius, CEVA og Cadence, delte deres løsninger på Hot Chips.

Movidius viste sin DSP-baserede løsning, kendt som Myriad 2 vision-behandlingsenheden, og havde den vist på DJI Phantom 4-dronen. Det viste også, hvordan Myriad 2 overgår GPU'er og GoogLeNet-dybe neurale netværk, der blev brugt i ImageNet-konkurrencen 2014.

CEVA promoverede sin CEVA-XM4 Vision DSP, specielt indstillet til visionbehandling og rettet mod bilmarkedet sammen med sin CEVA Deep Neural Network 2-platform, som den sagde kunne tage alt, hvad der er skrevet til Caffe- eller TensorFlow-rammerne og optimere det til at køre på sin DSP. Den nye processor skal være i SoC'er næste år.

I mellemtiden diskuterede Cadence, der gør Tensilica-familien af synsprocessorer (som kan integreres i andre produkter) dens nyeste version, Vision P6, som har tilføjet nye funktioner såsom vektortastationsstøtte og andre funktioner til indviklede neurale netværk. De første produkter skal snart være ude.

Microsoft talte om detaljerne i hardwaren til sit HoloLens-headset og sagde, at det brugte en 14nm Intel Atom Cherry Trail-processor, der kører Windows 10 og et brugerdefineret Holographic Processing Unit (HPU 1.0) sensorknap, fremstillet af TSMC på en 28nm-proces. Dette inkluderer 24 Tensilica DSP-kerner.

Jeg blev især taget af en af Cadence's lysbilleder, der viste forskellene i gennemstrømning og effektivitet af GPU'er, FPGA'er og forskellige slags DSP'er i form af multiplikat-add-operationer, en af de vigtigste byggesten til neurale netværk. Selvom det selvfølgelig er selvbetjenende (som alle sælgerpræsentationer er), påpegede det, hvordan de forskellige teknikker varierer med hensyn til hastighed og effektivitet (ydelse pr. Watt), for ikke at nævne omkostninger og lethed ved programmering. Der er mange løsninger på forskellige tilgange her, og det vil være interessant at se, hvordan dette ryster ud i de næste par år.