Hjem Fremadrettet tænkning Google sky tpus del af en tendens mod ai-specifikke processorer

Google sky tpus del af en tendens mod ai-specifikke processorer

2024

Video: Diving into the TPU v2 and v3 (Oktober 2024)

I de sidste par uger har der været en række vigtige introduktioner af nye computerplatforme designet specifikt til at arbejde på dybe neurale netværk til maskinlæring, herunder Googles nye "cloud TPU'er" og Nvidias nye Volta-design.

For mig er dette den mest interessante tendens inden for computerarkitektur - endnu mere end AMD og nu introducerer Intel 16-core og 18-core CPU'er. Der er selvfølgelig andre alternative tilgange, men Nvidia og Google får fortjent meget opmærksomhed for deres unikke tilgange.

Hos Google I / O så jeg det introducere, hvad en "sky TPU" (til Tensor Processing Unit, der angiver, at den er optimeret til Googles TensorFlow-maskinelæringsramme). Den forrige generation TPU, der blev introduceret ved sidste års show, er en ASIC, der primært er beregnet til inferencing - kørsel af maskinlæringsoperationer - men den nye version er designet til at indlede og træne sådanne algoritmer.

I en nylig artikel gav Google flere detaljer om den originale TPU, som den beskrev som indeholdende en matrix på 256-til-256 multiple-akkumulerede (MAC) enheder (65.536 i alt) med en topydelse på 92 teraops (billioner operationer pr. anden). Det får sine instruktioner fra en vært-CPU over PCIe Gen 3-bus. Google sagde, at dette var en 28nm-dyse, der var mindre end halvdelen af størrelsen på en Intel Haswell Xeon 22nm-processor, og at det var bedre end den processor og Nvidias 28nm K80-processor.

Den nye version, kaldet TPU 2.0 eller sky TPU (set ovenfor), indeholder faktisk fire processorer på brættet, og Google sagde, at hvert bord er i stand til at nå 180 teraflops (180 billioner flydende punktoperationer pr. Sekund). Lige så vigtigt er brædderne designet til at arbejde sammen ved hjælp af et brugerdefineret højhastighedsnetværk, så de fungerer som en enkelt maskin, der lærer supercomputing, som Google kalder en "TPU-pod."

Denne TPU-pod indeholder 64 andengenerations-TPU'er og giver op til 11, 5 petaflops for at fremskynde uddannelsen af en enkelt stor maskinlæringsmodel. På konferencen sagde Fei Fei Li, der leder Googles AI-forskning, at selv om en af virksomhedens store læringsmodeller til oversættelse tager en hel dag at træne på 32 af de bedste kommercielt tilgængelige GPU'er, kan det nu være træning til samme nøjagtighed på en eftermiddag ved hjælp af en ottendedel af en TPU-pod. Det er et stort spring.

Forstå, at dette ikke er små systemer - en pod ser ud til at være på størrelse med fire normale computerstativer.

Og hver af de enkelte processorer ser ud til at have meget store kølelegemer, hvilket betyder, at pladerne ikke kan stables for tæt. Google har endnu ikke givet en masse detaljer om, hvad der har ændret sig i denne version af processorer eller interconnect, men det er sandsynligvis også, at dette er baseret på 8-bit MAC'er.

Ugen før introducerede Nvidia sin seneste post i denne kategori, en massiv chip kendt som Telsa V100 Volta, som den beskrev som den første CPU med denne nye Volta-arkitektur, designet til avancerede GPU'er.

Nvidia sagde, at den nye chip er i stand til 120 TensorFlow-teraflops (eller 15 32-bit TFLOPS eller 7, 5 64-bit-dem.) Denne bruger en ny arkitektur, der indeholder 80 Streaming Multiprocessors (SMs), som hver inkluderer otte nye "Tensor Cores" og er en 4x4x4 matrix, der er i stand til at udføre 64 FMA (Fused Multiply-Add) -operationer pr. ur. Nvidia sagde, at den vil tilbyde chippen i sine DGX-1V-arbejdsstationer med 8 V100-kort i tredje kvartal, efter firmaets tidligere DGX-1, der brugte den tidligere P100-arkitektur.

Virksomheden sagde, at denne $ 149.000-kasse skulle levere 960 teraflops træningsevne ved hjælp af 3200 watt. Senere, den første sagde, ville den sende en personlig DGX-station med fire V100'er, og i fjerde kvartal sagde den, at de store serverleverandører vil sende V100-servere.

Denne chip er den første annoncerede, der bruger TSMCs 12nm-processor, og den vil være en enorm chip med 21, 1 milliarder transistorer på 815 kvadratmeter. Nvidia citerede både Microsoft og Amazon som tidlige kunder for chippen.

Bemærk, at der er store forskelle mellem disse tilgange. Google TPU'er er virkelig tilpassede chips, designet til TensorFlow-applikationer, mens Nvidia V100 er en noget mere generel chip, der er i stand til forskellige typer matematik til andre applikationer.

I mellemtiden ser de andre store skyudbydere på alternativer, hvor Microsoft bruger begge GPU'er til træning og feltprogrammerbare gate-arrays (FPGA'er) til inferencing og tilbyder begge til kunder. Amazon Web Services stiller nu både GPU- og FPGA-instanser til rådighed for udviklere. Og Intel har skubbet FPGA'er og en række andre teknikker. I mellemtiden arbejder en række nye nystartede virksomheder med alternative tilgange.

På nogle måder er dette den mest drastiske ændring, vi har set i arbejdsstations- og serverprocessorer i år, i det mindste siden udviklere først begyndte at bruge "GPU-beregning" for flere år siden. Det vil være fascinerende at se, hvordan dette udvikler sig.