Hjem Fremadrettet tænkning Hvorfor maskinlæring er fremtiden

Hvorfor maskinlæring er fremtiden

Indholdsfortegnelse:

Video: Ta regi på fremtiden din (Oktober 2024)

Video: Ta regi på fremtiden din (Oktober 2024)
Anonim

På denne måneds SC16 Supercomputing-konference stod to trends ud. Den første er udseendet af Intels seneste Xeon Phi (Knights Landing) og Nvidias seneste Tesla (den Pascal-baserede P100) på Top500-listen over de hurtigste computere i verden; begge systemer landede i toppen 20. Det andet er en stor vægt på, hvordan chip- og systemfabrikanter tager koncepter fra moderne maskinlæringssystemer og anvender disse til supercomputere.

Ved den aktuelle revision af Top500-listen, der opdateres to gange årligt, er toppen af ​​diagrammet stadig fast i hænderne på Sunway TaihuLight-computeren fra Kinas National Supercomputing Center i Wuxi og Tianhe-2-computeren fra Kinas National Super Computer Center i Guangzhou, som det har været siden juni's ISC16-show. Ingen andre computere er tæt på den samlede ydelse, med systemerne i tredje og fjerde rang - stadig Titan-supercomputeren på Oak Ridge og Sequoia-systemet i Lawrence Livermore - begge leverer cirka halvdelen af ​​Tianhe-2's ydelse.

Den første af disse er baseret på en unik kinesisk processor, 1, 45 GHz SW26010, der bruger en 64-bit RISC-kerne. Dette har en uovertruffen 10.649.600 kerner, der leverer 125, 4 petaflops af teoretisk topgennemstrømning og 93 petaflops med maksimal målt ydeevne på Linpack benchmark ved hjælp af 15, 4 megawatt effekt. Det skal bemærkes, at selvom denne maskine topper diagrammerne i Linpack-ydeevne med en stor margin, klarer den sig ikke lige så godt i andre test. Der er andre benchmarks, såsom High Performance Conjugate Gradients (HPCG) benchmark, hvor maskiner har en tendens til kun at se 1 til 10 procent af deres teoretiske topydelse, og hvor det øverste system - i dette tilfælde Riken K-maskinen - stadig leverer mindre end 1 petaflop.

Men Linpack-testene er standarden til at tale om højtydende computing (HPC) og hvad der bruges til at oprette Top500-listen. Ved hjælp af Linpack-testene var nr. 2-maskinen, Tianhe-2, nummer 1 på kortet i de sidste par år og bruger Xeon E5 og ældre Xeon Phi (Knights Corner) -acceleratorer. Dette tilbyder 54, 9 petaflops med teoretisk topydelse og benchmarks på 33, 8 petaflops i Linpack. Mange observatører mener, at et forbud mod eksport af de nyere versioner af Xeon Phi (Knights Landing) fik kineserne til at oprette deres egen supercomputer-processor.

Knights Landing, formelt Xeon Phi 7250, spillede en stor rolle i de nye systemer på listen, startende med, at Cori-supercomputeren ved Lawrence Berkeley National Laboratory kom på femtepladsen, med en topydelse på 27, 8 petaflops og en målt ydelse på 14 petaflops. Dette er et Cray XC40-system, der bruger Aries-forbindelsen. Bemærk, at Knights Landing kan fungere som en hovedprocessor, idet 68 kerner pr. Processor leverer 3 spids teraflops. (Intel viser en anden version af chipen med 72 kerner ved 3, 46 teraflops med højeste teoretisk dobbelt præcisionsydelse på sin prisliste, men ingen af ​​maskinerne på listen bruger denne version, måske fordi den er dyrere og bruger mere energi.)

Tidligere kunne Xeon Phis kun køre som acceleratorer i systemer, der blev kontrolleret af traditionelle Xeon-processorer. På sjettepladsen var Oakforest-PACS-systemet i Japans Joint Center for Advanced High Performance Computer, der scorede 24, 9 peak petaflops. Dette er bygget af Fujitsu ved hjælp af Knights Landing og Intels Omni-Path-forbindelse. Knights Landing bruges også i nr. 12-systemet (Marconi-computeren ved Italiens CINECA, bygget af Lenovo og ved hjælp af Omni-Path) og nr. 33-systemet (Camphor 2 ved Japans Kyoto-universitet, bygget af Cray og ved hjælp af Vædderen interconnect).

Nvidia var også godt repræsenteret på den nye liste. System nr. 8, Piz Daint i Swiss Swiss Supercomputing Center, blev opgraderet til en Cray XC50 med Xeons og Nvidia Tesla P100, og tilbyder nu knap 16 petaflops med teoretisk topydelse og 9, 8 petaflops af Linpack-præstation - en stor opgradering fra de 7, 8 petaflops med høj ydeevne og 6, 3 petaflops med Linpack-ydeevne i sin tidligere iteration baseret på Cray XC30 med Nvidia K20x-acceleratorer.

Det andet P100-baserede system på listen var Nvidias egen DGX Saturn V, baseret på virksomhedens egne DGX-1-systemer og en Infiniband-forbindelse, som kom ind på nr. 28 på listen. Bemærk, at Nvidia nu sælger både processorer og DGX-1-apparatet, der inkluderer software og otte Tesla P100'er. DGX Saturn V-systemet, som Nvidia bruger til intern AI-forskning, scorer næsten 4, 9 topaftapper og 3, 3 Linpack-petaflops. Men hvad Nvidia påpeger er, at det kun bruger 350 kilowatt strøm, hvilket gør det meget mere energieffektivt. Som et resultat er dette system på toppen af ​​Green500-listen over de mest energieffektive systemer. Nvidia påpeger, at dette er betydeligt mindre energi end det Xeon Phi-baserede Camphor 2-system, der har lignende ydelse (næsten 5, 5 petaflops peak og 3, 1 Linpack petaflops).

Det er en interessant sammenligning, med Nvidia, der viser bedre energieffektivitet på GPU'er og Intel viser en mere kendt programmeringsmodel. Jeg er sikker på, at vi vil se mere konkurrence i årene fremover, da de forskellige arkitekturer konkurrerer om at se, hvilken af ​​dem der vil være den første til at nå "exascale computing", eller om den kinesiske hjemmevoksede tilgang vil komme der i stedet. I øjeblikket forventer det amerikanske energiministerium Exascale Computing Project de første exascale-maskiner, der skal installeres i 2022 og går i live det følgende år.

Jeg finder det interessant at bemærke, at trods vægten på mange-core acceleratorer som Nvidia Tesla og Intel Xeon Phi-løsninger, kun 96 systemer bruger sådanne acceleratorer (inklusive dem, der bruger Xeon Phi alene); i modsætning til 104 systemer for et år siden. Intel er fortsat den største chipudbyder med sine chips i 462 af de 500 bedste systemer, efterfulgt af IBM Power-processorer i 22. Hewlett-Packard Enterprise oprettede 140 systemer (inklusive dem, der er bygget af Silicon Graphics, som HPE erhvervede), Lenovo bygget 92 og Cray 56.

Machine Learning Competition

Der var en række meddelelser på eller omkring showet, hvoraf de fleste handlede om en form for kunstig intelligens eller maskinlæring. Nvidia annoncerede et partnerskab med IBM om en ny deep-learning software toolkit kaldet IBM PowerAI, der kører IBM Power-servere ved hjælp af Nvidias NVLink-interconnect.

AMD, som har været en eftertanke i både HPC og maskinlæringsmiljøer, arbejder på at ændre det. På dette område fokuserede virksomheden på sine egne Radeon GPU'er, skubbede sin FirePro S9300 x2 server GPU'er og annoncerede et partnerskab med Google Cloud Platform for at gøre det muligt at bruge det over skyen. Men AMD har ikke investeret så meget i software til programmering af GPU'er, da det har understreget OpenCL over Nvidias mere proprietære tilgang. På udstillingen introducerede AMD en ny version af sin Radeon Open Compute Platform (ROCm), og udpegede planer om at understøtte sine GPU'er i heterogene computerscenarier med flere CPU'er, herunder dens kommende "Zen" x86 CPU'er, ARM-arkitekturer startende med Caviums ThunderX og IBM Power 8 CPU'er.

På showet talte Intel om en ny version af sin nuværende Xeon E5v4 (Broadwell) -chip, der er indstillet til flydende arbejdsbelastning, og hvordan den næste version, der er baseret på Skylake-platformen, skal ud næste år. Men i en senere begivenhed den uge fremsatte Intel en række meddelelser designet til at placere sine chips i kunstig intelligens eller maskinlæringsrum. (Her er ExtremeTechs tag.) Meget af dette har konsekvenser for højtydende computing, men er for det meste adskilt. Til at begynde med promoverer virksomheden udover de almindelige Xeon-processorer også FPGA'er for at gøre meget af inferencen i neurale netværk. Det er en stor grund til, at virksomheden for nylig har købt Altera, og sådanne FPGA'er bruges nu af virksomheder som Microsoft.

Men fokuset på AI i sidste uge handlede om nogle nyere chips. For det første er der Xeon Phi, hvor Intel har indikeret, at den nuværende Knights Landing-version vil blive suppleret næste år med en ny version kaldet Knights Mill, der er rettet mod "deep learning" -markedet. Annonceret på IDF er dette en anden 14nm version, men med støtte til beregninger til halv præcision, som ofte bruges til træning af neurale netværk. En af de store fordele ved de nuværende Nvidia-chips i dyb læring er faktisk deres støtte til halvpræcisionsberegninger og 8-bit heltalefunktioner, som Nvidia ofte benævner "tera-ops" dyb læring. Intel har sagt, at Knights Mill vil levere op til fire gange præstationerne fra Knights Landing til dyb læring. (Denne chip forventes stadig at blive efterfulgt af en 10nm version kaldet Knights Hill, sandsynligvis rettet mere mod det traditionelle højtydende computermarked.)

Det mest interessante til næste år er et design fra Nervana, som Intel for nylig har erhvervet, som bruger en række behandlingsklynger, der er designet til at udføre enkle matematiske operationer, der er forbundet med højbåndbreddehukommelse (HBM). Først oppe i denne familie vil Lake Crest, der blev designet før Intel købte virksomheden og fremstillet på en 28mm TSMC-proces. På grund af testversioner i første halvdel af næste år siger Intel, at det vil levere mere rå compute-ydelse end en GPU. Dette vil efterhånden blive efterfulgt af Knights Crest, der på en eller anden måde implementerer Nervanas teknologi sammen med Xeon, med detaljer, der stadig ikke er meddelt.

"Vi forventer, at Nervanas teknologier producerer en gennembrud på 100 gange i ydelsen i de næste tre år til at træne komplekse neurale netværk, hvilket gør det muligt for dataforskere at løse deres største AI-udfordringer hurtigere, " skrev Intels administrerende direktør Brian Krzanich.

Intel annoncerede også for nylig planer om at erhverve Movidius, der gør DSP-baserede chips specielt velegnede til inferencing af computervision - igen ved at tage beslutninger baseret på tidligere uddannede modeller.

Det er en kompliceret og udviklende historie - bestemt ikke så ligetil som Nvidias push for sine GPU'er overalt. Men hvad det gør klart, er, hvor hurtigt maskinlæring starter, og de mange forskellige måder, som virksomheder planlægger at løse problemet, fra GPU'er som dem fra Nvidia og AMD, til mange centrale x86-processorer som Xeon Phi, til FPGA'er, til specialiserede produkter til træning, såsom Nervana og IBM's TrueNorth, til brugerdefinerede DSP-lignende inferencingmotorer som Googles Tensor-behandlingsenheder. Det vil være meget interessant at se, om markedet har plads til alle disse tilgange.

Hvorfor maskinlæring er fremtiden