Hjem Fremadrettet tænkning Store ændringer er endelig i horisonten for supercomputere

Store ændringer er endelig i horisonten for supercomputere

2024

Video: Генри Маркрам строит мозг в суперкомпьютере (Oktober 2024)

Når man ser tilbage på denne uges ISC 17-supercomputing-konference, ser det ud til, at supercomputing-verdenen vil se nogle store opgraderinger i de næste par år, men opdateringen til den to gange årlige Top 500-liste over verdens hurtigste supercomputere var ikke meget forskellig fra den forrige version.

De hurtigste computere i verden er fortsat de to massive kinesiske maskiner, der har toppet listen i et par år: Sunway TaihuLight-computer fra Kinas National Supercomputing Center i Wuxi, med vedvarende Linpack-ydelse på mere end 93 petaflops (93 tusind billioner flydende point operationer pr. sekund); og Tianhe-2-computeren fra Kinas National Super Computer Center i Guangzhou, med vedvarende ydelse på mere end 33, 8 petaflops. Disse forbliver de hurtigste maskiner med en enorm margin.

Det nye nummer tre er Piz Daint-systemet fra Swiss National Supercomputing Center, et Cray-system, der bruger Intel Xeons og Nvidia Tesla P100s, som for nylig blev opgraderet for at give den en Linpack vedvarende ydelse på 19, 6 petaflops, dobbelt så meget som den tidligere. Det flyttede det op fra nummer otte på listen.

Dette falder det øverste amerikanske system - Titan-systemet ved Oak Ridge National Laboratory - ned til fjerdepladsen, hvilket gør dette til første gang på tyve år, at der ikke er noget amerikansk system i top tre. Resten af listen forbliver uændret, hvor USA stadig står for fem af de 10 øverste samlet og Japan for to.

Selv hvis den hurtigste computerliste ikke har ændret sig meget, er der store ændringer andre steder. På Green 500-listen over de mest energieffektive systemer blev ni af de ti øverste ændret. På toppen er Tsubame 3.0-systemet, et modificeret HPE ICE XA-system ved Tokyo Institute of Technology baseret på en Xeon E5-2680v4 14-kerne, Omni-Path-forbindelsen og Nvidias Tesla P100, der giver mulighed for 14, 1 gigaflops pr. Watt. Dette er et stort spring fra Nvidias DGX Saturn V, baseret på firmaets DGX-1-platform og P100-chips, som var nummer et på november-listen, men nummer ti denne gang, på 9, 5 gigaflops / Watt. P100 findes i ni af de ti bedste Green500-systemer.

At bryde 10 gigaflops / watt er en stor aftale, fordi det betyder, at et hypotetisk exaflop-system bygget ved hjælp af nutidens teknologi vil forbruge under 100 megawatt (MW). Det er stadig for meget - målet er 20-30 MW for et exaflop-system, som forskerne håber at se i de næste fem år eller deromkring - men det er et stort skridt fremad.

Ligesom Top 500-listen var der kun mindre ændringer på lignende lister med forskellige benchmarks, såsom High Performance Conjugate Gradients (HPCG) benchmark, hvor maskiner har en tendens til kun at se 1-10 procent af deres teoretiske topydelse, og hvor toppen system - i dette tilfælde leverer Riken K-maskinen stadig mindre end 1 petaflop. Både TaihuLight og Piz Daint-systemerne rykkede op på denne liste. Når forskere taler om en exaflop-maskine, betyder de en tendens til Linpack-benchmark, men HPCG er muligvis mere realistisk med hensyn til den virkelige verden.

Fremkomsten af GPU-computing som en accelerator - næsten altid ved hjælp af Nvidia GPU-processorer som P100 - har været den mest synlige ændring på disse lister i de senere år, efterfulgt af introduktionen af Intels egen accelerator, den mange-core Xeon Phi (inklusive den seneste version af Knights Landing). Den aktuelle Top 500-liste inkluderer 91 systemer, der bruger acceleratorer eller coprocessorer, herunder 74 med Nvidia GPU'er og 17 med Xeon Phi (med yderligere tre, der bruger begge); en med en AMD Radeon GPU som en accelerator, og to der bruger en mange-core processor fra PEZY Computing, en japansk leverandør. Yderligere 13 systemer bruger nu Xeon Phi (Knights Landing) som hovedbehandlingsenhed.

Men mange af de større ændringer til supercomputere er stadig i horisonten, da vi begynder at se større systemer designet med disse koncepter i tankerne. Et eksempel er den nye MareNostrum 4 i Barcelona Supercomputing Center, der kom ind på Top 500 listen på nummer 13. Som installeret indtil nu er dette et Lenovo-system baseret på den kommende Skylake-SP-version af Xeon (officielt Xeon Platinum 8160 24 -core processor). Hvad der er interessant her er de tre nye klynger af "ny teknologi", der er planlagt i de næste par år, inklusive en klynge med IBM Power 9-processorer og Nvidia GPU'er, designet til at have en topbehandlingsevne på over 1, 5 Petaflops; et sekund baseret på Knights Hill-versionen af Xeon Phi; og en tredje baseret på 64-bit ARMv8-processorer designet af Fujitsu.

Disse koncepter bruges i en række andre store supercomputer-projekter, især flere sponsoreret af det amerikanske energiministeri som en del af dets CORAL-samarbejde på Oak Ridge, Argonne og Lawrence Livermore National Labs. Først skulle topmødet ved Oak Ridge, der vil bruge IBM Power 9-processorer og Nvidia Volta GPU'er, og planlægges til at levere over 150 til 300 top petafops; efterfulgt af Sierra ved Lawrence Livermore, planlagt til at levere over 100 top-petaflops.

Vi skulle derefter se Aurora-supercomputeren på Argonne National Laboratory, der er baseret på Knights Hill-versionen af Xeon Phi og bygget af Cray, som er beregnet til at levere 180 højdepunkt med petaflops. CORAL-systemerne skal være ope og løb næste år.

I mellemtiden har de kinesiske og japanske grupper også planlagt opgraderinger, mest ved hjælp af unikke arkitekturer. Det skulle være interessant at se.

Et endnu større skift ser ud til at være lidt længere væk: skiftet mod maskinlæring, typisk på massivt parallelle behandlingsenheder i selve processoren. Mens Linpack-nummeret refererer til 64-bit eller dobbelt præcisionsydelse, er der klasser af applikationer - inklusive mange dybe neurale netværksbaserede applikationer - der fungerer bedre med enkelt- eller endda halvpræcisionsberegninger. Nye processorer drager fordel af dette, såsom Nvidias nylige Volta V100-meddelelse og den kommende Knights Mill-version af Xeon Phi. På udstillingen sagde Intel, at den version, der forventes at være i produktion i fjerde kvartal, ville have nye instruktionssæt til "lavpræcisionsberegning" kaldet Quad Fused Multiply Add (QFMA) og Quad Virtual Neural Network Instruction (QVNNI).

Jeg antager, at disse koncepter også kunne anvendes til andre arkitekturer, såsom Googles TPU'er eller Intels FPGA'er og Nervana-chips.

Selv hvis vi ikke ser store ændringer i år, skal vi næste år forvente at se mere. Konceptet med en exascale (1000 teraflops) maskine er stadig i syne, selvom det sandsynligvis vil involvere en række endnu større ændringer.