Hjem Fremadrettet tænkning Vil alternative arkitekturer regulere supercomputing?

Vil alternative arkitekturer regulere supercomputing?

Video: The Cray Shasta Architecture (Oktober 2024)

Video: The Cray Shasta Architecture (Oktober 2024)
Anonim

I de senere år har vi set nogle interessante nye tilgange til højtydende computing, især et skift væk fra traditionelle store processorer og mod klynger af x86 CPU'er med acceleratorer eller coprocessorer for at fremskynde bestemte slags beregninger. Da vi kom ud af sidste uges Supercomputing-show, så vi Intel skubbe for at integrere sin Xeon Phi-coprocessor med sin traditionelle Xeon-serverprocessor for at gøre programmeringen lettere; Nvidia introducerer en ny version af sin Tesla GPU-accelerator; og Micron-sikkerhedskopiering af en meget anden slags processor til endnu mere specialiseret computing. Og alt dette skete på et tidspunkt, hvor acceleratorer og coprocessorer kommer til at dominere Top 500-listen over verdens hurtigste computere, hvilket får nogle eksperter til at antyde, at de eksisterende benchmarks giver for meget vægt på disse processorer.

Nvidia præsenterede sine succeser med sine Tesla-acceleratorplader, store klynger af GPU'er forbundet til hovedprocessorer fra enten Intel eller AMD. Sådanne chips bruges i en lang række systemer, herunder Titan-systemet på Oak Ridge National Laboratory og det nye Piz Daint-system på Swiss Swiss Super Computing Computing Center. Mere interessant er det, at virksomheden siger, at Tesla-bestyrelser er i alle de top 10 systemer på den nyeste Green 500-liste over verdens mest energieffektive supercomputere. Alle disse systemer bruger også Intel Xeons med undtagelse af den AMD Opteron-baserede Titan, som er det næsthurtigste system i verden på Top 500, men rangerer meget lavere på Green 500-listen.

Derudover annoncerede Nvidia et partnerskab med IBM for at tilbyde sine Tesla-acceleratorer i systemer baseret på IBM Power-arkitekturen. IBM har længe markeret sin serielle ydeevne, og dets BlueGene / Q-system baseret på Power-processorer kører Sequoia-systemet på Lawrence Livermore National Laboratory og Mira-systemet på Argonne National Laboratory blandt andre. At have IBM og Nvidia sammen, skulle resultere i nogle interessante systemer i fremtiden.

På udstillingen annoncerede virksomheden sin Tesla K40, den næste generation af sin GPU-acceleratorplade. Virksomheden sagde, at det vil tilbyde 1, 4 teraflops med dobbelt præcisionsydelse, 12 GB hukommelse (288 GBps båndbredde) og en GPU Boost-funktion, som gør det muligt at køre med en hurtigere urhastighed i nogle situationer. Dette er en opgradering fra den eksisterende Tesla K20-serie, der bruger det samme grundlæggende GPU-design, der er produceret på 28nm-teknologi.

Andre initiativer inkluderer måder at gøre GPU-programmering lettere på, herunder CUDA 6, som nu understøtter en samlet hukommelse, hvilket lader udviklere nærme sig hukommelsen som en enkelt pool, selvom CPU og GPU-hukommelse forbliver adskilte. Virksomheden understøtter også OpenACC, en standardsamling af kompileringsdirektiver, der fortæller systemet, hvilke dele af programmet (skrevet i C / C ++ og Fortran), der kan aflæses fra CPU'en til en accelerator for at øge ydeevnen.

Intels tilgang, som den kalder sin Mange integrerede Core-arkitektur (MIC), er meget forskellige. Den kombinerer flere små x86-kerner i en enkelt chip kaldet Xeon Phi. I de sidste flere år har Intel fremhævet det faktum, at det hele er x86s, som gør det lettere at programmere, selvom det er klart, at udviklere stadig er nødt til at målrette arkitekturen direkte. Den nuværende version af Xeon Phi, kaldet Knights Corner, er designet til at blive brugt som en accelerator sammen med mere traditionelle Xeon E-serverchips og bruges af en række topsystemer, inklusive Kinas Tianhe-2 (i øjeblikket det hurtigste system i verden) og Stampede-systemet på Advanced Computing Center på University of Texas.

På udstillingen annoncerede Intel en ny version kodenavnet Knights Landing, som også fungerer som en enkeltstående CPU, der kan passe ind i en standard rackarkitektur og køre operativsystemet direkte uden at kræve en vært CPU (som f.eks. Xeon E). Dette kan være meget vigtigt for at udvide Xeon Phis appel, især på arbejdsstationsmarkedet. Igen er dette designet til at gøre det lettere for softwareudviklere at se det som en enkelt CPU. Knights Landing vil være tilgængelig både som en enkeltstående CPU og som et PCI Express-kort, der passer ind i eksisterende systemer som en opgradering fra Knights Corner.

Der er også andre væsentlige ændringer til Knights Landing, inklusive tilføjelse af "nær hukommelse", der effektivt er DRAM, der tilbydes på pakken med CPU'en og dermed kan levere en meget højere båndbredde end den traditionelle DDR-hukommelse, som er begrænset af hastigheden på bussen. (Det bliver også hurtigere, men ikke næsten så meget.) Dette er ikke det første skridt i denne retning; IBM har spioneret indlejret DRAM i sin Power-arkitektur i årevis, og Intel lægger selv indlejret DRAM til grafik i Iris Pro-versionerne af sin Haswell Core-familie. Jeg tror stadig, at vi vil se meget mere indsats i denne retning i de kommende år.

I mellemtiden kommer en af ​​de mest interessante nye tilgange fra Micron, der annoncerede en ny accelerator kaldet en Automata-processor, der hovedsageligt er designet til at tackle komplekse ustrukturerede dataproblemer.

Micron beskrev dette som at tilbyde et stof bestående af titusinder til millioner af behandlingselementer forbundet til at løse specifikke opgaver. Virksomheden, en af ​​de største producenter af DRAM og NAND-hukommelse, siger, at dette vil bruge hukommelsesbaseret behandling til at løse komplekse computerudfordringer inden for områder som netværkssikkerhed, bioinformatik, billedbehandling og analyse. Micron distribuerer oprindeligt Automata-processoren på et PCI-Express-kort for at få udviklere til at arbejde med det, men virksomheden planlægger at sælge processorer på standard hukommelsesmoduler, kendt som DIMM'er, eller som individuelle chips til indlejrede systemer. På nogle måder lyder dette som feltprogrammerbare gate arrays (FPGA'er), som er indstillet til at løse bestemte applikationer, der involverer mønster-matching.

Virksomheden sagde, at det samarbejder med Georgia Tech, University of Missouri og University of Virginia om at udvikle nye applikationer til Automata. Selvom virksomheden ikke har annonceret en dato for de endelige produkter, forventes et softwareudviklingssæt at komme ud næste år sammen med simuleringsværktøjer.

Automata lyder som et igangværende arbejde, og det er sandsynligvis for tidligt at vide, hvor brede applikationer er, men det er en interessant tilgang.

Samlet set ser vi udviklingen i high-performance computing. For ikke for mange år siden var de hurtigste computere stort set bare et stort antal standard-serverprocessorer. Faktisk er IBM Blue Gene-systemer og dem, der er baseret på Sparc (som K-computeren på RIKEN Advanced Institute for Computational Science i Japan, der bruger Fujitsu Sparc-processorer) stadig en stor del af markedet, inklusive fem af de 10 hurtigste systemer i verden. Men i de senere år har momentumet svingt hen imod coprocessor, med systemer, der bruger Tesla og for nylig Xeon Phi-acceleratorer, der udgør flere af de nyere systemer. Med forbedringer i disse systemer, nye partnerskaber, bedre software og nogle nye tilgange kan supercomputermarkedet være meget anderledes i fremtiden.

Vil alternative arkitekturer regulere supercomputing?