Hjem Fremadrettet tænkning Oracle, nvidia, arm tager spotlight på hot chips

Oracle, nvidia, arm tager spotlight på hot chips

2024

Video: Gigabyte RTX 3070 EAGLE тест на паре алгоритмов. Готовим MSI H310-F PRO к запуску 13 карт. День 1. (Oktober 2024)

Mens meget af chipspændingen i sidste uge kom fra Intels Broadwell-meddelelse, var der en række andre chips diskuteret detaljeret på den årlige Hot Chips-konference, som har haft en tendens til at fokusere mest på chips designet til servere og datacentre.

Showet er kendt for avancerede chips, hvor Intel, Oracle og IBM alle diskuterede deres seneste poster, men kun Oracle's Sparc M7 var virkelig ny. I stedet endte meget af showet med at fokusere på ARM-baserede produkter, inklusive de første detaljer om Nvidias kommende 64-bit "Denver" -version af sin Tegra K1-processor

Oracle, Intel og IBM sigter højt med serverchips

Af high-end-chips kom den mest imponerende nyhed fra Oracle, der diskuterede den næste generation af sin SPARC-processor, kendt som en M7. Denne chip vil have 32 S4 SPARC-kerner (hver med op til otte dynamiske tråde), 64 MB L3-cache, otte DDR4-hukommelseskontrollere (op til 2 TB pr. Processor og 160 GBps hukommelsesbåndbredde med DDR4-2133) og otte dataanalytiske acceleratorer tilsluttet over et on-chip netværk.

Chippen er organiseret i otte klynger med fire kerner hver med delt L2-cache og en opdelt 8 MB L3-cache med mere end 192 GBps båndbredde mellem en kerneklynge og dens lokale L3-cache. I sammenligning med M6 (en 28nm-chip med 12 3, 6 GHz SPARC S3-kerner) leverer M7 3-3, 5 gange bedre ydelse på hukommelse båndbredde, heltal gennemstrømning, OLTP, Java, ERP-systemer og flydepunkt-gennemstrømning. Stephen Phillips, Oracle's seniordirektør for SPARC Architecture, sagde, at målet var en stigning i trin-funktionen i præstationer snarere end stigende gevinster.

M7 kan skalere til 8 sockets limfri (op til 256 kerner, 2.000 tråde og 16 TB minne) og med en ASIC-switch til at styre trafik mellem dem i en SMP-konfiguration, op til 32 processorer, så du kan ende med et system med 1.024 kerner, 8.192 tråde og op til 64 TB hukommelse. Temmelig imponerende. Oracle sagde, at det tilbyder 3 til 3, 5 gange bedre ydelse på en række tests sammenlignet med sidste års SPARC M6. Virksomheden sagde, at dette vil være optimeret til Oracle's egen softwarestak, der er fremstillet på en 20nm-proces og tilgængelig i systemer engang næste år.

IBM gav også flere detaljer om sin Power8-linje, som den annoncerede ved sidste års show. Den version af chippen havde 12 kerner, hver med op til otte tråde med 512 KB SRAM niveau 2-cache pr. Kerne (6 MB samlet L2) og 96MB delt indbygget DRAM som en niveau 3-cache. Denne enorme chip, der måler 650 kvadratmeter med 4, 2 milliarder transistorer, er fremstillet på IBMs 22nm SOI-proces og begyndte levering i juni, ifølge IBM.

For et par måneder siden annoncerede IBM en version med seks kerner, der måler 362 mm ². Dette års foredrag handlede om, hvordan IBM kan kombinere to af de seks-core-versioner i en enkelt pakke med 48 baner med PCIe Gen 3. IBM sagde, at en to-socket-version med i alt 24 kerner og 192 tråde vil overgå en to-processor Xeon Ivy Bridge-server med 24 kerner (med 48 tråde). IBM sælger Power for det meste på højtydende og specialiserede markedspladser, så de fleste mennesker sammenligner ikke de to, men det er interessant. I et forsøg på at gøre Power-arkitekturen mere mainstream, annoncerede IBM sidste år Open Power Consortium, og i år sagde virksomheden, at den havde en fuld open source-softwarestak til platformen. Men indtil videre har ingen andre end IBM annonceret en server baseret på platformen.

Intel talte om "Ivytown", serverversionen af Ivy Bridge, der inkluderer versionerne af Xeon E5, der blev introduceret for et år siden, og Xeon E7, der blev introduceret i februar. Dette års foredrag fokuserede på, hvordan Intel nu dybest set har en arkitektur, der kan dække begge markeder, med chips, der giver mulighed for op til 15 kerner, to DDR3-hukommelseskontrollere, tre QPI-links og 40 PCI Gen 3-baner, der er arrangeret i et modulært gulv plan, der kan omdannes til tre forskellige matricer, hver designet til forskellige stik, med i alt mere end 75 varianter. Dette kan bruges i to-, fire- og otte-socket-servere uden særlige forbindelser.

Disse chips udgør naturligvis størstedelen af serverkøb i disse dage, da Intel tegner sig for langt de fleste serverenheder. Men meget af informationen var tidligere dækket på ISSCC, og Intel forventes bredt at introducere den næste version af E5-familien (E5-1600v3 og E5-2600 v3) meget snart, baseret på en opdateret version ved hjælp af en variant af Haswell-arkitektur kaldet Haswell-EP. (I sidste uge annoncerede Dell nye arbejdsstationer baseret på disse nye chips.)

Intel diskuterede også sin Atom C2000, kendt som Avoton, der gik i produktion i slutningen af 2013. Denne chip og Ivy Bridge og Haswell chips er alle baseret på Intels 22nm-proces.

Nvidia, AMD, Applied Micro Aim på nye markeder for ARM

Showets største overraskelse var sandsynligvis fokuset på ARM-baseret teknologi, herunder hovedtaster fra ARM-højttalere og Nvidias detaljering af den forestående "Denver" -version af sin Tegra K1-processor.

I en hovednotat diskuterede ARM CTO Mike Muller strømbegrænsningerne i alt fra sensorer til servere og fokuserede på, hvordan ARM forsøgte at udvide til virksomheden. Muller skubbede også op til at bruge ARM-sensorchips til Internet of Things, et emne, der også blev gentaget i en hovednote fra Qualcomms Rob Chandhok. Men ingen af virksomhederne annoncerede nye kerner eller processorer.

I stedet kom den store nyhed på fronten fra Nvidia, som gav meget flere detaljer om den nye version af sin K1-processor. Da virksomhedens Denver-projekt først blev annonceret, lød det som om denne chip skulle rettes mod det højtydende computermarked, men nu ser det ud til, at virksomheden har fokuseret mere på ting som tablets og bilmarkedet. Tegra K1 kommer i to versioner. Den første, der blev annonceret tidligere i år og nu afsendes i selskabets Shield-tablet, har fire 32-bit ARM Cortex-A15-kerner plus en "strømkammer-kerne" med lav effekt i den 4 + 1-konfiguration, som Nvidia har skubbet ind Tegra-linjen i flere år.

Denver-versionen er en helt anden med to nye proprietære 64-bit-kerner designet af Nvidia, og virksomheden fortæller virkelig de præstationsgevinster, den får. Kernen er syv-vejs superscalar (hvilket betyder, at den kan udføre op til syv mikro-ops samtidigt) og har en 128 kB firvejs L1-instruktionscache og en 64 kB fire-vejs L1-datacache. Chippen kombinerer to af disse kerner sammen med en 2MB niveau 2-cache, der tjener begge kerner, som de 192 "CUDA-kerner" (grafiske kerner), den deler med 32-bit K1. Som sådan repræsenterer det en stor afgang fra 4 + 1-arkitekturen.

En stor ændring inkluderer, hvad Nvidia kalder "dynamisk kodeoptimering", som er designet til at tage hyppigt anvendte ARM-kode og konvertere den til mikrokode, der er specielt optimeret til processoren. Dette gemmes i 128 MB cachehukommelse (udskåret fra den traditionelle systemhovedhukommelse). Målet er at give det udførelsen af en out-of-order udførelse uden at kræve så meget strøm, som den teknik normalt bruger. Konceptet er ikke nyt - Transmeta prøvede det for år siden med sin Crusoe-chip - men Nvidia siger, at dette nu fungerer særligt bedre.

Nvidia viste flere benchmarks, hvori det hævdede, at den nye chip kan opnå markant højere ydelse end eksisterende fire- eller otte-core mobile CPU'er - specifikt med henvisning til Qualcomms Snapdragon 800 (MSM8974), Apple A7 (undertiden kaldet Cyclone), der blev brugt på iPhone 5s - og endda nogle almindelige pc-processorer. Nvidia sagde, at det var bedre end en Atom (Bay Trail) processor og svarede til Intels 1, 4 GHz dual-core Celeron (Haswell) processor. Selvfølgelig har jeg en tendens til at tage leverandørpræstationsnumre med et saltkorn: ikke kun vælger sælgerne benchmarks, det er slet ikke klart, at vi taler om de samme urhastigheder eller den samme magttrækning.

I mellemtiden talte AMD i chips, der var mere rettet mod servere, mere om sin Opteron A1100, kendt som "Seattle", med virksomheden og sagde, at den i øjeblikket var i stikprøveudtagning og skulle være tilgængelig på servere omkring slutningen af dette år. Denne chip har otte 64-bit Cortex A57 CPU-kerner; 4MB L2-cache og 8MB L3-cache; to hukommelseskanaler til op til 128 GB DDR3- eller DDR4-hukommelse med fejlkorrektion; masser af integrerede I / O (8 baner hver af PCIe Gen3 og 6 Gbps SATA og to 10 Gbps Ethernet-porte); en Cortex A5 "systemkontrolprocessor" til sikker opstart; og en accelerator til at fremskynde kryptering og dekryptering. Det fremstilles på GlobalFoundries 28nm-proces. AMD har endnu ikke givet detaljer om chipens frekvens, magt eller ydeevne, men viste et grundlæggende diagram over chip'en. (over)

Applied Micro har længe påstået at have den første ARM-serverchip på markedet med sin X-Gene 1 (kendt som Storm) indeholdende 8 2.4 GHz-ejendomsretlige ARMv8-kerner, fire DDR3-hukommelseskontrollere, PCIe Gen3 og 6 Gbps SATA og 10 Gbps Ethernet. Dette er i øjeblikket i produktion på TSMCs 40nm-proces, siger virksomheden.

På Hot Chips skubbede Applied Micro sit X-Gene 2 (Shadowcat) design, der vil være tilgængeligt med otte eller 16 "forbedrede" kerner, der kører i hastigheder fra 2, 4 til 2, 8 GHz, og tilføjer en RoCE (RDMA over Converged Ethernet) vært Kanaladapter som en interconnect designet til at muliggøre lav latensforbindelser mellem klynger af mikroservere. Dette er designet til at blive brugt i klynger med et enkelt server rack, der understøtter op til 6.480 tråde og 50 TB hukommelse, der alle deler en enkelt pool af lagerplads. Virksomheden siger, at X-Gene 2 vil tilbyde cirka 60 procent bedre heltalpræstationer, dobbelt så meget som Memcache og ca. 25 procent bedre Apache Web-servering. Det er fremstillet på en 28nm proces og er i øjeblikket ved prøveudtagning.

Applied Micro siger, at X-Gene 2 udfylder et mellemrum mellem konkurrerende mikroservere (Cavium ThunderX, Intel Atom C2000 "Avoton" og AMD Opteron A1100 "Seattle") og Xeon-servere i fuld størrelse. Det gav nogle detaljer om den næste generation, X-Gene 3 (Skylark), som er beregnet til at starte prøveudtagning næste år. Denne chip har 16 ARMv8-kerner, der kører ved op til 3 GHz, og vil blive fremstillet ved hjælp af 16nm FinFet-teknologi.