Hjem Fremadrettet tænkning Ivytown, steamroller, 14 og 16nm process fremhæver udcc

Ivytown, steamroller, 14 og 16nm process fremhæver udcc

2024

Video: TSMC 16nm VS 28nm Layout Understanding (Oktober 2024)

Mens chipleverandører generelt ikke introducerer nye chips på den årlige International Solid State Circuits Conference (ISSCC), giver de ofte flere detaljer om den indre funktion af allerede annoncerede produkter. Her er nogle ting, som jeg fandt interessant på denne uges show.

Intels Ivytown-serverarkitektur

Intel diskuterede den nyeste version af sin Xeon E7-processorfamilie, en chip med op til 15 kerner og 30 tråde, kendt som Ivytown. Det er baseret på Ivy Bridge EP-arkitekturen, der bruges i Xeon E5 2600 V2. Processoren er bygget ved hjælp af Intels 22nm-processeteknologi med Tri-Gate-transistorer (finnerne er 34 nm høje og 8 nm brede) og erstatter den nuværende Westmere EX-baserede Xeon E7. Til sammenligning har den nuværende Xeon E7, der produceres på en 32nm plan HKMG-processor, 10 kerner og 20 tråde og har 30 MB L3-cache sammenlignet med 37, 5 MB i Ivytown-versionen.

En af de mere interessante træk ved denne nye processorfamilie er dens modulære arkitektur. Grundplanen består af tre kolonner med fem kerner, hver med sin egen skive L3-cache, en indlejret ringbuss og dedikeret IO øverst og nederst i kolonnerne (QPI-links øverst og hukommelseskontroller i bunden). Intel planlægger at oprette en 10-core version ved at fjerne den højre kolonne; og for at oprette en 6-core version ved yderligere at fjerne to rækker.

Den 15-kerne version har 4, 31 milliarder transistorer - som Intel siger at er mest for enhver mikroprocessor - og måler 541 kvadratmeter. 10-kerneversionen har 2, 89 milliarder transistorer og måler 341 kvadratmillimeter. 6-kernevarianten har 1, 86 milliarder transistorer og måler 257 kvadratmeter. Driftsfrekvenser spænder fra 1, 4 GHz til 3, 8 GHz med TDP'er fra 40W til 150W.

Det andet interessante aspekt af Ivytown er dens hukommelsesbufferarkitektur. Den samme matrice understøtter standard fire-kanals DDR3-hukommelse, der kører med op til 1867MT / s og en ny firekanals Voltage-Mode Single-Ended (VMSE) interface til en hukommelsesforlængelsesbuffer, der kører med 2667 MT / s. I alt kan den understøtte op til 12 TB hukommelse i en 8-socket-server - tre gange hukommelseskapaciteten på Westmere EX. Den 15-core version vil være tilgængelig i to forskellige pakker: en, der er kompatibel med den eksisterende Romley-platform (Socket-R) til nemme opgraderinger og en anden, der muliggør en ny platform ved hjælp af hukommelsesbuffere.

Flere Haswell detaljer

Intel gav også en række detaljer om Haswell-arkitekturen, der blev brugt i den nuværende Core-familie. Denne bruger også 22nm Tri-Gate-transistorer. Intel sagde, at Haswell integrerer flere nye teknologier, herunder en fuldt integreret spændingsregulator eller FIVR (konsolidering af platformen fra fem spændingsregulatorer ned til en), indlejret DRAM-cache for bedre grafikydelse, lavere effekttilstande, optimeret IO, AVX2-instruktioner og en bredere SIMD-heltalenhed.

Der er tre grundlæggende variationer af Haswell: For det første er der en quad-core, der kommunikerer med en separat PCH (Platform Controller Hub) med hurtigere grafik (to til fire kerner). For det andet er der en ultrabook-platform, der kombinerer en dual-core Haswell med PCH i en enkelt multi-chip-pakke. Processoren understøtter lavere strømtilstand, PCH er modificeret til lavere effekt, og de to kommunikerer over en bus med lav effekt, som alle reducerer standbyeffekten med 95 procent. Endelig er der en version med Iris Pro-grafik og 128MB eDRAM-cache i den samme pakke. Multi-chip-pakkerne bruger en IO på pakken, der giver høj båndbredde ved lav effekt mellem CPU'en og PCH og eDRAM.

Afhængigt af antallet af CPU-kerner og grafikken (GT2 eller GT3) har Haswell alt fra 960 millioner til 1, 7 milliarder transistorer, og matrisen måler 130 til 260 kvadratmeter. Det er designet til at arbejde med 0, 7 til 1, 1 volt med et bredt frekvensområde fra 1, 1 til 3, 8 GHz.

128 GB eDRAM-matricen måler 77 kvadratmeter og giver en maksimal båndbredde på 102 GBps. Intel sagde, at sammenlignet med det samme system uden eDRAM, leverer den ekstra cache ydelsesgevinster på op til 75 procent, skønt den samlede ydelse øges med 30 til 40 procent.

AMD's Steamroller Powers Kaveri

AMD, der har tendens til at lægge mere grafik på det, det kalder sine accelererede behandlingsenheder (APU'er, eller processorer, der kombinerer CPU'er og grafik), der fokuserer på sin nye CPU-kerne, kendt som Steamroller, der bruges i virksomhedens nye Kaveri-serie af processorer. Steamroller-kernen, der er produceret i en 28nm stor CMOS-proces, har 236 millioner transistorer i et område på 29, 47 kvadratmeter. Dette inkluderer to heltalekerner, to instruktionsafkodningsenheder og flere delte elementer, herunder instruktionshentning, flydepunktenhed og 2 MB L2-cache. AMD bruger typisk et af disse Steamroller-moduler i dets "dual-core" -chips (afspejler de 2 heltalskerner); og to i dens "quad-core" -chips.

Sammenlignet med den tidligere Piledriver-kerne, der blev produceret på en 32 nm SOI-proces, tilføjer Steamroller en anden instruktionsafkodningsenhed, en større 96KB delt instruktionscache og andre forbedringer. AMD sagde, at dette førte til op til 14, 5 procent flere instruktioner pr. Cyklus, hvilket svarer til 9 procent bedre ydelse på enkeltrådede applikationer og 18 procent bedre ydelse på dobbelttrådede apps. Det kan også køre med 500 MHz større frekvens ved den samme effekt eller levere omtrent den samme ydelse med en 38 procents effektreduktion. Steamroller-kernen er designet til at fungere i området 0, 7 til 1, 45 volt.

Mobilprocessorer fra MediaTek, Renesas og Qualcomm

En række virksomheder holdt præsentationer om deres ARM-baserede processorer.

MediaTek talte om sin 28nm heterogene multi-core processor (HMP) med en quad-core CPU og dual GPU. MediaTek-chippen har to Cortex A15-kerner, der kører ved 1, 8 GHz, og to Cortex A7-kerner, der kører ved 1, 4 GHz, kombineret med en Imagination G6200 400MHz dual-core GPU. Det har også en Full HD-hardwarevideo-codec og en 13-megapixel billedsensor-processor.

MediaTek talte også om PTP-teknologi (Performance, Thermal and Power), der overvåger chippen og kontrollerer strømmen. I dette tilfælde sagde virksomheden, at PTP tillader enten en 23 procents stigning i urets hastighed eller op til 41 procent strømbesparelse.

Denne chip bruger ARMs ægte HMP-behandling, hvilket betyder, at enhver kombination af store og små kerner fra en til fire kan køre afhængigt af arbejdsbyrden. MediaTek sagde, at ved hjælp af ægte HMP kan chippen levere 33-51 procent bedre ydelse på tunge arbejdsbelastninger eller 2-5x bedre energieffektivitet på lette arbejdsbelastninger, mens adaptiv termisk styring leverer yderligere 10 procent ydeevne boost.

Renesas præsenterede en "foreslået" 28nm HPM otte-core heterogen processor designet til mobile enheder og bilinfotainmentsystemer. Chippen bruger fire 2GHz Cortex A15-kerner og fire 1GHz Cortex A7-kerner. Den er i stand til at betjene alle 8 kerner samtidigt for den højeste ydelse, men den bruger også den heterogene arkitektur og strømstyringsteknikker til at optimere ydelsen til bestemte arbejdsbelastninger eller strømkonvolutter.

Qualcomm beskrev sin Hexagon digitale signalprocessor, der bruges i sine mobile SoC'er til en række multimedie- og modemapplikationer. Den aktuelle version er fremstillet i 28 mm HKMG bulk CMOS-proces. Dette design retter sig mod høje instruktioner pr. Ur i modsætning til høje driftsfrekvenser.

På ARM-serversiden talte Applied Micro om virksomhedens første generation af 64-bit ARMv8-processor, der først blev annonceret under det nylige Open Compute-topmøde. Dette er baseret på et "Potenza" -processormodul (PMD), der inkluderer to kerner, der deler 256 KB L2-cache. Potenza er fremstillet i 40 nm bulk-CMOS, og hver PMD indeholder 84 millioner transistorer og bruger 14, 8 kvadratmillimeter matriceareal. Det kan fungere med op til 3GHz ved 0, 9 volt, men gennemsnitligt 4, 5W under typiske arbejdsbelastninger. X-Gene 3-serverplatformen inkluderer fire PMD'er (otte kerner), en delt 8MB L3-cache og fire DRAM-hukommelseskanaler omkring en central switch. Det integrerer også 10 GB Ethernet, SATA 2/3, PCIe Gen. 3 og USB 3.0.

Den næste generation af Chip Process Tech

Der var også et par præsentationer om den næste generation af chipprocesssteknologi, da næsten alle de store chipproducenter har planer om at flytte til 3D- eller FinFET-produktion ved 14 eller 16 nm knudepunktet (efter Intel, der allerede sender 22nm chips med sådan teknologi).

Samsung talte om den forestående 14nm FinFET-proces, der viste en 128Mb 6T SRAM-matrix og testchip. Samsung sagde, at FinFET'er er en god løsning til laveffektive mobile SoC'er, fordi de giver god skalering, høj løbende strøm og lav lækage og har god kort kanalkontrol.

Dette udgør også nogle udfordringer for SRAM'er, fordi SRAM's forsyningsspænding ikke har været skaleret. SRAM udtager nu 20-30 procent af matrisen i en SoC, men den bruger ca. 40-50 procent af strømmen. For at løse disse problemer foreslog Samsung nogle nye teknikker til at betjene SRAM'er ved hjælp af FinFET-transistorer ved lavere forsyningsspænding.

TSMC behandlede lignende problemer og viste frem sin 16nm 128Mb SRAM-chip. TSMC sagde, at FinFET'er er blevet en mainstream-teknologi til produktion over 20 nm, men sagde, at størrelsen på kanalens bredde og længde med FinFET'er er en udfordring til skalering af konventionel 6T-SRAM og forsyningsspænding. TSMC foreslog to skriveassistenteknikker til at overvinde disse problemer.

Dette er temmelig tekniske problemer, men det er vigtigt at løse problemerne, hvis vi skal få tættere og mere energieffektive chips i fremtiden.