Semiconductor technology & processing

10 min

Chips moeten pijn kunnen voelen en zichzelf genezen

Om toch zo lang mogelijk te kunnen doorgaan met transistorverkleining, moeten systeemarchitecten en chiptechnologen samenwerken. Bijvoorbeeld om ‘zelfhelende’ chips te maken die aanvoelen waar en wanneer er zich problemen voordoen en weten hoe ze hiermee moeten omgaan. 

Scroll

Best of 2016 / Editie november 2016

Het verkleinen van transistors, de bouwstenen van chips, heeft voor veel vooruitgang gezorgd, maar ook voor veel betrouwbaarheidsproblemen. Om toch zo lang mogelijk te kunnen doorgaan met transistorverkleining, moeten systeemarchitecten en chiptechnologen samenwerken. Ze moeten oplossingen vinden – bv. op systeemniveau – om ‘zelfhelende’ chips te maken die aanvoelen waar en wanneer er zich problemen voordoen en weten hoe ze hiermee moeten omgaan. Alleen dan zal het mogelijk zijn om systemen te ontwerpen met extreem geschaalde transistors (< 5nm). Twee experts vertellen over zelfhelende chips: ‘systeemarchitect’ Francky Catthoor en ‘chiptechnoloog’ Guido Groeseneken. 

Tot een paar jaar geleden konden chipfabrikanten elektronica nog verkopen met een gegarandeerde levensduur van x aantal jaar. De chips binnenin waren opgebouwd uit transistors met dezelfde ‘gemiddelde’ eigenschappen en die zouden verouderen of degraderen op een voorspelbare manier. Een zogenaamde ‘guard-band’ benadering werd gebruikt om te kunnen garanderen dat de circuits en chips in alle omstandigheden goed zouden functioneren:  extra marges worden toegevoegd aan de gemiddelde eigenschappen van de transistors zodat ze ook in extreme situaties goed zouden blijven werken. Maar door transistorverkleining, en de daarbij horende betrouwbaarheidsproblemen, stijgen deze marges van ongeveer 10% naar veel hogere waarden. En vanaf de 14nm-technologiegeneratie wordt de guard-band benadering geleidelijk onhoudbaar voor systemen die een gegarandeerde werking vereisen. Betekent dit dan het einde van transistorverkleining? 

 

Betrouwbare systemen maken met onbetrouwbare bouwblokken

Groeseneken: “Neen, dit is zeker niet het einde van transistor scaling, wel misschien het einde van de guard-band approach. Vroeger was het vooral de taak van de technologiemensen om de betrouwbaarheid van een systeem te garanderen. Maar binnen afzienbare tijd zal dat niet meer mogelijk zijn en komen we op een punt waar wij, de technologiemensen, moeten samenwerken met systeemarchitecten om betrouwbare systemen te ontwerpen met onbetrouwbare bouwblokken (= de extreem verkleinde transistors). In mijn onderzoeksgroep worden betrouwbaarheidsproblemen bij transistors opgemeten en proberen we fundamenteel te begrijpen wat er aan de hand is. Voor de 40nm-technologiegeneratie is het nog steeds mogelijk om de betrouwbaarheidsproblemen op te vangen en een goed systeem te bouwen. Maar bij 7nm bestaat het risico dat de betrouwbaarheid van de transistors invloed heeft op het hele systeem en conventionele ontwerptechnieken kunnen dit niet opvangen. Daarom moeten we dringend op zoek gaan naar nieuwe systeemontwerp-paradigmas.”

Het degraderen van de transistors wordt heel complex bij geschaalde technologieën. Groeseneken: “Eerst en vooral verouderen de transistors niet meer op een uniforme manier, zelfs als ze dezelfde hoeveelheid belasting (of workload) krijgen. Elke individuele transistor heeft zijn eigen verouderingsniveau, dus moeten we de statistische verspreiding van de degradatie gaan bekijken. En in een echt systeem varieert de belasting natuurlijk. Denk bv. aan een multimediatoepassing waar de workload afhankelijk is van de instructies die de gebruiker geeft aan het systeem. Deze workload afhankelijke veroudering komt er dus nog bij en maakt het voorspellen van de transistordegradatie in een systeem zeer complex.”

Catthoor: “Maar deze workload dependence hoeft niet negatief te zijn. Uiteindelijk schuilt hier de sleutel tot de oplossing om betrouwbare systemen te maken met extreem geschaalde transistors. Toekomstige systemen zullen verspreide monitors hebben die lokaal fouten gaan detecteren; een slimme controller die deze informatie interpreteert en beslist hoe het probleem op te lossen; en zogenaamde systeemknoppen (actuatoren) die door de controller bestuurd worden om het probleem op te lossen.” Groeseneken: “Je kan het vergelijken met ons lichaam waar het zenuwstelsel de pijn of de infectie lokaal detecteert, deze info naar de hersenen stuurt, die dan optreden als controleorgaan dat vervolgens de cellen aanstuurt om het probleem op te lossen. We kunnen veel leren van de manier waarop de evolutie het meest gesofisticeerde systeem ooit gemaakt heeft: ons lichaam en – vooral – onze hersenen.” 

​​Guard-band approach and workload-dependent model.

De guard-band approach gebaseerd op corner points wordt onhoudbaar voor systemen gemaakt met 14nm-technologie. Een workload-dependent model wordt voorgesteld in dit artikel als oplossing. 

concept of self-learning chips

In de toekomst zullen elektronische systemen monitors hebben, verspreid over het systeem, die zeer lokaal fouten kan opsporen; een intelligente controller die deze informatie interpreteert en beslist hoe erop te reageren: en systeemknoppen (actuatoren) die door de controller worden aangestuurd om de fout op te lossen. 

Hoe kan een chip pijn voelen?

Als je zelfhelende chips wil maken, heb je allereerst monitors nodig die verspreid zitten op de chip om lokaal ‘pijn’ te voelen. Groeseneken: “Er zijn verschillende vormen van variabiliteit die de monitors moeten herkennen. Eerst en vooral: de variatie op tijdstip 0 (time-zero variability). Dit is de variatie die je terugvindt bij extreem geschaalde transistors net na hun fabricatie. Elke transistor gedraagt zich lichtjes anders, zelfs nog voordat ze belast worden. Dit kan te verklaren zijn door procesvariaties tijdens het fabricatieproces maar wordt ook meer en meer veroorzaakt door zogenaamde ‘intrinsieke’ bronnen zoals willekeurige schommelingen in dopering of line edge roughness. Deze time-zero variabiliteit wordt groter naarmate de afmetingen van de transistors kleiner worden. Ten tweede is er een tijdsafhankelijke variabiliteit: elke transistor veroudert op een verschillende manier tijdens gebruik van het systeem. Dit kan te wijten zijn aan verschillen in belasting maar ook aan intrinsieke mechanismen zoals random defect trapping in geschaalde transistors. Bij de tijdsafhankelijke variabiliteit moet men een onderscheid maken tussen functionele betrouwbaarheidsproblemen (die het digitale gedrag van de transistor aantasten) en parametrische betrouwbaarheidsproblemen (die de parameters van de transistor aantasten) zoals vertraging, verbruik, signal-to-noise ratio (SNR).”

De betrouwbaarheid van het systeem hangt af van zowel de time-zero als de time-dependent variatie van de transistors. Catthoor: “En omdat deze variabiliteit meer en meer onvoorspelbaar wordt, hebben we monitors nodig voor beide vormen van variatie. Er wordt veel onderzoek gedaan naar deze monitors, vooral aan universiteiten, en sommige monitorconcepten zijn al in gebruik vandaag. Zo hebben de meeste chips vandaag bv. al functionele monitors. In geheugenchips, waar errordetectie relatief eenvoudig is door een parity check uit te voeren. Maar ook voor rekenkundige chips, waar het minder eenvoudig te integreren is, zijn al functionele monitors voorhanden en gedeeltelijk ook al in gebruik. Parametrische monitors zijn minder voorhanden. Ze worden al wel gebruikt in high-performance toepassingen op basis van extreem geschaalde chiptechnologie. 

 

Een slimme controller in de chip kan de (functionele en parametrische) pijn genezen

Het hart van een zelfhelende chip is de controller. Deze moet omgaan met zowel de functionele als parametrische errors. Catthoor: “Beide zijn gelinkt met elkaar, maar het is belangrijk om de oorzaak van het probleem op te lossen en niet te focussen op het resultaat. Als vertraging (delay) het probleem is, zal dit natuurlijk ook een invloed hebben op het functionele gedrag van de transistors, maar de vertraging is de oorzaak die moet aangepakt worden. Als daarentegen bitflipping lokaal gedetecteerd wordt, dan moet de functionele betrouwbaarheid aangepakt worden.”
“Het aanpakken van functionele betrouwbaarheidsproblemen wordt gedaan in geheugens (bv. 90nm technologie). Denk bv. aan error-correcting code (ECC) geheugens waarbij bitflip-problemen gedetecteerd en gecorrigeerd worden. Bij geheugens ligt de nadruk sterk op dichtheid van cellen en dus op miniaturisatie. Daarom ook dat schalingsproblemen hier typisch eerst opduiken. Bij verdere verkleining van geheugencellen zal ECC te complex worden, te verspreid en te kostelijk. Nieuwe technieken zullen nodig zijn.” 

Samen met de topuniversiteit EPFL (École polytechnique fédérale de Laussane) werkt imec aan workload-afhankelijke functionele mitigatietechnieken voor geheugens en data paths. Catthoor: “Er zijn drie niveaus waarop je de mitigatietechnieken kan integreren. Als je dit doet op niveau van het circuit, dan heb je een zeer generische oplossing die gebruikt kan worden voor elke systeemarchitectuur en toepassing. Nadeel is wel dat je veel oppervlakte en energie gebruikt. Het andere extreem is mitigatie op niveau van de toepassing. Deze oplossing is zeer specifiek en moet voor elke nieuwe toepassing opnieuw ontwikkeld worden. De meeste bedrijven zijn hier geen voorstander van omwille van de hoge systeemontwerpkost. En dan heb je nog mitigatie op niveau van de systeemarchitectuur. Deze is niet te specifiek en vertaalt zich ook niet in een overhead in oppervlakte of energieverbruik. Imec en zijn academische partners focussen vooral op mitigatietechnieken op architectuur- en circuitniveau. Dit laatste enkel wanneer de fabricatiekost laag kan gehouden worden.” 

“Ook voor parametrische betrouwbaarheidsproblemen ontwikkelen we workload-afhankelijke technieken. Ook hier spelen onze academische partners een sleutelrol. Samen met TU Delft ontwikkelen we mitigatietechnieken voor SRAMs op circuitniveau. En met NTU Athens werken we aan mitigatietechnieken op architectuurniveau. We ontwikkelen een gedeeltelijk proactieve systeemscenario-gebaseerde controller. Het vermijdt dat vertragingsfouten zich verspreiden doorheen het systeem en schade toebrengen op systeemniveau. Op niveau van de transistors kan je deze fouten niet vermijden, maar je kan wel verhinderen dat ze op systeemniveau schade toebrengen. De samenwerking met andere imec-onderzoeksgroepen zoals die van Guido Groeseneken is uiterst belangrijk omdat ze ons data en modellen geven voor de falingsmechanismen. Deze gebruiken we om onze mitigatietechnieken te ontwikkelen” Groeseneken: “Het grote voordeel van een onderzoekscentrum als imec is dat hier alle expertises onder één dak werken, hetgeen een unieke situatie is voor dit soort onderzoek.” 

 

Een toekomstvoorspeller voor zelfhelende chips

Imec en zijn academische partners willen uiteindelijk een volledig proactieve parametrische betrouwbaarheidsmitigatie techniek ontwikkelen. Deze moet bestaan uit verspreide monitors, een controlesysteem en actuatoren. Hierdoor moeten de gevolgen van vertragingsfouten en functionele fouten vermeden worden. Catthoor: “De sleutel tot deze oplossing ligt in de workload variatie van het systeem. Op basis van een deterministische toekomstvoorspeller voorspel je toekomstige rustperiodes in het systeem (zogenaamde slack) en gebruik je dit om te compenseren voor de vertragingsfout en te mitigeren tijdens een piekbelasting. Op basis van deze informatie over de toekomst, pas je de planning van de taken en het toekennen van bewerkingen aan.” Groeseneken: “Enkel met dit ‘zelfhelend’ concept (de volledig proactieve aanpak) zal het nuttig zijn om te schalen tot 5nm en verder. Ik geloof trouwens dat dit concept ook in ons lichaam zit. Onze hersenen en ons lichaam zijn (door de evolutie) niet ontworpen om met constante piekbelastingen kunnen om te gaan, maar er wordt rekening gehouden met het feit dat er rustigere periodes zullen zijn in de toekomst. Deze toekomstige rustperiodes worden gebruikt om te kunnen omgaan met huidige piekperiodes.” 

Catthoor: “Workload-afhankelijke modellen zijn inderdaad essentieel om betrouwbare systemen te kunnen maken met geschaalde en onbetrouwbare transistors. Imec brengt de kennis hieromtrent samen: kennis over de monitors, de controllers en de systeemknoppen, die meestal afkomstig is van de universiteiten. Op imec combineren we deze kennis met die van onze chiptechnologen om samen simulaties uit te werken en een volledig proactieve mitigatietechniek uit te werken voor de chips van de toekomst. De discussies met onze industriële partners zorgen er bovendien voor dat het een industrie-relevante techniek wordt. Ik verwacht dat chipbedrijven tegen 2025 echte zelfhelende chips zullen maken, en dat consumenten gebruik zullen maken van echt betrouwbare toepassingen. Zoals in zoveel domeinen zal ook hier samenwerking essentieel zijn. We moeten de expertise van chiptechnologen en systeemarchitecten samenbrengen en de kennis van academische groepen en onderzoekscentra combineren om concepten in een vroeg stadium in bereik van de industrie en maatschappij te brengen.”

 

Self-healing chips could use the workload variation of the system for their benefit

Zelfhelende chips kunnen de variatie in systeembelasting (workload) in hun voordeel gebruiken. Dankzij een deterministische voorspeller van de toekomst, kan een toekomstige rustperiode (slack) worden voorspeld en gebruikt worden om te compenseren voor de delay error en de piekbelasting verzachten. 

proactive reliability mitigation approach

De proactieve aanpak van betrouwbaarheidsproblemen gebaseerd op de variatie in systeembelasting resulteert in een klein initieel verlies in performantie, maar zorgt voor een grote winst op het vlak van systeembetrouwbaarheid gedurende de jaren die daarop volgen. 

 

 

 

Biografie Guido Groeseneken

Guido Groeseneken received an M.Sc. in electrical and mechanical engineering (1980) and a Ph.D in applied sciences (1986), both from the KU Leuven, Belgium.  In 1987 he joined imec, where he is acting as scientific fellow, covering research fields of advanced devices and reliability physics of sub-10nm CMOS technologies. He is also program director of the imec PhD program and responsible for the academic relations of imec with universities worldwide. Since 2001 he is part-time professor at the KU Leuven, where he is managing a European Erasmus Mundus Master program in nanoscience and nanotechnology.  Since January 2005 he is elected IEEE Fellow. Guido has been member of the technical program committee of several international scientific conferences, among which the IEEE International Electron Device Meeting (IEDM), the European Solid State Device Research Conference (ESSDERC), the International Reliability Physics Symposium (IRPS), the IEEE Semiconductor Interface Specialists Conference (SISC) and the EOS/ESD Symposium. From 1999 until 2006 he acted as an editor of IEEE Transactions on Electron Devices. He is the recipient of the 2017 IEEE Cledo Brunetti award.

Biografie Francky Catthoor

Francky Catthoor received the engineering degree and a Ph.D. in electrical engineering from the KU Leuven, Belgium in 1982 and 1987 respectively. Between 1987 and 2000, he has headed several research domains in the area of high-level and system synthesis techniques and architectural methodologies, including related application and deep submicron technology aspects, and smart PV modules, all at imec. Currently he is an imec fellow and part-time full professor at the EE department of the KU Leuven. In 1986 he received the Young Scientist Award from the Marconi International Fellowship Council. He has been associate editor for several IEEE and ACM journals, such as Trans. on VLSI Signal Processing, Trans. on Multi-media, and ACM TODAES. He was the program chair of several conferences including ISSS'97 and SIPS'01. He has been elected an IEEE fellow in 2005.

Deze website maakt gebruik van cookies met als enige doel het analyseren van surfgedrag, zonder enige commerciële insteek. Lees er hier meer over. Lees ook ons privacy statement.

Accepteer cookies