64
Exponentielles et Murs Daniel Etiemble Daniel Etiemble LRI – Université Paris Sud

Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Exponentielles et Murs

Daniel EtiembleDaniel EtiembleLRI – Université Paris Sud

Page 2: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Exponentielles et mursExponentielles et murs

10000

100000

100

100060%

1

10 Ne pas franchir7%

0 5 10 15 20 25 30

A f hi !A franchir !

2Archi15  (8 Juin) D. Etiemble

Page 3: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Des équations fondamentalesDes équations fondamentales

• Temps d’exécution d’un programme

• Puissance dissipée CMOS

= 0 (autrefois !) 0= 0 (autrefois !) 0Archi15  (8 Juin) D. Etiemble

Page 4: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Plan (en vrac)Plan (en vrac)

Exponentielles– Technologie

Murs• Chaleur

– Moore– Performances

• IPC• Mémoire

– Puissance dissipée– Coûts de fabrication

• Conception• Programmation parallèle ?

– ….• …

Relations entre exponentielles et mursRelations entre exponentielles et murs

4Archi15  (8 Juin) D. Etiemble

Page 5: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Les exponentiellesLes exponentielles

fi• En profiter– Utilisation dans les applications 

• Puissance de calcul, capacité mémoire, etc.• Exemple : la traduction automatique

L b tt• Les combattre– Continuer à réaliser la progression exponentielle

f i hi hi• Performances : microarchitecture et architecture• Traitement : explosion de la taille des données…

• Les deux à la fois• Les deux à la fois– Exemple : calcul scientifique

Page 6: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

La loi de MooreLa loi de Moore

• Version correcte– Le nombre de transistors par ppuce double tous les ans / 18 mois / 2 ans/

• Versions « incorrectes »D bl l d– Doublement tous les deux ans 

• De la performance• Du nombre de cœurs par puce• Etc

6Archi15  (8 Juin) D. Etiemble

Page 7: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

La loi de MooreLa loi de Moore

7Archi15  (8 Juin) D. Etiemble

Page 8: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Les « nœuds » technologiquesLes « nœuds » technologiquesGrille G

Source

S

Drain

D

GrilleOxyde

(Si O )S D

substrat (bulk)

Semiconducteur(Si O )2

Silicium dopé

• Une fin ?– Il est difficile de faire des prévisions (surtout pour le futur)

• Voir les prévisions passées et la réalitéVers les limites physiques– Vers les limites physiques

– Quand ?

88Archi15  (8 Juin) D. Etiemble

Page 9: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Remarques sur les prévisionsRemarques sur les prévisions

• Paolo Gardini (Intel Fellow – ITRS Chairman)– http://www.ewh.ieee.org/r6/scv/eds/slides/2014‐Mar‐11‐Paolo.pdf

• Lesson 2 – « Predictors of Engineering Limits have Always« Predictors of Engineering Limits have Alwaysbeen Proven Wrong by The Right Improvements »

• Lesson 3• Lesson 3‐ « It Would be Wrong to Believe that the Right Fundamental Limits Don’t Exist »

9Archi15  (8 Juin) D. Etiemble

Page 10: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

« Predictors of Engineering Limits have Always been Proven Wrong by The Right Improvements »

• Un exemple – Transistor 3D et Technologie FinFETg

Vitesse Courant de fuite

10Archi15  (8 Juin) D. Etiemble

Page 11: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

« It Would be Wrong to Believe that the Right FundamentalLimits Don’t Exist »

Nœuds et longueur de grille

Nœuds

11Archi15  (8 Juin) D. Etiemble

Page 12: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Coûts de fabricationCoûts de fabrication

Page 13: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Fonderies pour les autres (14 13)Fonderies pour les autres (14 13)

Revenus (millions $USD) 2013

Croissance exponentielle des coûts de fonderie (loi de Rock)

100

1000

10000

1

10

GLOBALFOUNDRIES TO ACQUIRE IBM'S MICROELECTRONICS BUSINESSGLOBALFOUNDRIES TO ACQUIRE IBM S MICROELECTRONICS BUSINESS Acquisition Enables GLOBALFOUNDRIES to Become a World Leader in Semiconductor Foundry Technology; 

13Archi15  (8 Juin) D. Etiemble

Page 14: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Vitesse des portesVitesse des portesT transit (ps)

1000

T transit (ps)

100Inverseurs

10

1101001000

Noeud technologique (nm)Sources : STmicroelectronics

1414Archi15  (8 Juin) D. Etiemble

Page 15: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Nombre de transistors (microprocesseurs)

10 000 000 000

Xeon Phi

1 000 000 000

Xeon Phi

100 000 000

1 000 000

10 000 000

80486

1 000 0001 µm 0.8 µm 0.5 µm 0.35 µm 0.25 µm 180 nm 130 nm 90 nm 65 nm 45 nm 40 nm 32 nm 22 nm

15Archi15  (8 Juin) D. Etiemble

Page 16: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Nombre de transistorsNombre de transistors10000

stors

GPU

100

1000

de tran

sis GPU

1

10

350 nm 250 nm 250 nm 220 nm 180 nm 130 nm 110 nm 90 nm 90 nm 80 nm 65 nm 55 nm 40 nm 28 nm

Millions d

sistors

FPGA

10000ns de tran

FPGA

100

1000

Million

10130 nm 90 nm 65 nm 40 nm 28 nm 20 nm

16Archi15  (8 Juin) D. Etiemble

Page 17: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Surface de puceSurface de puceSPARC T3

300

350

400

PentiumPentium Pro

SPARC‐T3

200

250

300

AMD‐K10

50

100

150mm2

386P ti III

Core i7

0

50

1500 nm1000 nm 800 nm 500 nm 350 nm 250 nm 180 nm 130 nm 90 nm 65 nm 45 nm 40 nm 32 nm 22 nm

Pentium III

Surfaces entre 1 et 7 cm2Neon Nehalem – 45 nm – 685 mm2

Power8 – 22 nm – 650 mm2

17Archi15  (8 Juin) D. Etiemble

Page 18: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Une ou deux pucesUne ou deux pucesO é t fl tt t• Opérateurs flottants– Coprocesseurs  (ex : x87)…– Intégrés

Du coprocesseur à l’intégrationg

• Caches– Externes

I (L1 i L1 L2 i )

l intégrationdans la même puce

– Internes (L1 puis L1‐L2 puis…)• CPU et GPU

– 2 puces distinctes De puces distinctes2 puces distinctes– GPU intégré (APU)

• Multi‐cœurs 

De puces distinctes à une seule puce

– 1 puce– Cluster de multi‐cœurs

18Archi15  (8 Juin) D. Etiemble

Page 19: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Evolution des cachesEvolution des cachescache CPU

MémoireCacheCPU MémoireL2 Cache

L3L1-ID

cache L2

CPUL1-ID

cache D - L1 Cache

386L2

Power6

MémoireD L1 Cache

L2cache I – L1

CPU

cache D L1 Cache

Pentium 

8 cœurs Mémoire

cache L2

CacheL4

CPUL1-ID

cache L3

MémoireMémoireD - L1

cache I – L1

CacheL2

unifiéCPU

MémoireL4

cache L2

CPUL1-ID

cache L3

Pentium 4  Power 819Archi15  (8 Juin) D. Etiemble

Page 20: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Un ou plusieurs circuits intégrésUn ou plusieurs circuits intégrésE l GPU APU• Exemple : GPU ou APU– APU = CPU + GPU dans la même puce.p

20Archi15  (8 Juin) D. Etiemble

Page 21: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Performance microprocesseurs (1980 2005)Performance microprocesseurs (1980‐2005) NI

d l

NI

IPC * FTexécution = NI * CPI * Tc =

Nombre de cycles/Instruction

Temps de cycle

1000

10000 Microarchitecture

10

100

1000CPUF(MHz)

(IPC)

1

80 84 88 92 9620

00 Technologie

21Archi15  (8 Juin) D. Etiemble

Page 22: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Exponentielles ( l ti ll d’ t )Exponentielles…(plus exponentielles que d’autres) 

• Evolution / anCapacité DRAM

1/Latence DRAM

P f è 86

Débit DRAM

Performance avant 87

Performance après 86

0% 10% 20% 30% 40% 50% 60% 70%

Fréquence

0% 10% 20% 30% 40% 50% 60% 70%

22Archi15  (8 Juin) D. Etiemble

Page 23: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Mur de l’IPCMur de l IPC• Parallélisme d’instructions

– Nombre d’instructions exécutables/cycle

• Evolution très limitée de 1990 à 2015

256

ROB µop/cycle Station réservation

Registres physiques entiers Registres physiques flottants

32

64

128

4

8

16

µop fusionnées (10 à 35%)Renommage ROB

Renommage registres

1

2

4

i i S d id ll

1995 2000 2011 2013Pentium Pro Pentium 4 Sandy Bridge Haswell

23Archi15  (8 Juin) D. Etiemble

Page 24: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Algorithme de TomasuloAlgorithme de TomasuloRECHERCHE ASSOCIATIVE

Instructions à exécuter

RECHERCHE ASSOCIATIVE

@ @Ra Rb @ @Ra Rb

OP1 OP2

@ @Ra Rb @ @Ra RbRegistres

OP1 OP2

@ R @ R

24Archi15  (8 Juin) D. Etiemble

Page 25: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

o‐o‐o : simplifier les recherches associatives

Renommage + ROBRenommage + ROB

Pentium Pro, PIII, Nehalem

Netburst (P4)… Sandy Bridge, Haswell

Recherches associatives complexes‐ Bibliothèques versus « full custom » (cas ARM)

( ) y g ,

25Archi15  (8 Juin) D. Etiemble

Page 26: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Banc de registres multi portsBanc de registres multi‐ports

i d bl è• Registres double accès

• Registres N ports– Temps accès proportionnel à NTemps accès proportionnel à N– Surface proportionnelle à N2

Page 27: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Le mur de la chaleurLe mur de la chaleur1000

RéacteurRéacteur nucléairenucléaireRéacteurRéacteur nucléairenucléaire Traîne

s/cm

2 100 Pentium® 4Pentium® 4Traînefusée

Watts

10Pentium® ProPentium® Pro

Pentium® IIPentium® IIPentium® IIIPentium® IIIHot plateHot plate

i386i386i486i486

Pentium® Pentium® Pentium® ProPentium® Pro

1

* “New Microarchitecture Challenges in the Coming Generations of CMOS Process Technologies” * “New Microarchitecture Challenges in the Coming Generations of CMOS Process Technologies” ––F d P ll k I t l C Mi 32 f k tF d P ll k I t l C Mi 32 f k t 19991999Fred Pollack, Intel Corp. Micro32 conference key note Fred Pollack, Intel Corp. Micro32 conference key note -- 1999.1999.

27Archi15  (8 Juin) D. Etiemble

Page 28: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Puissance dissipée GPUPuissance dissipée ‐ GPU

28Archi15  (8 Juin) D. Etiemble

Page 29: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Puissance dissipée en CMOSPuissance dissipée en CMOS• Pd = Pdstatique + Pddynamique

• Puissance statique– Courants de fuite

• Puissance dynamique

– Pdyn = .Ci.Vdd2.f dyn i dd– Fréquence– Tension d’alimentation

29Archi15  (8 Juin) D. Etiemble

Page 30: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Puissance statique : technologiePuissance statique : technologie

• Technologie– Ex : Technologie SoI

(IBM) réduit les(IBM) réduit les capacités

– Ex : transistor 3D (Intel)

30Archi15  (8 Juin) D. Etiemble

Page 31: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Puissance statique : circuiteriePuissance statique : circuiterie

• Circuiterie– Ex : Masses 

virtuellesvirtuelles (caches du Xeon)

31Archi15  (8 Juin) D. Etiemble

Page 32: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Puissance dynamiquePuissance dynamique

Ci i i• Circuiterie– « clock gating » : n’activer que les parties utiles– Plusieurs tensions d’alimentation– Transistors rapides, moyens et lents (tension de seuil V )Vt)

• Architecture– Fréquence d’horloge (F)– Complexité du circuit 

• Processeur• Caches

32Archi15  (8 Juin) D. Etiemble

Page 33: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

N’activer que les parties utilesN activer que les parties utilesPlusieurs modes de fonctionnementPlusieurs modes de fonctionnement

33Archi15  (8 Juin) D. Etiemble

Page 34: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

5ème génération Intel Core5ème génération Intel Core

Core MPentiumPentiumCeleron

LES DIFFERENTS ETATS

Page 35: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Mur de la chaleurMur de la chaleur

ê d l’ i d• Arrêt de l’augmentation de F– Fin du « free lunch »– Haut et milieu de gamme

• Tournant vers les multi‐cœursd– Bas de gamme

• Simplification des architectures

Utili ti d lléli• Utilisation du parallélisme– Parallélisme de données dans les monoprocesseurs (SIMD t SIMT)(SIMD et SIMT)

– Multi‐cœurs 

35Archi15  (8 Juin) D. Etiemble

Page 36: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Parallélisme de données : réduire NIParallélisme de données : réduire NITex = NI * CPI* Tc

X0X1X2X3

Y0Y1Y2Y3

source 1/dest.

source 2CPU

SIMDà

op op op op

X0 op Y0X1 op Y1X2 op Y2X3 op Y3 source 1/dest.

1 instruction àplusieurs données

SSE2/3/4 – Neon ‐ Altivec

Instruction Decoder and Warp SchedulerGPU

SIMT1 instruction pourplusieurs threads

GPU

registers

plusieurs threads

registers registers registers registers registersregisters registers registers g g

thread

Page 37: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Multiprocesseurs et puissance (d’après F Ancea )Multiprocesseurs et puissance (d’après F. Anceau)

37Archi15  (8 Juin) D. Etiemble

Page 38: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Multi cœurs haut de gammeMulti‐cœurs haut de gammeIvy‐bridge

2013201322 nm1,86 109 T2,57 cm22,57 cm

38Archi15  (8 Juin) D. Etiemble

Page 39: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Et le « petit » dernierEt le « petit » dernier …

• 14 nm14 nm• D1540

– 8 cœurs– 15 Mo caches  L3– 2 GHz45 W– 45 W

Archi15  (8 Juin) D. Etiemble

Page 40: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Cc NUMA (exemple AMD)Cc‐NUMA (exemple AMD)

40Archi15  (8 Juin) D. Etiemble

Page 41: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Embarqué : des processeurs très différentsEmbarqué : des processeurs très différents

Mi t ôl 8 bit9000

1998 2003 2008

• Microcontrôleurs 8 bits– 8051 !D 32 bit

4000

5000

6000

7000

8000

ns d

e do

llars

• Des processeurs 32 bits• Des multi‐cœurs 0

1000

2000

3000

4 bits 8 bits 16 bits 32 bits

Mill

ion

• Des SoC

• Contraintes– Taille du code– Consommation– Surface de puce

41Archi15  (8 Juin) D. Etiemble

Page 42: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Intel Atom x3 c3440Intel Atom x3 c3440

‐CPU 4 cœurs‐Modem 4G‐Vidéo 

‐WiFi‐ Bluetooth‐ Radio FM

Page 43: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Kalray MPPA‐256y

400 MHz 5 voies400 MHz 5 voies

Monte‐Carlo Option Pricing

43Archi15  (8 Juin) D. Etiemble

Page 44: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Modification des « moteurs »Modification des « moteurs »

Page 45: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

La logique synchroneLa logique synchroneLOGIQUE

• Temps de cycle fixé

LOGIQUECOMBINATOIRE(n niveaux)

p y– Mur de la chaleur

• Avec les nœuds CLK

Temps cycle

technologiques successifs

i i i ibl

1000

T transit (ps) Nb portes à 1 GHz

– Diminution possible du nombre d’étages de pipelines10

100

1101001000

Noeud technologique (nm)

45Archi15  (8 Juin) D. Etiemble

Page 46: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Des pipelines plus courts ?Des pipelines plus courts ?

d’é d l• Moins d’étages de pipeline– Structures matérielles plus simplesP édi i d b h i i– Prédiction de branchement moins importante

– Applicables à tous les types de processeursP i li d’ é ti ?????• Processeurs sans pipelines d’exécution ?????– Suppression des aléas (structurel, données, 

branchement))– Moins de registres– Contrôle plus simple– Consommation réduite– Simplification de la hiérarchie mémoire

46Archi15  (8 Juin) D. Etiemble

Page 47: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Multi cœurs et FPGAMulti‐cœurs et FPGA

• Réduction du différentiel de fréquences entre processeurs et FPGAp– Altera : 1 GHz en 14 nm Intel

Page 48: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

CPU BA20 (IP Cast)CPU BA20 (IP Cast)

VERSION MODERNE DU 8051

48Archi15  (8 Juin) D. Etiemble

Page 49: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Fréquence Etages de pipelineFréquence – Etages de pipelineComparaison de différents processeurs scalaires

C té i ti BA20 BA21 BA22 (CE/AP) BA25

Comparaison de différents processeurs scalaires (jeu d’instructions BA2) 

Caractéristiques BA20 BA21 BA22 (CE/AP) BA25

NB étages 1 2 5 7/12

CoreMarks/MHz 3,41 2,77 2,93 2,51CoreMarks/MHz 3,41 2,77 2,93 2,51

FMAX @TMSC65LP

75 MHz 150 MHz 400 MHz 800 MHz

CoreMarks 256 415 1175 2000

Portes équivalentes

> 10 K > 10 K >25 K>35 K

> 150 K

Caches ‐ ‐ L0 /L0 L0 et L1

MMU ‐ ‐ ‐/L0 L0 et L1

49Archi15  (8 Juin) D. Etiemble

Page 50: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Mur mémoire : NUMASMur mémoire : NUMAS 

Mémoire

cache D - L1

RegsCache

L3cache I L1

disqueCache

L2unifié

Hiérarchie de caches

Processeur I – L1 caches

Clusters

STRUCTURATION DES DONNEES EN FONCTION DE LA HIERARCHIE MEMOIREMODELES DE PROGRAMMATION : Mémoire partagée / Mémoire distribuée

50Archi15  (8 Juin) D. Etiemble

Page 51: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Caches privés ou partagésCaches privés ou partagés

Complexification des problèmes de cohérenceComplexification des problèmes de cohérence

51Archi15  (8 Juin) D. Etiemble

Page 52: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Mur mémoire : débitsMur mémoire : débits

SERVEURSSERVEURSDELL

52Archi15  (8 Juin) D. Etiemble

Page 53: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Mur mémoire : débitsMur mémoire : débits

10000

GB/s GFLOPS GPU Nvidia

1000 X20

100

2007 20142010

X9

PCIe3.0 x 16PCIe2.0 x 16PCIe1.0 x 16

GPUs

102007 20142010

65 55 65 40 40 28 28 28 nm

53Archi15  (8 Juin) D. Etiemble

Page 54: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Mur mémoire : CPU et GPUMur mémoire : CPU et GPU

CPU GPUEviter PCIeP dé

MP ‐ CPU MémoireGPU

PCI express‐ Puces soudées‐ APU 

• Débit maximum PCIe

G U

– PCIe 1.0 x 16 : 4 Go/s– PCIe 2.0 x 16 : 8 Go/s

PCIe 3 0 x 16 : 16 Go/s– PCIe 3.0 x 16 : 16 Go/s– PCIe 4.0 (2016)

• Contrôleur mémoire « pinned » du CPU

54Archi15  (8 Juin) D. Etiemble

Page 55: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Example: The Memory Capacity GapExample: The Memory Capacity GapCore count doubling ~ every 2 years DRAM DIMM capacity doubling ~ every 3 years

• Memory capacity per core expected to drop by 30% every two years• Trends worse for memory bandwidth per core!

55

Page 56: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Hétérogénéité : CPU + accélérateursHétérogénéité : CPU + accélérateurs

• Superordinateurs – Multi‐cœurs  et GPUs– Multi‐cœurs et Xeon‐PhiMulti cœurs et FPGA– Multi‐cœurs et FPGA

• MPSoC– CPU / Multi‐cœurs/DSP/ FPGA

56Archi15  (8 Juin) D. Etiemble

Page 57: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Et la programmation ?Et la programmation ?

Cl t d lti• Clusters de multi‐cœurs– Mémoire partagée (OpenMP – Pthreads)Mémoire distribuée (MPI)– Mémoire distribuée (MPI)

• + GPUCuda / OpenCL– Cuda / OpenCL

• + DSP + FPGA + …

D. A. Paterson (IEEE Spectrum – Juin 2010)“The Trouble With Multicore Chipmakers are busy– “The Trouble With Multicore ‐ Chipmakers are busy designing microprocessors that most programmers can't handle”

57Archi15  (8 Juin) D. Etiemble

Page 58: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Un autre différentielUn autre différentiel

É• Évolution comparée du temps de conception d’un circuit et du nombre de portes disponibles

É é10,0001 000

100,00010 000

Écart de productivité de conception

1,00010010

1Transistors par

puce

10,0001000100

10Productivité

(K)Transistors par

Capacité des circuits intégrés

Ecart

0.1

0.010.001

p(en millions) 1

0.10.01

(K)Transistors parHomme‐Mois.

productivité

58Archi15  (8 Juin) D. Etiemble

Page 59: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Conclusions (1)Conclusions (1)

E ti ll iété °1 d l’ hit t• Exponentielles : propriété n°1 de l’architecture des processeurs / ordinateurs 

• Les exponentielles provoquent des murs• Les exponentielles provoquent des murs, infranchissables ou à contourner

• Complexification• Complexification– Hétérogénéité matérielle

• Les accélérateurs disparaissent (on‐chip) et réapparaissentLes accélérateurs disparaissent (on chip) et réapparaissent plus nombreux  (GPU, FPGA…)

• Complexification de la hiérarchie mémoireHété é éité l i i ll– Hétérogénéité logicielle

• Modèles de programmation différents

59Archi15  (8 Juin) D. Etiemble

Page 60: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Conclusion (2) : exponentielle et thèseConclusion (2) : exponentielle et… thèse‐PerformanceC ût

Performance10000

‐Coût‐Conditions d’utilisation

D é thè

Progression « normale »« j’oublie l’exponentielle »

100Durée thèse

Années

1

• Le référentiel (état de l’art) évolue exponentiellement.

60Archi15  (8 Juin) D. Etiemble

Page 61: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Recherche en archi : masochisme ?Recherche en archi : masochisme ?

P i i h i i i f / hi ?• Pourquoi avoir choisi info/archi ?– Référentiel à évolution rapide ou exponentielle

• Architecture des ordinateurs• Architecture des ordinateurs• Données massives

• Et non un domaine à référentiel fixe ou à évolution très lente ?

• Science de la terre• Physique ‐ Chimie• Biologie (végétale – animale)Biologie (végétale  animale)• Recherche médicale• Ou… Mathématiques…

61Archi15  (8 Juin) D. Etiemble

Page 62: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Dernier théorème de FermatDernier théorème de Fermat

• Formulé par Fermat vers 1630xn + yn = zn

n’a pas de solutions entières non nulles quand n > 2n a pas de solutions entières non nulles quand n > 2.

• Démontré par Andrew Wiles en 1995– Plus de 350 ans plus tardPlus de 350 ans plus tard

• Problèmes et… conditions de recherche sont immuables dans le temps

62Archi15  (8 Juin) D. Etiemble

Page 63: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Questions ?Questions ?

• En évitant, dans la mesure du possible, les questions sur le futur …!  {joke}q {j }

63Archi15  (8 Juin) D. Etiemble

Page 64: Exponentielles et Murs-VF - ParSys Seminar1998 2003 2008 • Microcontrôleurs s – 8051 ! D 32 bit 4000 5000 6000 7000 8000 n s de dollars • es processeurs s • Des multi‐cœurs

Exécution o o o = recherches associativesExécution o‐o‐o = recherches associativesExemple : « ROB » dans Metaflow (DRISS)

Op source 1 Op source 2 Destination

V N° reg ID V N° reg ID D ? N° reg RésultatN°

R2 V R1 D ? R1ID1 DIV R1,R2,R1V

R7V R1 ID1 D ? R3ID2 ADD R3,R7,R1

R8 V R2 D ? R1ID3 SUB R1,R8,R2V

R3 R1 ID3 D ? R4ID4 MUL R4,R3,R1ID2 , ,

R6V R5 D ? R4ID5 XOR R4,R6,R5V

64Archi15  (8 Juin) D. Etiemble