Maxwell II : Le GPU qui (ré)concilie performances et consommation

By The Editorial Team | August 25, 2015

La dernière génération d’accélérateurs Maxwell II franchit aujourd’hui un palier décisif en termes de performances, d’autonomie et d’efficacité énergétique en incorporant toutes les avancées de la génération précédente. En voici les coulisses.

Il faut reconnaître à nVidia le titre de précurseur de l’accélération GPU. Depuis 2006, avec une belle constance, le fondeur n’a cessé de développer le concept et de fournir les outils nécessaires à son exploitation. La stratégie initiale n’a pas varié, qui concilie l’explosion des performances des puces graphiques et la demande croissante de puissance de la part de la communauté HPC.

De Kepler à Maxwell
Kepler avait grandement innové sur plusieurs fronts. Calcul partiel (utile en mécanique des fluides) pour explorer des hypothèses multiples et intégration d’unités SMX (pour Streaming Multiprocessor eXtreme), constituaient les plus gros progrès en matière de parallélisation pure. Le mécanisme de gestion de flux en parallèle, renommé SMM, est capable de gérer 32 cœurs CUDA, 8 unités load/store et 8 unités de fonction. Au passage, Maxwell perd le crossbar qui faisait communiquer les unités SMM entre elles, économisant au passage quelques watts en cas de non utilisation. De quoi permettre à 128 cœurs SMM de fournir 90% des performances de 192 cœurs SMX. Pour assurer une répartition et un traitement optimaux des threads au sein de chaque unité SMM, ces dernières intègrent un pool de quatre schedulers Warp.

Une exécution d’instructions améliorée
Chaque Warp Scheduler est capable de gérer deux instructions en parallèle. Chaque Warp constituant un ensemble de 32 threads parallélisées. Couplés à huit répartiteurs d’instructions, les schedulers sont capables de traiter jusqu’à quatre Warp comptant chacun deux instructions indépendantes par cycle d’horloge. Cette organisation favorise en premier lieu les opérations déjà fortement optimisées comme l’instruction FMA (Fused Multiply Add), qui exécute en un seul cycle le calcul du produit de deux nombres en double précision, l’addition d’un troisième et l’application d’un arrondi déterminé. Particulièrement efficace, cette opération se retrouve beaucoup en calculs matriciel, polynomial, scalaire et vectoriel, d’où son importance en environnement HPC. Maxwell se démarque en outre par une gestion de la mémoire unifiée, un double gain pour les performances et les développeurs.

Consommation réduite, performances doublées
Fort de cette base technique solide, avec Maxwell Nvidia s’est concentré sur la réduction de la consommation énergétique. Avec des résultats probants, puisque la consommation est réduite de moitié par rapport à l’architecture Kepler. Dans les faits, à consommation égale, la performance est ainsi doublée, consacrant de façon tangible l’ensemble des évolutions architecturales de cette génération.

Et après ?
Nvidia travaille déjà sur Pascal, le successeur de Maxwell prévu en 2016. Au menu des réjouissances figureront une densité mémoire accrue (stacked DRAM), un espace mémoire unifié et l’intégration de NVLink, un nouveau bus hautes performances (80 à 200 Gbps) entre CPU et GPU, mais aussi entre GPU.

Cartouche performances
GeForce GTX980 (Maxwell GM204)
Nombre de processeurs de flux : 2048
Mémoire : 4 Go DDR5
Simple précision : 4,16 TFlops
Consommation : 165W