Xeon Phi : la compatibilité x86 avant tout

By The Editorial Team | August 26, 2015

Avec le Xeon Phi, Intel propose autre façon de concevoir le parallélisme : rester dans un contexte x86 mais en multiplier les ressources pour permettre tous les scénarios de dimensionnement. Un pari techniquement réussi.

Le principal argument d’Intel avec le Xeon Phi et sa compatibilité x86 est d’offrir à ses clients Xeon une voie d’évolution naturelle, permettant de capitaliser sur les efforts applicatifs déjà entrepris. Phi est lui-même un cluster, animé par un Linux dédié, supportant pleinement l’organisation mémoire x86, l’arithmétique à virgule flottante IEEE 754 et les principaux langages de programmation scientifique que sont C, C++ et Fortran.

Un cluster dans votre cluster
Un seul CPU est capable de supporter de multiples accélérateurs Phi (jusqu’à 8). Une fois ceux-ci installés, ils communiquent de façon autonome, sans intervention du système hôte : en local via les interconnexions P2P du bus PCIe, à distance via des interfaces réseau de type Ethernet ou, de préférence, InfiniBand. Les 60 coeurs (4 threads par cœur) disposent chacun de deux caches L1 (32 Ko pour les instructions, 32 Ko pour les données) et d’un cache L2 unifié de 512 Ko.

Un VPU et un anneau de communications rapides
Descendons plus avant à l’intérieur d’un coeur pour y trouver un VPU (Vector Processing Unit)
de 512 bits, un anneau d’interfaçage et un cache L2 privé. C’est le VPU qui fait tout l’intérêt d’un coeur Phi. Sa largeur SIMD se révèle particulièrement efficace en charges de travail parallèles. Contrairement à un accélérateur Maxwell, l’architecture interne de Phi n’est pas fondamentalement spécialisée. Elle ne reflète pas les processus logiques de parallélisation propres par exemple à l’environnement CUDA. Cette généricité se traduit sous la forme d’un anneau bidirectionnel 64 bits épaulé par cinq anneaux dédiés à l’adressage et au contrôle de flux.

De l’importance des différents caches
Autre point distinctif de Phi par rapport à un accélérateur GPU, l’architecture MIC capitalise beaucoup plus sur l’organisation, la dimension et l’utilisation des caches. Ces derniers constituent
Grandement les performances de Phi, d’où l’importance de bien la connaître pour bien la programmer (affinité des données, dimensionnement des vecteurs et tableaux de données) et assurer à l’applicatif un maximum de scalabilité.

Un coprocesseur orienté poerformance
Phi confirme donc sa complémentarité avec Xeon et, donc, son identité véritable : celle d’un coprocesseur, destiné à prendre le relais du CPU lorsque certaines conditions applicatives sont réunies. Les performances de Phi sur SGEMM, DGEMM ou Linpack se situent en moyenne aux alentours de 2,4X par adjonction d’un Xeon Phi standard à un Xeon E5-2680, avec dans les trois cas un taux d’utilisation de Phi compris entre 75 et 85 %. Sur certaines applications financières le facteur de gain peut atteindre 10X.

Et après ?
La seconde génération Xeon Phi (nom de code Knight’s Landing), prévue au second semestre 2015 et bâtie sur une architecture Silvermont conçue pour le HPC, promet de repousser les limites de la version actuelle avec une capacité de traitement monothread multipliée par 3, une bande passante et une puissance énergétique améliorés par un facteur 5, et une puissance de calcul de 3 TFlops !

Cartouche performances
Intel Xeon Phi 7120P
Nombre de coeurs : 61
Mémoire : 16 Go DDR5
Simple précision : 2,44 TFlops
Double précision : 1,22 TFlops
Consommation : 300W