PCI Express sur les (plates-) bandes d'Ethernet

By Stéphane Bihan | March 18, 2014

PCI Express serait-il prédisposé à se muer en rival des technologies d’interconnexion de systèmes que sont Ethernet et InfiniBand ? C’est en tout cas l’idée de deux sociétés américaines, PLX Technologies et A3Cube, qui l’une et l’autre préparent des extensions aux liaisons point-à-point PCIe permettant d’ouvrir le connecteur à des échanges de données entre serveurs, et non plus uniquement intra-serveurs.

L’idée sous-jacente consiste à éliminer certains composants électroniques et, par là-même, à réduire le coût des clusters tout en fournissant les mêmes niveaux de latence et de débit qu’Ethernet ou InfiniBand. Autrement dit, permettre à un flux Ethernet de s’écouler au travers d’un switch PCI Express sans avoir à le faire passer par toute la pile système d’Ethernet.

C’est donc une réduction significative des composants actifs – préalable indispensable à une réelle augmentation de l’efficacité énergétique – que propose ce concept finalement assez évident. CPU, mémoire, stockage, tous les éléments qui interviennent sur le calcul et les données communiquent déjà avec PCI Express. Il est donc tout à fait logique que l’on cherche aujourd’hui à contourner l’étape conversion-reconversion logique, que l’on maintienne les flux de données dans un canal unique, et que l’on se débarrasse de composants d’interconnexion périphérique onéreux à la fois à l’achat et à l’utilisation.

Le système proposé par PLX, ExpressFabric, consomme seulement 1 Watt et coûte aux alentours de 5$ ; par rapport à une interface Ethernet coûtant plusieurs centaines de dollars et consommant une dizaine de Watts, le bénéfice est vite calculé ! Mais alors, pourquoi de telles alternatives n’ont-elles pas vu le jour plus tôt ? Outre l’affection “émotionnelle” pour Ethernet et InfiniBand, la réponse tient à la difficulté d’implémentation. Il faut en effet savoir que la norme PCI Express ne permet pas de réaliser de tels switches sans modifier la pile logicielle. C’est pourquoi PLX a ajouté ses propres extensions, autorisées par la norme, qui autorisent l’utilisation des composants PCI existants.

Prévu pour une première implémentation commerciale d’ici la fin de l’année, ExpressFabric cible des systèmes de taille intermédiaire contenant de quelques centaines à des milliers de nœuds et assemblés dans une à huit armoires au maximum. Pour ce qui est de la performance, des simulations ont montré une bande passante au niveau de QDR InfiniBand. Reste maintenant à concrétiser avec les benchmarks.

Du côté d’A3Cube, l’approche est quelque peu différente et vise des systèmes plus larges que PLX. Plutôt que de faire transiter les messages au-dessus de PCI Express, A3Cube utilise directement l’adressage mémoire PCIe pour créer des sockets TCP/UDP. Pas de latence supplémentaire, donc, et une compatibilité totale avec les applications TCP/UDP.

Le switch PCI Express d’A3Cube est embarqué dans une carte, appelée Ronnie, qui est identifiée comme une carte Ethernet par les applications. Positionnée aux extrémités des racks et/ou des rangées de racks, elle est d’ores et déjà commercialisée avec une pile native MPI-2. Plusieurs variantes sont également disponibles pour connecter jusqu’à 64 000 nœuds en topologie 3D torus. Les tests, réalisés sur un système de 128 nœuds, ont révélé une latence maximale de 10 ms entre n’importe quel nœud du système. Reste à savoir si les performances tiendront à l’échelle de systèmes moins… synthétiques.