Les réseaux intelligents transforment le Big Data en découvertes
By   |  February 11, 2014

Les organisations publiques et privées entreprises commencent à prendre conscience de l’extraordinaire vivier de connaissances que constitue le Big Data. Bien qu’une définition consensuelle du terme reste à trouver, l’explosion du nombre d’outils dédiés, parmi lesquels les réseaux intelligents, montre clairement que le Big Data pave la voie à un trésor infini de nouvelles découvertes.

Bithika Khargharia, Ph.D. – Senior Engineer, Vertical Solutions and Architecture, Extreme Networks.

Parce que le Big Data constitue un extraordinaire vivier de connaissances, les éditeurs s’emploient ardemment à développer de nouvelles technologies telles que Hadoop Map-Reduce, Dryad, Spark et HBase afin de transformer ces données en capital informationnel le plus efficacement possible. Mais ce phénomène va également profiter de l’émergence d’une autre technologie : le Software Defined Networking (SDN).

La majorité des données constitutives du Big Data sont en réalité des données non structurées qui, contrairement aux données structurées qui sont parfaitement adaptées aux schémas de base de données classiques, sont beaucoup plus difficiles à gérer. Prenons l’exemple du stockage vidéo. Le type de fichier vidéo, la taille de fichier et l’adresse IP source sont tous des données structurées, alors que le contenu vidéo proprement dit, qui ne tient pas dans des champs de longueur fixe, est entièrement constitué de données non structurées. Aujourd’hui, une grande partie de la valeur produite par l’analyse du Big Data vient de la capacité à rechercher et demander des données non structurées – par exemple, la capacité à identifier un individu dans un clip vidéo parmi des milliers de visages grâce à des algorithmes de reconnaissance faciale.

Les technologies traitant de cette question atteignent la rapidité et l’efficacité requises en appliquant les calculs analytiques effectués sur le Big Data en parallèle sur des clusters de plusieurs centaines de milliers de serveurs connectés via des réseaux Ethernet haut débit. Ainsi, le processus d’exploration de l’information issue du Big Data comporte essentiellement trois étapes. Primo le fractionnement des données en plusieurs nœuds de serveur ; secundo l’analyse de chaque bloc de données en parallèle ; tertio la fusion des résultats.

Dépasser les points bloquants

Ces opérations sont répétées au cours de plusieurs phases successives jusqu’à ce que le jeu de données ait été entièrement analysé. Compte tenu des opérations de fractionnement-fusion liées à ces calculs parallèles, l’analyse du Big Data peut peser lourd sur le réseau sous-jacent. Même avec les serveurs les plus rapides du monde, les vitesses de traitement de l’information – principal point bloquant pour le Big Data – ne peuvent pas dépasser la capacité du réseau à transférer les données d’un serveur à l’autre lors des phases de fractionnement et de fusion. Ainsi, une étude sur les traces Facebook menée à l’Université de Californie du Sud a montré que ce transfert de données entre plusieurs phases successives représentait 33 % du temps d’exécution total et que pour de nombreuses tâches, la phase de communication monopolisait plus de 50 % du temps d’exécution.

En s’attaquant à ce point bloquant pour le réseau, il devient possible d’accélérer l’analyse du Big Data de façon significative, avec deux effets collatéraux positifs : d’une part, l’optimisation de l’utilisation des clusters et donc la réduction du TCO pour le fournisseur de solutions cloud en charge de la gestion de l’infrastructure, et d’autre part l’accélération de l’exécution des tâches, qui permet à l’utilisateur de l’infrastructure d’obtenir des analyses en temps réel. Ce dont nous avons besoin pour ce faire, c’est d’un réseau intelligent qui évolue de manière adéquate à chaque phase du calcul pour répondre aux exigences de bande passante du transfert de données lors des phases de fractionnement et de fusion, et améliore ainsi non seulement la vitesse de traitement, mais aussi l’utilisation.

Le rôle crucial du SDN

Le Sotfware-defined networking offre d’énormes possibilités pour construire ce réseau adaptatif intelligent. En raison du découplage des couches contrôle et des couches données, le SDN propose une interface programmatique bien définie qui permet de déployer des réseaux hautement personnalisables, extensibles et agiles, capables de répondre aux exigences du Big Data à la demande de manière à ce que les systèmes de calcul communiquent de façon optimale.

Le principal obstacle auquel se heurte le Big Data en tant qu’application massivement parallèle – à savoir des temps de traitement trop longs – est ainsi directement pris en compte. Les vitesses de traitement sont lentes parce que la plupart des noyaux de calcul dans une application Big Data passent leur temps à attendre l’arrivée des données lors des opérations de fragmentation-regroupement. Grâce au SDN, le réseau peut créer des voies de communication sécurisées à la demande et redimensionner les capacités à la volée lors des opérations de fragmentation-regroupement, réduisant ainsi de façon significative le temps d’attente et par conséquent le temps de traitement.

Cette intelligence logicielle, qui relève de la compréhension de ce que le réseau peut apporter à l’application, peut être mise à profit précisément et efficacement, mais à deux conditions : d’abord, l’existence de modèles de calcul et de communication bien définis tels que SplitMerge ou MapReduce ; ensuite, l’existence d’une structure de gestion centralisée qui permet d’exploiter l’information au niveau application, comme Hadoop Scheduler ou HBase Master. Avec l’aide du contrôleur SDN, qui offre une vue globale du réseau sous-jacent (état, utilisation, etc.), l’intelligence logicielle peut traduire les besoins de l’application de façon précise en programmant le réseau à la demande.

Une intelligence adaptative et automatisée

Le SDN propose également d’autres fonctions qui facilitent la gestion, l’intégration et l’analyse du Big Data. Les nouveaux protocoles réseau orientés SDN, dont OpenFlow et OpenStack, promettent de simplifier la gestion du réseau et de la rendre à la fois plus intelligente et plus automatisée. OpenStack permet ainsi d’effectuer le paramétrage et la configuration des éléments du réseau en mobilisant nettement moins de ressources, tandis qu’OpenFlow contribue à l’automatisation du réseau et aide à faire face aux nouvelles pressions – automatisation du data center, BYOD, sécurité et accélération des applications – avec plus de souplesse.

Du point de vue dimensionnement, le SDN joue aussi un rôle primordial dans le développement de l’infrastructure réseau pour le Big Data. En effet, il facilite la gestion rationalisée de milliers de commutateurs ainsi que l’interopérabilité entre les éditeurs. OpenFlow, protocole quasi universel, permet cette interopérabilité et libère les entreprises des solutions propriétaires.

Compte tenu des implications et du potentiel considérables du Big Data pour la recherche, le réseau sous-jacent doit impérativement le supporter. Il est clair qu’une solution efficace tirera profit de deux aspects essentiels : l’existence de modèles dans les applications et la programmabilité du réseau garantie par le SDN. De ce point de vue, le SDN est appelé à jouer un rôle majeur dans l’adaptation continue et accélérée des échanges de données.

© HPC Today 2024 - All rights reserved.

Thank you for reading HPC Today.

Express poll

Do you use multi-screen
visualization technologies?

Industry news

Brands / Products index