HPC Today | Big Data – Décrire, Décrypter et Prédire le Monde

Big Data – Décrire, Décrypter et Prédire le Monde

By The Editorial Team | January 28, 2015

Dirigé par Yannick Lejeune

Qu’elles soient directes, ouvertes, prédictives, les données sont partout. En l’espace de dix ans, l’« omniconnexion » des individus et des systèmes a conduit à l’explosion de la production de données en volumes tellement importants qu’il devient impossible de les manipuler avec les outils de gestion de bases de données traditionnels. Jamais les relations entre individus et systèmes, professionnelles et privées, n’ont été si repérées, surveillées ou « discrétisées » (c’est-à-dire Rendre discret, dégager des valeurs individuelles à partir de quelque chose de continu) pour être enregistrées. Capteurs « monitorant » nos faits et gestes, smartphones récoltant nos communications, réseaux sociaux détaillant nos envies et nos goûts, sites espionnant nos relations online avec les autres ou avec nos fournisseurs, le champ de production de données n’a jamais été aussi vaste. Et il ne s’agit là que de celles liées au premier niveau d’analyse. Car les algorithmes modernes sont désormais capables de les faire « parler » pour extrapoler et en générer d’autres, plus complexes et plus complètes, par le jeu des corrélations.

De cela naissent les « big data », ou « mégadonnées » comme souhaite les nommer le législateur français. Puis, à partir d’initiatives d’ouverture des informations hors de leur système d’origine, certaines deviennent « open data » voire, pour celles qui arrivent en temps réel et permettent de prédire le coup d’après, « fast data ».

Erik Brynjolfsson, économiste de la Sloan School of Management du MIT, compare l’arrivée de ces données à celle du microscope. Ce dernier permit aux scientifiques de voir et de mesurer leur environnement comme jamais auparavant, une véritable révolution dans la mesure et l’observation de leur époque. Mais là où, il y a 400 ans, il s’agissait de voir l’infiniment petit en petites proportions, il s’agit aujourd’hui de voir les détails de chacun en proportions massives. Plus que cela, ces mêmes données qui sont observées génèrent elles-mêmes de nouvelles données et amènent les leviers nécessaires à la création de nouveaux outils de traitement permettant d’en créer toujours plus. Se faisant, IDC, célèbre société de recherche et d’analyse, estime qu’après avoir été un buzzword, le « big data » est en train de quitter l’univers des expressions à la mode pour s’installer comme une tendance massive et lourde du marché. Le secteur enregistre plus de 25 % de hausse de revenus par an et s’apprête, selon les projections, à représenter un business de 41 milliards de dollars en 2018.

Comme cet ouvrage vous le montrera, les données naissent de tous les secteurs, de toutes nos occupations, de tous les éléments qui nous entourent. Certains pans entiers du monde sont modélisés par des data analysts pour pouvoir être étudiés, optimisés, simulés. Pareillement au monde de Matrix lisible à travers l’affichage de la matrice, nous numérisons notre monde et les relations qui le meuvent qu’il s’agisse de météo, de consommation, de géopolitique, de business, de sport, de santé ou de relations humaines. Or, dès 2001, Doug Laney, alors analyste de META Group, a défini les problématiques caractéristiques de ces données à travers les « 3 V » : Volume, Vélocité et Variété.

— Le Volume : en constante évolution, la baisse des coûts de stockage a définitivement permis son envol.
— La Vélocité : si les données modernes sont le fruit de millions de tweets, de smartphones, de transactions, etc., la question de leur vitesse d’acquisition et de leur traitement en temps réel est aujourd’hui prégnante.
— La Variété : question de fond pour les données numériques structurées dans des bases de données, fichiers multimédia audio et vidéo en différents codecs, textes bruts, transactions financières ; l’autre grand chantier étant celui de la mise en relation de données hétérogènes.

Cette vision qui a déjà presque quinze ans, était fortement empreinte de contingences techniques et n’embrassait pas encore la réelle complexité du phénomène. Ainsi, certaines entreprises ont ajouté d’autres critères à cette manière de voir les données, parmi lesquels la variabilité qui étudie la pertinence et cohérence de celles-ci à des périodes précises, la véracité qui cherche à donner un indice de confiance à une donnée, ou encore la complexité qui cherche à analyser le niveau d’une information pour savoir comment la stocker et à trouver les liens de connexion ou de hiérarchie entre les différentes données pour leur donner du sens.

Une fois la partie technique écartée, la diversité des usages montre également la diversité des référentiels utilisés par chacun. Il faut savoir enregistrer les bonnes informations, celles qui font sens, mais aussi ne pas écarter celles que l’on n’attendait pas pour pouvoir détecter les signaux faibles, les corrélations émergentes. Et une fois ces éléments perçus, voire analysés, il faut savoir leur donner du sens et prendre des décisions. Ainsi, alors que la partie infrastructure tend à se simplifier, on voit naître des profils nécessaires à la manipulation des big data.

En 2012, le cabinet d’analystes McKinsey annonçait déjà que l’un des réels enjeux de cette révolution serait la maîtrise des compétences. Si des écoles comme l’EPITA ont rapidement su mettre en place des cursus formant les fameux data scientists et data analysts, diverses études indiquent que la pénurie de compétences serait sans doute l’un des plus grands freins à l’ère des données. Rien qu’aux États-Unis, on estime le manque de compétences à plus de
150 000 postes pour ce qui est des analystes directs de données, et à plus d’un million pour ce qui est des managers et analystes capables de prendre des décisions sur la base des big data.

Le problème n’est donc plus tant la collecte des données que leur sélection, leur manipulation, leur analyse et leur utilisation. Pour aider le lecteur à avancer dans cette abondance d’informations, nous avons fait appel plus d’une vingtaine d’experts internationaux pour apporter éclairage et vision prospective sur ce domaine. Tout comme les deux ouvrages précédents de la collection mise en place par l’EPITA, nous avons souhaité aborder le champ des données avec différents points de vue. À travers ces opinions, idées et prises de position, souvent complémentaires et parfois divergentes, nous espérons une nouvelle fois apporter une contribution de premier plan à votre compréhension et votre réflexion, sur les nouveaux espaces informatiques et numériques.

[A propos de l’éditeur]

Diplômé de l’EPITA et d’un master de recherche en sciences de gestion de l’IAE de Paris, Yannick Lejeune est le directeur internet du groupe IONIS. Il est également consultant en stratégie d’innovation auprès de petites entreprises ou de grandes structures, telles que Microsoft ou l’Élysée, et directeur de collection numérique chez Delcourt, un éditeur de bande dessinée. Auparavant, il a travaillé pour diverses sociétés, notamment IBM, Lotus, Corel et Inexware, et a fondé, puis dirigé jusqu’en 2005 l’Institut d’innovation informatique pour l’entreprise (3IE), structure de services mêlant cellule de veille et laboratoire de recherche appliquée au sein de l’EPITA.

Reprinted with permission from Ionis-Group.