Big Data : la donnée au service du décisionnel

By Joscelyn Flores | November 16, 2015

En interrogeant le SGBD avec un langage classique du Web, comme le JavaScript, on profite d’une plus grande souplesse de traitement pour faire parler les données.

La nature des informations étant très diverse, la grande tendance est de combiner les technologies et les outils afin d’interroger en parallèle les contenus.

Le marché est en forte croissance et le cabinet Gartner prévoit que le Big Data devrait créer 4,4 millions d’emplois dans le monde d’ici mi-2016.

Observer la masse d’informations que nous créons chaque jour a de quoi donner le tournis : avec plus de 2,5 trillions d’octets de données nouvelles, soit 2,5 milliards de milliards d’octets, on amasse chaque jour autant d’informations que l’esprit humain a pu en produire de son origine jusqu’à la fin du XXe siècle. Des capteurs intégrés à notre environnement immédiat aux échanges sur les réseaux sociaux, en passant par nos habitudes d’achat et nos transactions en ligne, nous participons chaque seconde à enrichir cette volumineuse encyclopédie commune. Le Big Data est le fruit de cette prise de parole permanente, une expression désignant l’infinie masse de données collectées chaque jour par les entreprises du monde entier. Mais la collecte en elle-même ne constitue que l’adret de cette montagne à gravir. L’ubac, c’est l’analyse pertinente de ces données, à travers des outils puissants et modernes, pour en extirper le véritable sens et réorienter le décisionnel vers des choix plus pragmatiques, en meilleur accord avec les demandes des clients. Tous les secteurs métier sont concernés par le phénomène, des sciences ou de la médecine, un domaine traditionnellement à l’origine de phénoménales bases de données, aux plus petites PME évoluant dans un marché de niche et pour lesquelles le Big Data constitue le carburant nécessaire à leur activité. À titre d’exemple, retenez que Facebook engrange chaque jour 500 téraoctets de données et Twitter 80 Mo par seconde. Non-structurées, volubiles, épousant de multiples formats (texte, image, vidéo, audio…), horodatées, géolocalisées et intrinsèquement « bruyantes », ces informations doivent être analysées pour en extraire le véritable sens. Des épidémiologistes utilisent déjà Twitter pour cartographier l’évolution de la grippe ou de la gastroentérite, en corrélant les mots-clés et la géolocalisation des tweets. Si gouverner, c’est prévoir, analyser ces informations, c’est prédire : à l’instar des fameuses « tendances » de Twitter, les entreprises peuvent identifier tout type de mouvements et d’orientations à partir des données collectées. Mais la révolution du Big Data n’est pas circonscrite aux pures sources externes et publiques tels les réseaux sociaux. Les entreprises sont également invitées à compulser leurs sources de données, à travers des canaux qui leur sont propres. Découvrez à votre tour comment cet ensemble de technologies offre un avantage concurrentiel substantiel à qui parvient à le maîtriser.

D’une pittoresque autoroute de l’information à leurs débuts, Internet et les réseaux IP ont aujourd’hui muté en d’immenses canaux aux voies infinies, charriant à toute heure du jour et de la nuit une quantité inimaginable de données. C’est simple : chaque minute s’échangent 639.800 giga-octets de données sur Internet, dont 204 millions d’e-mails, deux millions de requêtes de recherche et plus de 600.000 transactions électroniques, selon une étude d’IBM (www.ibmbigdatahub.com/video/bigdata-speed-business). Une prodigieuse source de détails sur les habitudes et les attentes des consommateurs, mais aussi sur les évolutions fondamentales des activités humaines ! En entrant de plain-pied dans l’ère numérique, les entreprises et la société toute entière produisent et brassent sans cesse des volumes de plus en plus importants de données. L’information au sens brut est à l’économie numérique ce que le charbon était à l’économie industrielle : son principal carburant et un phénoménal levier de croissance pour toutes les entreprises. Une récente étude d’EMC indique que 74 % des sociétés françaises estiment que le Big Data facilite la prise de décision. Elles sont 47 % à juger que cet ensemble de technologies permet l’ascension des leaders du marché et 23 % à penser qu’elle crée des avantages compétitifs. Mais encore faut-il être capable d’amasser des données de qualité et de leur donner du sens, par l’analyse et l’interprétation fines à la lumière des objectifs de l’entreprise ! Dans une certaine mesure, les entreprises sont habituées depuis plusieurs décennies à faire parler les retours d’expérience et les performances de leurs circuits de distribution classiques pour piloter leur activité, mais les données correspondantes se cantonnaient à des bases de données internes, enchâssées dans des applications figées sur leur propre système d’informations. Avec l’essor du Web, les sources gagnent en ampleur et en diversité. L’enjeu du Big Data consiste pré cisément à leur conférer du sens et à optimiser la prise de décision, en réagissant quasiment en temps réel et en profitant d’un retour sur investissement beaucoup plus séduisant.

Typical Big Data platforms
Analytical Databases	42,10%
Operational Data warehouses	39,40%
Cloud-based data solutions	39,00%
On premise Data hosting solutions	33,60%
Datamart	30,10%
NoSQL platforms	21,60%
Hadoop & subprojects	16,20%
Other	0,40%

Piloter le décisionnel
Faire preuve d’une plus grande réactivité et d’une meilleure flexibilité, tels semblent être les vœux pieux de toute architecture décisionnelle. Dans un réseau de boutiques de prêt-à-porter, par exemple, on peut se rendre compte à la lumière des ventes qu’une majorité de clients achetant une certaine robe l’accompagne d’un modèle spécifique de chaussures. En rapprochant les deux articles sur les étals, on maximise l’efficacité de la vente croisée et on augmente les profits en conséquence. Dans la structure traditionnelle des forces de vente, une telle décision ne pourrait être prise qu’après la fastidieuse analyse quasimanuelle des tickets de caisse ou l’intuition d’un gérant de boutique locale remontant l’information à la maison-mère. Autant dire que la saison vestimentaire a de grandes chances d’être presque bouclée avant de bousculer les certitudes et de les remettre en question ! Avec le Big Data, on peut envisager d’injecter instantanément tous les chiffres de vente dans une base de données hétéroclite, qui comprendrait éventuellement les tweets des clients (« comment parle-t-on de ma marque sur les réseaux sociaux ? »), leurs clichés Instagram (« comment s’approprie-t-on mes produits au quotidien ? ») et les réactions sur Facebook de leurs proches (« quelle est la popularité de mes produits auprès de la communauté ? »). En croisant les requêtes et en interrogeant pertinemment cette masse d’informations, par le jeu d’un questionnement muri d’intuitions et d’expériences, on remonte en un instant les grandes tendances et on prend des décisions bien plus utiles pour la croissance de l’entreprise. Mais ce qui nous paraît limpide dans le domaine du marketing et du commerce s’applique avec la même efficacité dans l’ensemble des secteurs d’activité. Ressources humaines, santé, industrie de l’automobile ou de l’aviation, services publics, industrie des loisirs, objets connectés, médias et même processus internes : tous ces secteurs renforcent leur efficacité et leur productivité par l’entremise du Big Data. Ou plus précisément, le Big Data éclaire leur fonctionnement et participe à optimiser leur rendement. En France, c’est le seul ensemble technologique faisant à la fois l’objet d’un des « 34 plans de la Nouvelle France industrielle » et d’une des « 7 ambitions de la commission Innovation 2030 » d’Anne Lauvergeon.

Why Launch A Big Data Project / By Sector
Industry Sectors	Use Case
Industry Sectors	Case Treatment Speed	Combine Hybrid Data	Anticipate Data Treatment	Use Diffused Data	Structure Data	Online Archiving
Finance	28,0 %	15,9 %	18,3 %	11,0 %	14,6 %	12,2 %
Sales	28,3 %	21,7 %	15,2 %	10,9 %	15,2 %	8,7 %
Industry	22,4 %	20,4 %	16,3 %	16,3 %	12,2 %	12,2 %
Public Services	21,6 %	17,5 %	17,5 %	13,4 %	12,4 %	17,5 %
DevOps	22,0 %	13,6 %	13,6 %	13,6 %	20,3 %	16,9 %
Health	20,8 %	22,9 %	12,5 %	6,3 %	16,7 %	20,8 %
Construction	20,3 %	21,5 %	15,2 %	20,3 %	10,1 %	12,7 %

Les trois dimensions du Big Data
Concrètement, le Big Data recouvre trois dimensions que l’entreprise doit maîtriser afin de conduire avec efficacité ses décisions : la notion de volume, de vélocité et de variété – on parle de la « règle des 3 V ». Le volume, c’est tout d’abord l’immense somme de données que nous avons commencé à évoquer et qui sont aujourd’hui à la portée des entreprises. À l’image des tweets ou des publications échangées sur les réseaux sociaux, certaines d’entre elles sont fondamentalement nouvelles et échappaient jusqu’à présent à la juridiction des sociétés. Mais bon nombre d’entre elles proviennent de capteurs et d’outils de remontée classique, comme les relevés annuels des compteurs électriques par exemple. Dans ce domaine spécifique, on estime que l’analyse d’un tel volume de données permet d’identifier plus rapidement, voire d’anticiper, un incident sur le réseau de distribution et d’orchestrer une consommation énergétique mieux raisonnée. Dans tous les cas, il n’est donc plus rare de traiter un volume dépassant allègrement les dizaines de téraoctets, voire les pétaoctets (1000 téraoctets). À titre de comparaison, on estime que l’on crée et échange plus de deux zettaoctets (soit deux millions de pétaoctets) sur Internet par an. La vélocité désigne la rapidité d’analyse et de prise de décision. Pour les processus chrono-sensibles, comme la détection d’anomalies ou de fraudes, mais aussi pour les décisions ayant une répercussion quasi-immédiate sur le niveau de ventes (comme notre exemple de boutique de prêt-à-porter), les entreprises doivent être en mesure d’analyser les données au fil de l’eau. Enfin, la variété correspond à la pluralité des informations collectées. Contrairement au processus classique de traitement de l’information, qui vise à délimiter très clairement leur champ et à ne traiter conjointement que des éléments de même nature, les données en provenance du Web sont par nature non-structurées et peuvent englober aussi bien du texte que des données de capteurs, du son, de la vidéo, des informations géolocalisées ou des journaux d’activité. En conjuguant ces trois dimensions, le Big Data autorise non seulement des traitements nouveaux, à travers l’analyse de données qui échappaient à la juridiction des entreprises, mais assure surtout une plus grande réactivité décisionnelle. Là où il fallait parfois plusieurs jours ou semaines d’analyse pour donner du sens à des informations collectées, le Big Data offre une réponse de traitement de l’ordre de la minute.

Obstacles / By Sector
Industry Sectors	Use Case
Industry Sectors	Shareholders	Strategy	Bad Data Management	Absence of Hadoop MongoDB Specialists	Complexity of Deployment	No Apps Management	Other
Health	32,1 %	22,6 %	15,1 %	11,3 %	5,7 %	11,3 %	1,9 %
DevOps	29,5 %	20,5 %	15,4 %	16,7 %	12,8 %	5,1 %	0,0 %
Finance	28,3 %	22,8 %	16,3 %	15,2 %	12,0 %	5,4 %	0,0 %
Industry	27,5 %	20,0 %	22,5 %	12,5 %	10,0 %	7,5 %	0,0 %
Construction	25,6 %	25,6 %	18,2 %	9,8 %	11,0 %	9,8 %	0,0 %
Sales	25,5 %	23,6 %	20,0 %	14,5 %	9,1 %	7,3 %	0,0 %
Public Services	18,9 %	24,2 %	21,1 %	12,6 %	14,7 %	7,4 %	1,1 %

La fin d’un mythe
Pour autant, les technologies du Big Data ne relèvent en rien de la solution miraculeuse et il ne suffit pas d’emmagasiner un plus grand volume de données que le concurrent pour profiter spontanément d’un avantage substantiel. Ce qui préoccupe en premier lieu (et à raison !) les entreprises pour sauter le pas, c’est bien entendu le retour sur investissement. Car stocker un si grand volume de données en vue de leur traitement, sans parler des opérations à effectuer en elles-mêmes pour les interpréter, présente un sérieux coût qu’il faut pouvoir rentabiliser. À titre d’exemple, l’offre d’OVH en matière de serveurs dédiés Big Data comprend un cluster de 48 To de stockage pour 1 000 euros HT par mois (https://www.ovh.com/fr/serveurs_dedies/big-data). Du côté d’Amazon Web Services, l’offre est plus éclatée mais intègre notamment le service Amazon Redshift, avec un coût avoisinant les 1 000 dollars par téraoctet et par an. D’après l’étude d’EMC, 60 % des entreprises confirment que le budget est le premier facteur de prise de décision, pour se lancer dans le Big Data. Elles sont près de 41 % à retarder leur adhésion à cette nouvelle vague d’outils, en arguant le manque de visibilité sur le retour sur investissement. Un autre frein relativement délicat à quantifier : les questions d’ordre éthique sur l’usage des informations collectées, remises au premier plan avec l’affaire Snowden et la NSA, et la spécificité française des réglementations sur la protection des données. À l’image des algorithmes d’interprétation et de questionnement des données, qui s’articulent nécessairement autour d’une profonde réflexion de l’unité décisionnelle et qui ne doivent rien laisser au hasard, constater que l’essor de ces nouvelles technologies s’effectue avec une prise de conscience déontologique et un sens de la mesure laisse entrevoir un avenir maîtrisé et radieux.

Goals of Big Data Projects
Industry Sectors	Obstacles
Industry Sectors	Operational analysis	Operational Treatments	Social branding / Perception Analysis	Relational and Comportemental Analysis
Industry	58,2 %	21,8 %	9,1 %	10,9 %
Public Services	51,1 %	12,5 %	21,6 %	14,8 %
DevOps	50,7 %	20,0 %	12,0 %	17,3 %
Finance	47,8 %	16,3 %	21,7 %	14,2 %
Health	47,3 %	21,8 %	7,3 %	23,6 %
Sales	47,1 %	25,5 %	15,7 %	11,7 %
Construction	32,4 %	35,3 %	13,2 %	19,1 %

ENJEUX ET TECHNOLOGIES
On est aujourd’hui plongé dans un océan numérique, qui comprend à la fois les données traditionnellement produites par des ordinateurs, mais aussi de plus en plus ce que l’on appelle le « bruit numérique », c’est-à-dire tout ce qui nous accompagne, parfois même sans qu’on le sache, quand on se promène avec un smartphone et qu’on laisse tout type de traces de géolocalisation, mais aussi les données qui correspondent aux actions que l’on fait sur le Web, notre présence sur les réseaux sociaux, les objets connectés, etc. Avec le phénomène du Big Data, on a le moyen de tout enregistrer, de tout capter, de tout stocker et de tout analyser », explique Bernard Ourghanlian, directeur technique et sécurité de Microsoft France, à l’occasion des Techdays 2015. Si les entreprises commencent à saisir la valorisation de l’information et cherchent à la faire parler pour piloter le décisionnel, elles doivent pour autant retenir la règle des 3V que nous avons évoquée précédemment, en particulier l’immense variété de données qu’elles sont susceptibles de compulser. Face à ces informations si hétérogènes, qui comprennent indifféremment des nombres de clics sur une campagne web, mais aussi des séquences vidéo ou des journaux d’activité, les bases de données relationnelles traditionnelles sont caduques ; elles cherchent à catégoriser et à typer l’information, alors qu’elle revêt aujourd’hui de multiples formes que l’on ne doit pas isoler afin d’en tirer la substantifique moelle.

Hadoop, la réponse technologique pour les gros volumes de données
La réponse technologique est née en grande partie des géants du Web, Google en tête. Alors que le moteur de recherche n’en était qu’à ses balbutiements et devait encore faire face à la concurrence d’Altavista, Yahoo, Lycos ou Hotbot, la firme de Mountain View développe une série de technologies pour stocker, traiter et indexer près de cinq milliards de pages web. En 2001, elle met au point MapReduce (patron de calcul parallèle distribué), Google Big Table (SGBD compressé et orienté colonnes) et Google File System (système de fichiers distribués), les trois pierres angulaires de son système algorithmique visant à afficher les résultats d’une recherche. Ils feront l’objet d’une publication académique en 2004. Doug Cutting, le développeur du moteur de recherche libre Lucene développé en Java et distribué par la fondation Apache, s’intéresse à ces projets et crée le premier prototype d’Hadoop, dont le nom et logo s’inspirent du doudou de son jeune fils. Développé en Java, il s’agit d’un framework open source conçu pour traiter des volumes massifs de données, de l’ordre de plusieurs petaoctets. À la manière des projets de Google, il s’appuie sur une gestion de fichiers distribués pour traiter rapidement un afflux permanent d’informations. Pour ne pas perdre la bataille du Web, Yahoo ! s’intéresse de près à une telle solution et en devient le principal contributeur technique et financier, en embauchant Doug Cutting et en faisant tourner son moteur sur cette brique technologique. Le principe de fonctionnement d’Hadoop reste relativement simple. Il s’articule autour de la notion de « grilles de calcul », en répartissant l’exécution d’un traitement sur plusieurs grappes de serveurs. À la manière de Google File System, il introduit son propre système de fichiers, HDFS (Hadoop Distributed File System), qui répartit le stockage des données sous forme de « blocs » sur les différents noeuds, tout en les répliquant afin d’en conserver des copies non-altérées. La distribution et la gestion des calculs s’effectuent à travers MapReduce. Comme avec Google et comme son nom l’indique, cette technologie combine deux fonctions : « Map », qui décompose une requête en petits sous-ensembles qui aboutissent à autant de parties du résultat final, et « Reduce » qui consolide le résultat final à partir des sous-ensembles obtenus. Les traitements parallèles font gagner un temps considérable, là où les bases de données traditionnelles s’interrogent souvent d’un seul lot. Par son architecture modulaire, Hadoop présente quatre caractéristiques essentielles au Big Data. En premier lieu, il résout la problématique du coût du stockage. Pour emmagasiner davantage d’informations, il suffit d’ajouter des noeuds supplémentaires (sous forme de machines virtuelles, par exemple) et non de renouveler les baies de stockage de l’entreprise – une solution très coûteuse et difficile à anticiper. On parle ainsi de « scalabilité », c’est-à-dire de facilité à échelonner sa solution de traitement en fonction de la hausse de son activité et de la montée en charge. Par ailleurs, par son système de fichiers distribués, Hadoop autorise le stockage en vrac de données hétéroclites. Elles ne doivent pas nécessairement être structurées et typées, contrairement aux bases de données relationnelles classiques, et on n’a pas besoin de présager de leur utilisation. Derniers points, Hadoop assure aussi une plus haute sécurité, par son système de redondance et de réplication des données, ainsi que de hautes performances, par le traitement parallèle sur une grappe de noeuds.

Le boom des solutions NoSQL
Comme BigTable de Google, Hadoop embarque en prime un système de gestion de base de données distribuée, HBase, qui sert d’ailleurs de socle à Facebook depuis 2010. Il fait partie de la mouvance « NoSQL » (pour « Not Only SQL »), une catégorie de SGBD qui se distinguent des bases de données relationnelles classiques en ceci que la logique de base n’y est plus la table et la représentation matricielle de l’information, mais la notion de document binaire, et que leur interrogation ne s’effectue plus nécessairement avec le langage SQL. Développé depuis 2007 par 10gen, MongoDB est l’un de ces SGBD les plus fameux et adhère au même principe que HBase. Il tire son nom de l’anglais « humongous », qui signifie « énorme », et il est capable de se répartir sur un nombre infini de noeuds, que l’on ajoute ou supprime à loisir. Les objets sont stockés au format BSON (JSON binaire), sans schéma prédéterminé : on peut ainsi ajouter à tout moment de nouvelles clés, sans reconfigurer la base. Plus précisément, les données correspondent à des « documents », enregistrés dans des « collections » : ces dernières s’apparentent ainsi aux tables des bases relationnelles et les documents aux différents enregistrements. Au sein d’une même collection, les documents ne doivent donc pas nécessairement obéir à la même structure ni présenter les mêmes champs. Comme avec la notation JSON classique, les documents se composent d’une série de paires clés/valeurs et on peut les interroger avec les techniques bien éprouvées du JavaScript et du parcours de tableaux associatifs. Voici un exemple de collection typique de MangoDB et des SGBD NoSQL :

{ "_id": ObjectId("2fa8c5db87c9"), "Nom":"Debel", "Prénom":"Chloé", "Achat":"Robe à fleurs" }, { "_id":"ObjectId("2fa8c6dv87c8"),"Nom":"Derechef", "Prénom":"David", "Adresse": { "Rue":"12, rue des roses", "Ville":"Paris", "Code postal":"75017" } }

Ici, les clés (le nom des champs) et les valeurs (qui suivent systématiquement le signe deux-points) ne sont pas préservées d’un document à l’autre. Il est même possible d’imbriquer des clés au sein d’un document, comme le champ « Adresse » dans l’exemple précédent. En interrogeant le SGBD avec un langage classique du Web, comme le JavaScript, on profite d’une plus grande souplesse de traitement. Par ailleurs, les compétences pour ce type de langage sont largement répandues et il devient ainsi possible de « faire parler » les données sans un lourd processus de recrutement d’experts, encore trop rares sur le marché. L’offre actuelle d’OVH et d’Amazon en matière de stockage et de traitement Big Data s’articule d’ailleurs autour du couple Hadoop/MangoDB. Ces technologies sont un grand vivier pour de jeunes pousses et des start-ups, qui proposent des distributions complètes et intégrées. Parmi les grands acteurs sur le plan international, on peut citer Hortonworks, une filiale de Yahoo ! qui reçoit le support de Microsoft et qui s’intègre directement à Windows Server et Windows Azure, mais aussi Cloudera, la société dans laquelle oeuvre aujourd’hui Doug Cutting et qui vient de recevoir 740 millions de dollars de financement de la part d’Intel, et MapR, qui se base sur un système de fichiers Unix natif en lieu et place de HDFS et qui réintroduit des requêtes de type SQL sur des données Hadoop. Le framework Hadoop se voit aujourd’hui intégré à la galaxie des projets Apache et est distribué selon le principe des logiciels libres, à l’adresse http://hadoop.apache.org. Les principaux réseaux sociaux, comme Twitter, Facebook et LinkedIn, mais aussi des géants du Web comme Amazon et PayPal, reposent sur ce framework.

Pour autant, Hadoop ne suffit pas
À l’instar d’Hadoop et de ses multiples composants, le Big Data n’est donc pas confiné à une seule technologie ou technique. C’est une tendance de fond, qui transforme de manière drastique toutes les entreprises et leur rapport à l’information. Elle n’est donc pas cantonnée au seul département informatique qui doit mettre en place l’infrastructure technique ; il s’agit d’un bouleversement transverse dans la société, qui doit être minutieusement préparé en impliquant l’ensemble des services et des collaborateurs, tant sur leur manière de considérer l’information que sur les types de requêtes que l’on peut lancer afin de « faire parler » ces données. En ce sens, le Big Data n’a donc rien de miraculeux et ne fait pas surgir automatiquement des indicateurs visant à aider à la prise de décision. Il faut être capable d’interroger ce volume toujours croissant de données à la lumière de ses propres intuitions et des objectifs que l’on cherche à atteindre. Deux types d’attitudes dominent aujourd’hui le Big Data : la recherche opérationnelle des données, pour en saisir le sens immédiat et en temps réel, et la recherche analytique, où l’on considère de manière rétrospective les informations dans leur ensemble à travers des requêtes beaucoup plus complexes. Les deux tendances se complètent mutuellement et sont dans une certaine mesure antinomiques : les systèmes opérationnels, comme les SGBD NoSQL, sont capables de mener des requêtes concurrentes et s’évertuent à réduire le temps de réponse pour des recherches très spécifiques, alors que les systèmes analytiques confrontent de très larges volumes de données, pour des traitements susceptibles de prendre plus longtemps. La nature des informations compulsées par les entreprises varie largement entre des formes structurées ou non. Dès lors, la grande tendance est de combiner les technologies et les outils afin d’interroger en parallèle des contenus très divers. Selon une récente étude du cabinet IDC, près de 32 % des entreprises interrogées ont déjà réalisé un déploiement Hadoop et 31 % d’entre elles ont l’intention de le faire dans les douze prochains mois. Mais Ken Rudin, le chef analytique de Facebook, a récemment déclaré que « pour les entreprises cherchant à exploiter de grosses quantités de données, Hadoop ne suffit pas. » Toujours selon la même étude d’IDC, près de 36 % des entreprises ayant déployé Hadoop et les SGBD NoSQL les complètent d’un autre type de bases de données, en particulier les SGBD MPP (Massively Parallel Processing, conformes au SQL) comme Vertica de HP ou Greenplum. Pour être plus efficaces, les données sont ainsi corrélées entre des ensembles structurés traditionnels et des informations non-structurées en provenance de sources nouvelles. L’offre en matière d’intégration et de déploiement est aujourd’hui très large et tous les acteurs traditionnels comme HP, IBM, Microsoft ou Oracle proposent des solutions à la carte, qui s’inscrivent autour de distributions spécifiques d’Hadoop, de SGBD distincts et d’outils de visualisation de données propriétaires. HP, par exemple, propose son propre SGBD Vertica qui s’intègre de manière bidirectionnelle avec toutes les distributions majeures d’Hadoop, notamment Cloudera, Hortonworks et MapR. Microsoft met en avant la distribution HDInsight Services d’Hortonworks, en l’intégrant à Windows Server et à Windows Azure. Le géant de Redmond pousse en parallèle son SGBD Microsoft SQL Server, déjà largement utilisé dans les BI traditionnels. Du côté d’Oracle, on mise sur une solution maison, avec une distribution Hadoop autour de Cloudera et un SGBD NoSQL taillé sur mesure. Les surcouches SQL, mais aussi les systèmes de fichiers alternatifs comme GlusterFS de Red Hat ou Global File System (GPFS) d’IBM, sont ainsi parfois préférés au HDFS d’Hadoop pour le déploiement de solutions hybrides.

Choisir une solution Big Data
Bien qu’elles soient encore jeunes, les technologies du Big Data évoluent à grande vitesse et de nombreux acteurs se confrontent sur le marché. Il faut dire qu’il est particulièrement juteux et promis à un bel avenir ! À en croire une étude du cabinet Transparency Market Research, son chiffre d’affaires devrait atteindre 8,9 milliards de dollars dans le monde en 2014 et connaître une croissance annuelle de l’ordre des 40 % dans les deux prochaines années, pour atteindre 24,6 milliards de dollars d’ici 2016. Le cabinet IDC complète cette perspective, en indiquant que le domaine des services Big Data devrait à lui seul progresser de 21,1 % par an. Les études les plus optimistes, en particulier celle menée par le cabinet ABI Research, prévoient un chiffre d’affaires avoisinant les 114 milliards de dollars d’ici l’horizon 2018-2020. Dès lors, les entreprises peuvent se tourner vers une immense variété de solutions intégrées pour déployer leur projet Big Data. Au-dessus d’une distribution Hadoop, elles comprennent généralement une série de « packages » visant à automatiser et accélérer les traitements, à proposer une série d’API afin d’élaborer des applications internes dans un environnement de développement familier, à planifier l’exécution de requêtes et aussi à assurer une meilleure visualisation des données. Pour choisir à bon escient, les entreprises doivent réfléchir à la nature des données qu’elles collectent déjà ou qu’elles ont l’intention d’emmagasiner, mais surtout à leurs attentes quant à leur interprétation. Les outils de visualisation de données, par exemple, diffèrent souvent d’un prestataire à l’autre et peuvent ainsi éclairer un public de non-statisticiens. À ce titre, les acteurs du marché s’accordent pour ajouter trois nouveaux « V » à la règle déjà établie : visibilité, véracité et valeur. La première composante concerne précisément les outils de visualisation de données; traiter de colossaux volumes d’informations à grande vitesse ne suffit plus, il faut que l’unité décisionnelle soit en mesure de les interpréter tout aussi rapidement. La véracité est une nouvelle tendance qui introduit des algorithmes de vérification de la pertinence et de la qualité des informations. Sur Twitter tout particulièrement, il est devenu primordial de séparer le bon grain de l’ivraie et ainsi de distinguer les véritables commentaires d’utilisateurs des messages émanant de robots. Enfin, la valeur concerne l’accomplissement ultime du Big Data : être capable de générer un retour sur investissement réellement intéressant et ne pas se cantonner à une pure performance technique. C’est précisément à ce stade qu’interviendront les futurs experts du domaine. Data scientists, ingénieurs d’études, statisticiens, experts en développement NoSQL et en appliances Hadoop… Le marché est en forte croissance et le cabinet Gartner prévoit que le Big Data devrait créer 4,4 millions d’emplois dans le monde d’ici 2015. De jeunes technologies, un enracinement durable dans la formation scolaire et une véritable volonté d’accompagnement des pouvoirs publics pour le développer dans l’Hexagone : bien plus qu’une expression à la mode, le Big Data pourrait à terme devenir l’un des principaux vecteurs de croissance des entreprises.