Le Big Data est une opportunité historique pour les entreprises, du moins en théorie, en pratique la mise en place de systèmes analytiques permettant de faire sens des données est encore insuffisante.
Introduction
Inexorable, l’explosion des volumes de données est en marche. Et avec elle, celle des besoins de rapidité et d’efficacité des traitements. Mais quels sont les enjeux de ce qu’il est convenu d’appeler le “Big Data” et les entreprises sont-elles prêtes à y faire face ?
Le Big Data: qu’est-ce que c’est?
Avant de définir le Big Data, il est essentiel de dire ce qu’il n’est pas. « Big Data is NOT a bigger data warehouse » (Paul Doscher, LucidWorks). Autrement dit, le Big Data, ce n’est pas des data centers toujours plus gros pour stocker toujours plus de données.
L’expression “Big Data” (ou grosse donnée, ou données volumineuses) est apparue pour la première fois en 2008 : elle a émergé car la quantité de données à traiter ces dernières années est sans équivalent avec ce qui se passait il y a seulement 10 ans et augmente de manière explosive.
Sans que tous les chiffres avancés soient aussi spectaculaires, les observateurs s’accordent à constater une croissance exponentielle des volumes de données, liée à un besoin de numérisation à tout crin des documents en tous genres : les entreprises capturent désormais quotidiennement des milliards de milliards d’octets dans tous les domaines, depuis des données clients ou fournisseurs jusqu’aux données opérationnelles ou contractuelles, sans oublier les millions de capteurs disséminés à travers tous les réseaux, dans des unités embarquées dans les véhicules ou les téléphones mobiles, qui eux-mêmes recueillent, transforment, créent et communiquent des données.
Selon IDC, l’univers numérique devrait être multiplié par un facteur

44 en 10 ans et passer de 0,9 à 35,2 Zo (zettaoctets, soit 1021 octets). L’idée de cet article n’est cependant pas de vous abreuver de chiffres, comme cela a déjà été fait dans l’abondante littérature déjà disponible sur le sujet, mais de tenter de cerner les implications du Big Data (ou données volumineuses) pour les décideurs en entreprise.
Facteurs expliquant le Big Data
Il existe 3 facteurs principaux permettant d’expliquer le développement du Big Data :
1. Le coût du stockage
Celui-ci ne cesse de diminuer et constitue de moins en moins un critère pertinent pour les entreprises. Les solutions de Cloud Computing permettent en outre une gestion des données élastique et en fonction des besoins réels des entreprises.
2. Les plateformes de stockage distribuées et les réseaux à très haut débit (THD)
Avec le développement du THD et l’avènement du Cloud Computing, le lieu de stockage des données n’a plus vraiment d’importance. Elles sont désormais stockées à des endroits physiques distincts, et parfois non identifiés. Ainsi, quel utilisateur sait où se trouvent réellement ses photos postées sur Facebook ou ses messages sur Google Mail?
3. Les nouvelles technologies de gestion et d’analyse de données
Parmi ces solutions technologiques liées au Big Data, l’une des références est la plateforme Hadoop (Apache Foundation) permettant le développement et à la gestion d’applications distribuées adressant des quantités de données énormes et évolutives.
Les sources et les types de production de données
1. Les applications et services professionnels

Il s’agit des logiciels de gestion tels que les ERP, CRM, SCM, les outils de production de contenu et de bureautique ou les intranets, etc. Même si ces outils sont connus et largement maîtrisés par les entreprises, Microsoft a reconnu en son temps que la moitié des contenus produits via la suite Office échappent à tout contrôle et ne sont donc pas valorisés.
Ce phénomène a connu un nouveau rebond avec l’irruption du courrier électronique. 200 millions d’e-mails sont ainsi envoyés chaque minute.
2. Le Web
Sites d’actualité, d’e-commerce, gouvernementaux ou issus du

monde associatif, en investissant le Web, les entreprises et organisations y ont créé un volume considérable d’informations et suscité des interactions toujours plus nombreuses, rendant nécessaires le développement des annuaires et moteurs de recherche, ces derniers créant eux mêmes d’innombrables données issues des requêtes des internautes.
3. Les médias sociaux

En fournissant à la foule des outils d’expression (crowdsourcing), le Web 2.0 est à la base de la croissance phénoménale du volume de données produites ces dix dernières années: Facebook, YouTube et Twitter bien-sûr, mais aussi les blogs, les plateformes de partage comme Slideshare, Flickr, Pinterest ou Instagram, les flux RSS, les réseaux sociaux d’entreprises comme Yammer ou BlueKiwi, etc.
Chaque minute, plus de 30 heures de vidéo sont uploadées sur YouTube, 2 millions de posts sont publiés sur Facebook et 100.000 tweets diffusés sur Twitter.
4. Le mobile
Comme le précise IBM, le mobile n’est pas un terminal. Le mobile,

c’est les données. Il y a aujourd’hui 4 fois plus de téléphones mobiles en usage que de PC et tablettes. Un utilisateur mobile « standard » a 150 interactions quotidiennes avec son smartphone, notamment pour les messages et les interactions sociales. Combiné aux médias sociaux et aux services de Cloud Computing, le mobile s’est imposé comme le premier média personnel de masse.
A la fin 2013, l’App Store de Apple et Google Play auront dépassé les 50 milliards d’applications téléchargées.
5. Les objets
Le mobile a ouvert la voie à l’Internet des Objets (IOT). Chaque objet du quotidien, équipé de capteurs, dans nos maisons ou dans l’industrie, est désormais un terminal digital potentiel, capturant et émettant des données en permanence. Le géant industriel General Electric met en place des capteurs intelligents sur la plupart de ses produits, des équipements électriques de base aux turbines en passant par des scanners médicaux.
Les données opérationnelles recueillies sont analysées pour permettre d’améliorer les services, d’en développer de nouveaux ou de minimiser les temps d’arrêts. Grâce aux analytics, le fonctionnement des machines fait désormais l’objet d’adaptations en temps réel. Le Big Data ouvre ainsi les portes de l’Internet de l’industrie.
On peut d’autre part envisager deux grandes catégories de données:
1. Les données structurées
Ce sont les données que l’on peut facilement organiser par rangées et colonnes, et qui sont traditionnellement gérées dans des bases de données. Il s’agit notamment des données liées au fonctionnement habituel des entreprises et organisations (stocks, comptabilité, finances, ressources humaines, statistiques, études scientifiques, …)
2. Les données non structurées
Déjà présentes sous la forme de la production bureautique non organisée, ces données se multiplie de manière exponentielle et incontrôlable avec les plateformes de crowdsourcing, le mobile et l’Internet des objets. Par leur volume, leur vitesse d’acquisition et la variété de leurs formats, elles nécessitent de nouveaux outils pour leur stockage, leur traitement et leur analyse. C’est à leur développement que correspond la naissance du Big Data.
Les 6 « V » du Big Data
Pour les analystes du Gartner, le concept de Big Data recouvre 3 dimensions: volume, vélocité et variété. IBM, qui a fait du Big Data une priorité majeure, a ajouté un 4ièm « V »: la véracité. Avec la visibilité et la valeur, un 5ème et un 6ème « V » sont de plus en plus pris en compte pour expliquer le Big Data.
1. Volume
Le volume est évidemment la première caractéristique qui vient à l’esprit quand on parle de Big Data.
Suivant une courbe exponentielle, ce volume concerne non seulement les données produites chaque jour, mais aussi celui des capacités de stockage des supports informatiques. Il tend aujourd’hui vers l’infini et nécessite des unités de mesure vertigineuses comme le yottabyte qui équivaut à 1.000.000.000.000.000.000.000.000 de bytes, soit un trillion de terabytes. Il est évident que les bases des données et outils de gestion traditionnels ne sont pas capables de gérer de telles quantités de données.
2. Vitesse (Velocity)
La vitesse du Big Data représente le temps nécessaire pour que les données soient collectées, traitées et activées par l’entreprise.
Le monde digital est désormais « plus rapide que le temps réel » et les données n’échappent à cette tendance. Elles sont produites, capturées, traitées, et partagées à une vitesse inédite. Comme l’a justement remarqué Rupert Murdoch :
« The world is changing very fast. Big will not beat small anymore. It will be the fast beating the slow« .
Une entreprise de services financiers doit ainsi traiter et analyser plusieurs millions de messages par seconde pour activer ou non des ordres sur les marchés. Le temps réel est donc la nouvelle unité de temps pour les entreprises et les systèmes classiques de traitement des informations (gestion, personnalisation, marketing, …) se révèlent là encore peu adaptés.
3. Variété
La montée en puissance des données non structurées va de pair avec un diversification des formats et des types de données.
L’entreprise doit donner du sens aux avis et propositions émis sur Facebook, aux images, aux sons, aux vidéos, mais aussi aux informations émises par les terminaux mobiles ou issues des interactions M2M (Machine To Machine).
Dans le domaine du commerce, des solutions Big Data permettront de relier les données non structurées émises par un client (comportement, intonations de la voix, …) aux données classiques enregistrées à son sujet (historique des achats, service après-vente, …) pour développer en temps réel une offre adaptée à ses besoins.

TerraEchos a ainsi développé un système très sophistiqué pour classer les sons. Celui-ci permet un contrôle intelligent et en direct pour un périmètre donné, équipé de milliers de capteurs. Ceux-ci recueillent les sons détectés qui sont organisés et analysés pour déclencher des actions appropriées (envoi d’un garde, activation d’une caméra, …) sur base de modèles à la fois prédéfinis et évolutifs.
4. Véracité
La qualité et la fiabilité des données est clairement un paramètre essentiel.
C’est d’autant plus vrai que les sources de données sont désormais majoritairement hors du périmètre de contrôle des organisations. Le concept de véracité traduit donc le besoin stratégique de disposer de données de qualité.
En principe, une plateforme Big Data permet à une entreprise d’analyser les données relatives à son environnement de manière quasi exhaustive et donc d’améliorer sa compréhension de l’ensemble des composants de son environnement (clients, partenaires, produits, concurrents, …). Mais paradoxalement, l’entreprise est confrontée au risque de se noyer dans cet océan de données et de ne pas être capable de faire le tri entre les informations pertinentes et le « bruit ».
Une bonne illustration de ce problème est survenue lors de l’élection présidentielle de 2012 au Mexique, des tweets issus de robots spammeurs et des faux comptes « orientés » ont largement pollué débat politique et son analyse sur Twitter.
5. Visibilité

Les données ne servent à rien si elles ne sont pas visibles et accessibles pour ceux qui en ont besoin. Ce besoin de visibilité est souvent évoqué par les marketeurs qui souhaitent disposer de tableaux (dashbords) et visualisations intelligents, accessibles à la volée et facilement interprétables.
C’est l’objectif de la solution proposée par CaptainDash qui permet de monitorer, comprendre et optimiser les processus sur base de données factuelles et visuelles. Toutes les informations nécessaires sont accessibles via une interface mobile et véritablement intuitive.
6. Valeur
En bout de course, la valeur du Big Data pour une entreprise se mesurera à l’avantage compétitif qu’elle en aura dégagé.
Cela dépend notamment de la qualité des analytics et de la compétence des « data scientists » chargés de leur donner du sens. Créer des données pour le plaisir de la performance technique n’est pas viable sur le long terme. Cela implique donc également des outils de mesure du ROI.
Les usages du Big Data
Les usages du Big Data sont infinis, mais quelques domaines majeurs émergent.
Comprendre le client et personnaliser les services
C’est l’une des applications évidentes du Big Data.
En captant et analysant un maximum de flux de données sur ses clients, l’entreprise peut non seulement dégager des profils génériques et concevoir des services spécifiques, mais aussi personnaliser ces services et les actions marketing qui y seront associées. Ces flux intègrent les données « classiques » déjà organisées via des systèmes de CRM, mais également les données non structurées issues des médias sociaux ou de capteurs intelligents capables d’analyser le comportement des clients sur le lieu d’achat.
L’objectif est de dégager des modèles susceptibles de prévoir les besoins des clients afin de leur fournir des services personnalisés en temps réel. On parle dès lors de segmentation attidudinale.
Avec la quantité infinie de données qu’il collecte à notre sujet, Google est évidemment un acteur incontournable en la matière.
Ces modèles seront utilisés dans tous les secteurs d’activités, depuis les grandes enseignes commerciales pour améliorer et personnaliser les offres, notamment dans l’e-commerce, en passant par les assurances qui seront adaptées à chaque cas particulier ou encore au monde politique pour lequel la capacité à « interpréter » les souhaits des électeurs est depuis toujours une chimère.
Optimiser les processus business
Le Big Data va également impacter fortement les processus business.
Des processus complexes tels que la Supply Chain Management (SCM) seront optimisés en temps réel en fonction de prévisions issues de l’analyse des données des médias sociaux, des tendances d’achats, de la circulation routière ou des stations météorologiques.
Un autre exemple concerne la gestion des ressources humaines, depuis le recrutement jusqu’à l’évaluation de la culture d’entreprise ou la mesure de l’engagement et des besoins du personnel.
Améliorer la santé et optimiser les performances
Le Big Data va considérablement affecter les individus.
Cela passe tout d’abord par le phénomène du « Quantified Self », c’est-à-dire la capture et l’analyse des données relatives à notre corps, notre santé ou nos activités, via le mobile, les « wearables » (montres, bracelet, vêtements, lunettes, …) et plus généralement l’Internet des Objets.
L’évolution des sites de rencontre passera également par l’utilisation d’algorithmes sophistiqués basés sur l’analyse de profils sociaux beaucoup plus riches et complexes.
Le Big Data va permettre des avancées considérables dans des domaines tels que le décodage de l’ADN ou la prédiction des épidémies ou la lutte contre des maladies encore incurables comme le Sida. Avec les modélisations basées sur des quantités de données infinies, les essais cliniques ne seront plus limités par la taille des échantillons.
Dans le domaine du sport, on peut citer l’exemple d’IBM aqui a

développé SlamTracker pour le Tennis. Grâce aux captures vidéo et à l’analyse des données liées, il est possible d’améliorer la préparation d’un match en analysant le jeu d’un adversaire sur base de paramètres inédits.
Autre exemple remarquable, la victoire de l’Oracle Team USA lors de la fameuse compétition de l’America’s Cup, ou comment 300 senseurs et 3000 variables ont permis un incroyable retournement de situation.
Rendre les machines intelligentes
Le Big Data va rendre les machines et terminaux les plus divers plus intelligents et plus autonomes.
Avec la multiplication à l’infini des capteurs sur les équipements domestiques, professionnels et industriels, le Big Data appliqué auM2M (Machine to Machine) va offrir de multiples opportunités pour les entreprises qui investiront ce marché.
Les voitures intelligentes illustrent ce phénomène. Elles génèrent déjà d’énormes quantités de données qui peuvent être exploitées pour optimiser l’expérience de conduite ou les modèles de taxation. Les voitures intelligentes seront en mesure d’échanger entre elles des informations en temps réel et d’optimiser leur utilisation en fonction d’algorithmes spécifiques.
Grâce aux capteurs équipant son matériel agricole, John Deere permet aux entreprises agricoles d’améliorer la gestion de leur flotte, de réduire les temps d’arrêt et d’économiser le carburant. Le système est basé sur le croisement des données en temps réel et historiques relatives à la météo, les conditions du sol, les caractéristiques des cultures, etc.
De même, les maisons intelligentes seront des contributeurs majeurs pour la croissance des données M2M. Les compteurs intelligents surveilleront les consommations énergétiques, mais seront surtout capables de proposer des comportements optimisés sur bases de modèles issus des analytics.

Le Big Data est également indispensable au développement de la robotique. Les robots vont générer et utiliser des volumes considérables de données pour comprendre leur environnement et s’y insérer de manière intelligente. En utilisant des algorithmes d’auto-apprentissage basés sur l’analyse de ces données, les robots pourront améliorer leur comportement et effectuer des tâches toujours plus complexes, comme le pilotage d’un avion par exemple. Aux USA, des robots sont maintenant capables de percevoir les similarités ethniques grâce aux données issues du crowdsourcing.
Développer les smartcities
Le Big (Open) Data est indissociable du développement des villes et territoires intelligents.
Un exemple classique concerne l’optimisation des flux de trafic sur base d’informations « crowdsourcées » en temps réels à partir des GPS, des capteurs, des mobiles ou des stations météorologiques.
Le Big Data va permettre aux villes, et singulièrement les mégalopoles

de relier et faire interagir des secteurs fonctionnant jusque là en silos: bâtiments privés et professionnels, infrastructures et systèmes de transport, production d’énergie et consommation des ressources, etc.
Seules les modélisations issues du Big Data permettent d’intégrer et d’analyser les paramètres innombrables issus de ces différents secteurs d’activité. C’est également l’objectif de l’initiative Smarter Cities d’IBM.
Dans le domaine de la sécurité, les autorités pourront utiliser la puissance des Big Data pour améliorer la surveillance et la gestion des événements mettant en péril notre sécurité ou pour prédire d’éventuelles activités criminelles, dans le monde physique (vols, accidents de la route, gestion des catastrophes, …) ou virtuel (transactions financières frauduleuses, espionnage électronique, …).