Technique

La technique évolue, les concepts restent.

 

Le procédé se décompose en trois grands domaines:

 
 
 

ETL

L’ ETL ou Extract, Transform and Load (Extraction, Transformation et Chargement) est une technologie informatique permettant d’effectuer des déversements massifs d’information d’une base de données vers une autre suivant des règles de gestion de degrés de complexité variés.

Selon le contexte, ces règles peuvent aller de la simple correspondance de colonnes, à des transformations plus complexes: ventilations de valeurs, contrôles référentiel (lookups), passage de données en colonnes à des données en lignes (pivotage), etc.

Cette technologie repose sur des connecteurs servant à exporter ou importer les données dans les applications et des composants transformateurs qui manipulent les données (agrégations, filtres, conversions, pivots…), et des mappings (mises en correspondance de colonnes).

Dans le contexte de la Business Intelligence, l’objectif des processus ETL est le plus souvent l’intégration de données d’un ou de plusieurs systèmes transactionnels ou “OLTP” (par exemple l’ERP d’une entreprise, le système de gestion téléphonique du service après-vente ou le système de suivi des forces de vente) vers un entrepôt de données d’entreprise, ou data warehouse, puis éventuellement vers des systèmes d’analyse en ligne, ou cubes “OLAP” (voir ci-dessous).

 

Data warehousing

Un entrepôt de données, ou data warehouse, est une base de données regroupant l’ensemble des données fonctionnelles d’une entreprise (ventes, achats, paie, marketing, etc.). Son but est de fournir un ensemble de données servant de référence unique, utilisée pour la prise de décisions dans l’entreprise par le biais de statistiques et de rapports réalisés via des outils de reporting (voir ci-dessous).

Les données sont stockées en deux familles: les faits, qui sont des données de base à un niveau de détail plus ou moins fin (ex: ligne d’un ticket de caisse, mouvement comptable ou ligne d’une facture téléphonique) et les dimensions, qui sont des axes d’analyse des faits (ex: la dimension temps, la dimension produits, la dimension clients). Des faits de différents domaines peuvent évidemment avoir une ou des dimensions en commun. Ceci peut aussi permettre de croiser des domaines, par exemple: les ventes, les prévisions de ventes et les stocks peuvent être croisés pour obtenir des prévisions de stocks.

Dans les faits se trouvent des indicateurs, qui sont les éléments que le décideur suivra pour piloter son activité. Un exemple d’indicateur: le nombre d’appels téléphoniques reçus par un call center.

L’avantage du stockage des données sous cette forme est la performance des requêtes d’interrogation de ces données.
Exemple de requête simple : dans le prêt-à-porter, le décideur peut demander à savoir instantanément le nombre d’article vendus (indicateur) par mois sur les douze derniers mois (dimension temps) par ligne de produits (dimension produit) par pays, région et ville (dimension géographie) afin d’en extraire des tendances. Ceci peut être affiché dans un tableau de bord, voir le chapitre Reporting & Analyse.

Le data warehouse est donc une collection de données orientées métier, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.

Les données en aval du data warehouse sont ensuite utilisées de deux manières: elles peuvent être agrégées en datamarts qui sont des “vues” métier à des niveaux pertinents de détail afin d’en augmenter encore les performances d’interrogation pour de l’analyse à la demande (ad hoc), et/ou utilisées dans des rapports et tableaux de bord.

 

Reporting & Analyse

Une fois le data warehouse et l'(les) éventuel(s) datamart(s) alimenté(s), les données sont directement interrogeables via des analyses ou requêtes à la demande, ou bien sous forme de rapports formatés regroupant des requêtes.

Les analyses (requêtes ad-hoc) se font souvent sous la forme de tableaux croisés dynamiques, ou TCD, ou Pivot Tables, qui permettent une véritable navigation dans les différents niveaux de détail des données.
Exemple: un directeur commercial souhaitant analyser la performance de ses forces de ventes sur le terrain peut, grâce à un TCD, sélectionner les 5 commerciaux les moins performants (selon les critères qu’il aura définis au préalable) de chaque région, puis affiner son analyse au niveau ville en “dépliant” le niveau région. On dit aussi qu’il effectue un drill down. S’il décide de remonter au niveau région, il fait alors un drill up.

Les rapports sont, par définition, plus figés mais aussi plus complets. Les tableaux de bord sont des rapports qui contiennent l’essentiel des indicateurs de suivi d’une activité, visualisables d’un coup d’œil. A des hauts niveaux de management, quand la stratégie de l’entreprise est formulée, les indicateurs financiers, non financiers et le suivi des atteintes de leurs objectifs respectifs entrent en jeu à parts égales. On parle alors de tableaux de bord prospectifs, ou balanced scorecards et de suivi d’indicateurs clés de performance ou KPIs.

Les rapports peuvent être consultés et rafraichis à la demande, en mode pull, ou bien généré à un instant donné puis distribués de manière active à leur(s) destinataire(s) dans un mode push.