Tabular Data Integration for Multidimensional Data Warehouse - Systèmes d’Informations Généralisées Accéder directement au contenu
Thèse Année : 2022

Tabular Data Integration for Multidimensional Data Warehouse

Intégration automatique de données tabulaires dans des entrepôts de données

Résumé

Business Intelligence (BI) plays an important role in companies to support decision making processes. Nowadays, small companies, organizations or even individuals can exploit numerous data. However, the lack of experts prevents them from carrying BI projects out. It is thus necessary to automate the BI design process to make BI accessible for everyone. In BI architectures, data are integrated into Data Warehouses (DWs) usually modeled in a multidimensional way. Yet, tabular data widely exist in small enterprises, organizations and in the open data world. As a result, we intend to automate the DW design from tabular data. Automatic DW design from tabular data requires the detection of different multidimensional components (facts, dimensions, hierarchies...). In case of multiple sources, several DWs may be generated. If they share common information, it is necessary to merge them as one integrated DW. During DW merging, missing data imputation should be carried out to achieve a better data analysis. Therefore, we propose a solution composed of three parts: (i) automatic DW design, (ii) automatic DW merging and (iii) dimensional data imputation. Automatic DW design from tabular data is composed of measure detection and dimension detection for constructing facts and dimensions, respectively. For measure detection, we propose a machine learning-based approach that extracts three categories of features from numerical columns. Dimension detection includes functional dependency-based hierarchy detection and the distinction of parameters and weak attributes based on syntactic and semantic rules. We carry out experiments to validate that our approach is able to detect measures and different dimension elements with high effectiveness and efficiency. For automatically merging DWs, we propose a process at both the schema and instance levels, consisting of level merging, hierarchy merging, dimension merging and star schema merging. Our approach takes the different DW structure elements into account. Moreover, our approach considers different cases and may generate star or constellation schemas. We conduct experiments to validate that our DW merging solution can correctly merge DWs at both schema and instance levels. Finally, to address dimensional missing data, we propose a hybrid imputation approach named Hie-OLAPKNN that combines a hierarchical imputation (Hie) and a K-nearest neighbors-based imputation (OLAPKNN). Hierarchical imputation is based on functional dependencies between hierarchy levels and is launched first. The remaining missing data can then be completed by OLAPKNN, which applies a specific dimension instance distance and considers hierarchy dependency constraints. Our experiments show that Hie-OLAPKNN outperforms other approaches in terms of effectiveness, efficiency and respect of hierarchy strictness.
La Business Intelligence (BI) joue un rôle important dans les entreprises pour soutenir les processus de prise de décision. Aujourd'hui, les petites entreprises, les organisations ou même les particuliers peuvent exploiter de nombreuses données. Cependant, le manque d'experts les empêche de mener à bien des projets de BI. Il est donc nécessaire d'automatiser le processus de conception et d’implémentation de systèmes de BI afin de le rendre accessible à tous. Dans les architectures BI, les données sont intégrées dans des entrepôts de données (EDs) généralement modélisés de manière multidimensionnelle. De plus, les données tabulaires sont largement répandues dans les petites entreprises, les organisations et dans le monde des données ouvertes. Par conséquent, nous avons l'intention d'automatiser la conception d’EDs multidimensionnels à partir de données tabulaires sans connaissance à priori des schémas. La conception automatique d’EDs à partir de données tabulaires nécessite la détection de différents composants multidimensionnels (faits, dimensions, hiérarchies...). En cas de sources multiples, plusieurs EDs peuvent être générés. S'ils partagent des informations communes, il est nécessaire de les fusionner en un seul ED intégré. Pendant la fusion d’EDs, l'imputation de données manquantes doit être effectuée pour permettre une analyse de données de meilleure qualité. Par conséquent, nous proposons une solution composée de trois parties : (i) la conception automatique d’EDs, (ii) la fusion automatique d’EDs et (iii) l'imputation de données multidimensionnelles. La conception automatique d’EDs à partir de données tabulaires comprend la détection de mesure et la détection de dimension pour définir respectivement le fait et les dimensions. Pour la détection de mesures, nous proposons une approche basée sur l'apprentissage automatique qui extrait trois catégories de caractéristiques. La détection de dimensions comprend la détection de hiérarchies (basée sur des dépendances fonctionnelles) et la distinction des paramètres et des attributs faibles (basée sur des règles syntaxiques et sémantiques). Nous avons réalisé des expérimentations pour valider que notre approche est capable de détecter les mesures et les différents éléments de dimension avec une efficacité et une efficience élevées. Concernant la fusion automatique d’EDs, nous proposons un processus basé sur les schémas et les instances, composé de la fusion de niveaux, la fusion de hiérarchies, la fusion de dimensions et la fusion de schémas en étoile. Les expérimentations ont permis de valider notre solution de fusion d’EDs. Enfin, pour traiter les données manquantes multidimensionnelles, nous proposons une approche d'imputation hybride appelée Hie-OLAPKNN qui combine une imputation hiérarchique (Hie) et une imputation basée sur les K-voisins les plus proches (OLAPKNN). L'imputation hiérarchique est basée sur les dépendances fonctionnelles entre les niveaux hiérarchiques. OLAPKNN applique une distance d'instances de dimension et tient compte des contraintes de dépendance hiérarchique. Nos expérimentations montrent que Hie-OLAPKNN surpasse les autres approches en termes d'efficacité, d'efficience et de respect des contraintes hiérarchiques.
Fichier principal
Vignette du fichier
thèse Yuzhao.pdf (58.55 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03903570 , version 1 (16-12-2022)

Identifiants

  • HAL Id : tel-03903570 , version 1

Citer

Yuzhao Yang. Tabular Data Integration for Multidimensional Data Warehouse. Computer Science [cs]. Université Toulouse 1 Capitole (UT1 Capitole); Université de Toulouse; IRIT - Institut de Recherche en Informatique de Toulouse, 2022. English. ⟨NNT : ⟩. ⟨tel-03903570⟩
142 Consultations
8 Téléchargements

Partager

Gmail Facebook X LinkedIn More