ESI UCLM
AccueilOpinionDonnées, science, ingénierie et profession

Données, science, ingénierie et profession

Francisco Ruiz et Mario Piattini

Données, science, ingénierie et profession

Par Francisco Ruiz y Mario Piattini (Professeurs d'université).

On dit qu'on ne se souvient de Santa Barbara que lorsqu'il tonne. Cela était évident en Espagne, comme dans presque tous les pays, lorsque, au début de la pandémie de COVID, les gouvernements ne pouvaient pas disposer de données adéquates pour comprendre la situation et prendre des décisions plus éclairées. Plusieurs mois ont dû s'écouler avant que les autorités ne commencent à disposer de systèmes leur fournissant les données, sous la forme et dans les délais appropriés. Et pourtant, sa crédibilité et sa précision n'ont pas été largement acceptées.

Données, informations et connaissances Ils sont souvent utilisés comme synonymes, mais ils ne le sont pas. Les données sont les valeurs brutes, la matière première. Lorsqu'ils sont encadrés dans un contexte, ils sont appelés informations. Enfin, la connaissance est une information sous une forme et dans un contexte utiles à certaines fins. Par exemple, « 195 » correspond à des données brutes, « Luis mesure 195 cm » à des informations et « Luis est grand car il mesure 195 cm » à des connaissances.

Les Données peuvent être utiles pour, à partir d'elles, générer de nouvelles connaissances et/ou prendre de meilleures décisions, et ainsi pouvoir optimiser les coûts, offrir de meilleurs services aux citoyens, mieux servir les intérêts et les besoins de nos utilisateurs ou clients, ou "améliorer l'intérieur pour qu'il soit remarqué à l'extérieur » (amélioration des processus). Ces dernières années, grâce au développement des technologies de l'information, cette pertinence s'est accrue au point que les données sont considérées comme une sorte de nouvelle source de richesse, pour les individus, les organisations ou les pays. Sa collecte et son analyse sont essentielles pour réaliser de nouvelles découvertes et des changements bénéfiques, comme lutter plus efficacement contre une pandémie, connaître la qualité de l'air dans chaque ville et zone pour prendre les mesures appropriées ou connaître la situation du trafic en temps réel pour pouvoir adopter des mesures pour prévenir ou réduire rapidement les embouteillages. Les possibilités sont infinies, mais parmi elles, il y a aussi celles qui ont des conséquences potentiellement négatives. Pour cette raison, les professionnels de la Data doivent être imprégnés d'un sens aigu des responsabilités et d'une éthique professionnelle.

Les données ont leur science et leur ingénierie, mais il n'y a pas de consensus sur la définition de Science des données et, par conséquent, ni dans ses limites avec le Ingénierie des données.

Pour le clarifier, nous prenons les mots de Theodore von Kármán, un prestigieux physicien et ingénieur hongrois-américain : «lles scientifiques étudient le monde tel qu'il est tandis que les ingénieurs créent un monde qui n'a jamais existé auparavant. En d'autres termes, l'objectif de la science est de connaître la réalité, tandis que celui de l'ingénierie est de la changer en créant de nouveaux artefacts technologiques. Appliqué au monde physique, on peut en déduire que l'étude des trous noirs de l'univers relève de la Science, tandis que concevoir et construire le télescope pour les étudier relève de l'Ingénierie. De même, appliqué aux données, nous pouvons en déduire que la science des données cherche à obtenir de nouvelles connaissances à partir des données tandis que l'ingénierie des données cherche à changer la réalité en utilisant les données. Une définition plus élaborée et limitée peut être trouvée dans le "Body of Knowledge on Data Management" (Corps de connaissances sur la gestion des données), produit par DAMA (https://www.dama.org), l'association internationale des professionnels de la gestion des données. DAMA associe la science des données à la tentative de prédire l'avenir, le définissant comme "la construction de modèles prédictifs qui explorent les modèles contenus dans les données". Et pour cela, il « combine l'exploration de données, l'analyse statistique et l'apprentissage automatique avec des capacités d'intégration et de modélisation de données » et « suit la méthode scientifique pour améliorer les connaissances en formulant et en vérifiant des hypothèses, en observant des résultats et en formulant des théories générales qui expliquent les résultats ».

Dans la vraie vie, les objectifs de la Data Science et de l'Ingénierie sont souvent indissociables puisque, pour obtenir de nouvelles connaissances à partir des données (Science), il faut d'abord concevoir et créer des systèmes technologiques qui les stockent et les traitent correctement (Ingénierie).

Il est même fréquent qu'une même personne fasse parfois de la Data Science et d'autres Data Engineering. Pour cette raison, il est plus commode de parler deScience et ingénierie des données”, y compris les deux, car la discipline s'est concentrée sur la valorisation des données grâce aux technologies de l'information (IT).

Pour tirer parti des données, il est nécessaire de connaissances et compétences diverses. La principale référence internationale pour savoir ce qu'ils sont est la proposition ACM (Association pour les machines informatiques, l'association internationale la plus prestigieuse dans le domaine de l'informatique), connue sous le nom de "Compétences informatiques pour le programme de premier cycle en science des données" (disponible en https://www.acm.org/education/curricula-recommendations). Il identifie les onze domaines de connaissances et de compétences suivants (nous laissons les acronymes originaux en anglais) : Analyse et présentation des données (AP) ; Intelligence Artificielle (IA); Systèmes de mégadonnées (BDS); Fondements de l'informatique et de l'informatique (CCF); Acquisition, gestion et gouvernance des données (DG); Exploration de données (DM) ; Confidentialité, sécurité, intégrité et analyse pour la sécurité des données (DP); Apprentissage automatique (ML); Professionnalisme (RP); Programmation, structures de données et algorithmes (PDA); et Développement et maintenance de logiciels (SDM). Certains d'entre eux sont communs à d'autres disciplines de l'informatique et de l'informatique. D'autres sont particulièrement axés sur les responsabilités des professionnels en science et ingénierie des données, comme c'est le cas de l'analyse et de la présentation des données; systèmes de mégadonnées ; Acquisition, gestion et gouvernance des données ; et l'exploration de données.

Une autre source pertinente est l'association DAMA susmentionnée, qui propose une approche axée sur la gestion des données (partie de Data Engineering). Les connaissances et compétences pertinentes que vous avez identifiées sont regroupées dans les domaines illustrés à la figure 1.

Figure 1. Aspects pertinents de la gestion des données selon DAMA

Le CEPIS (Council of European Professional Informatics Societies) établit qu'un bon professionnel est une personne qui combine connaissances, compétences, formation, responsabilité et éthique pour pouvoir ajouter de la valeur aux autres.

Les deux ensembles de compétences et de connaissances ci-dessus constituent un bon point de départ pour délimiter Métier de la science et de l'ingénierie des données, dont le but est d'extraire de la valeur des données. Par conséquent, la valeur d'un professionnel dans cette discipline doit être mesurée par sa capacité à obtenir de la valeur à partir de données pour d'autres personnes et organisations ou pour la société en général. Pour atteindre cette valeur, les professionnels des données mènent des efforts et des projets dont le résultat final est généralement la création de systèmes d'information permettant de visualiser et d'analyser les données, et de pouvoir en extraire de nouvelles connaissances. Ces projets sont généralement réalisés selon les étapes illustrées à la figure 2.

figure 2. Les étapes habituelles d'un projet de valorisation de données.

Tout au long des différentes étapes d'un projet, les experts traitent les données et les informations à quatre niveaux différents, illustrés à la figure 3 avec un exemple sur les données de la pandémie COVID. Elle part des données opérationnelles brutes (nombre de cas et de décès chaque jour dans chaque localité). Ensuite, vous devez identifier les dimensions pour analyser les données, par exemple, par temps (quand cela se produit), territoire (où cela se produit) et niveau de gravité (ce qui se passe). Cela nécessite de traiter les données (généralement à l'aide d'outils logiciels qui implémentent certains algorithmes) pour les regrouper aux niveaux de détail appropriés pour chaque dimension d'analyse. Par exemple, dans le cas du temps, par jours, semaines et mois, ou par localités, provinces et communautés autonomes dans le cas de la localisation territoriale. A partir de ces données agrégées selon les besoins, on peut procéder au calcul des indicateurs pertinents pour la prise de décision, par exemple l'incidence cumulée chaque semaine dans chaque province (nombre de cas pour 100 XNUMX habitants). Enfin, les valeurs des indicateurs et autres données sont généralement fournies à des non-ordinateurs par le biais de systèmes d'information ("tableaux de bord" et autres types) qui facilitent la visualisation et l'analyse des données pour la prise de décision. Dans https://alarcos.esi.uclm.es/covid19esp/ Un exemple est montré avec de vraies données COVID.

Figure 3. Niveaux de données et d'informations. Exemple pour la pandémie de COVID.

Certains aspects pertinents des étapes des projets de valorisation des données sont présentés ci-dessous (Figure 2).

Avant toute chose, il faut connaître les besoins. Dans un projet de données, cela se concentre sur l'identification quoi mesurer et comment le mesurer de manière appropriée et, à partir de là, trouver le sources où nous pouvons obtenir les données nécessaires pour cela.

Dans la deuxième étape, un aspect clé pour travailler avec les données est abordé : leur donner une structure et une forme adéquates pour pouvoir les stocker sur des ordinateurs et pouvoir en faire tout ce que nous voulons. Cette tâche peut être tout aussi pertinente pour la réussite d'un projet de données que «l'élaboration des plans de construction corrects» l'est pour un projet de construction. En la matière, la notion générique d'architecture (définie dans la norme ISO 42010) est utile. Ainsi, le 'architecture de données' Établit les éléments ou compartiments dans lesquels on les sépare (tables, fichiers, etc.) et les relations entre lesdits éléments. Il est également nécessaire de bien définir la structure interne de chaque compartiment (quelles données spécifiques il stocke) et le type ou la nature (nombre, date, texte, audio, vidéo, document,...) de chaque donnée spécifique. La la modélisation des données il consiste à « créer les blueprints » avec une architecture et une structure de données adaptées aux besoins du projet. Ces plans peuvent être exprimés sous la forme de schémas entité-relation, relationnels ou multidimensionnels.

Passer des données brutes aux données préparées pour l'analyse peut être une tâche assez complexe. C'est similaire à ce qui se passe avec l'eau, qui pour être propre à la consommation humaine doit subir diverses transformations depuis la source d'où elle provient, et pour laquelle différents types de canalisations et de canalisations doivent également être construits. Ainsi, il est nécessaire d'identifier toutes les sources des données originales, à partir de fichiers informatiques déjà disponibles avec une structure claire (CSV, Excel, etc..) aux données dans des formats non structurés tels que le web ou les réseaux sociaux. Les Processus ETL, pour extraire, transformer et charger, consiste à : i) télécharger les données brutes depuis les sources originales ; ii) les transformer en formats et structures appropriés et homogènes ; et iii) les intégrer dans un référentiel ou entrepôt de données, sur la base de l'architecture de données précédemment établie. Pour faire de l'ETL, vous pouvez utiliser des technologies traditionnelles (comme SQL), mais vous pouvez être plus productif en utilisant d'autres spécialement conçues pour cela (Power Query, Big Query, etc.). Une alternative ces dernières années est d'utiliser un lac de données (lac de données). C'est une technologie qui évite de créer un magasin de données intégré et le remplace par une collection de données hétérogènes, qui conserve son format d'origine, mais est stockée dans le même système informatique. Pour garantir un accès commun et intégré, il est nécessaire métadonnées (des données sur des données).

Un besoin du professionnel de la science et de l'ingénierie des données, fortement lié à la modélisation des données, est de savoir gérer les technologie informatique pour stocker et traiter les données efficacement et effectivement.

Sans elle, il est impossible de réaliser la troisième étape des projets de valorisation des données (Figure 2). Le référentiel de données susmentionné peut être réalisé avec deux types de technologies : les systèmes de gestion de données bases de données (relationnels traditionnels comme ORACLE, MySQL, etc. ; ou non relationnels comme MongoDB) et des outils pour Big Data (Hadoop, Elasticsearch, etc.). Ces derniers remplacent les premiers lorsqu'il est nécessaire de travailler avec des quantités massives de données, permettant de relever les défis de gestion des données connus sous le nom de 7 V du Big Data : volume, rapidité, variété, véracité, faisabilité, visualisation et valeur des données. Une autre option, souvent associée au Big Data, est les technologies de lac de données susmentionnées.

Une fois le référentiel ou son équivalent créé et alimenté, la quatrième étape est celle où la valeur est réellement extraite des données à travers son analyse et sa visualisation. Pour ce faire, la première chose est de connaître les types de Analyse de données cela peut être fait, selon les types de questions auxquelles vous voulez répondre : descriptif (Qu'est-il arrivé?), diagnostic (Pourquoi est-ce arrivé?), prédictif (Que se passera-t-il probablement ensuite ?) et prescriptif (Quelle est la meilleure option à suivre ?). Chaque type d'analyse repose sur un type de techniques mathématiques (statistiques, méthodes numériques) ou informatiques (machine learning, data mining, etc.). Il est important de connaître le type d'analyse et les techniques spécifiques utiles à chaque situation, car c'est ce qui déterminera les outils que nous pourrons utiliser pour le faire. Par exemple, pour savoir s'il y a plus d'incidence du virus dans les villes ou dans les zones rurales, une analyse descriptive peut être effectuée à l'aide des statistiques de base traditionnelles. Au lieu de cela, pour savoir quand la prochaine vague de virus est susceptible de se produire, nous pouvons utiliser l'apprentissage automatique et/ou l'exploration de données. Selon les types d'analyses menées, les initiatives de valorisation des données peuvent être distinguées entre Projets en science des données o Projets d'intelligence d'affaires (BI, Business Intelligence). Le mot «entreprise» dans ce dernier fait référence à faire ce qui est juste pour qu'une organisation atteigne ses objectifs. Le tableau 1 résume les principales différences entre eux. Cette séparation n'existe souvent pas dans la réalité car les projets combinent différents types d'analyse, à la fois Data Science et Business Intelligence. Il est également fréquent que les besoins et les types d'analyse ne soient pas complètement connus a priori ou qu'ils changent en fonction de l'évolution du projet.

Tableau 1. Différences théoriques entre les projets Data Science et Business Intelligence.

Apprentissage automatique, ou l'apprentissage automatique (machine learning), est un groupe de techniques utilisées pour découvrir des modèles dans les données et faire des prédictions. Inclut les arbres de décision, la régression linéaire, le regroupement (regroupement) et les réseaux de neurones, entre autres. Son nom vient du fait que certains d'entre eux, dans le cas des réseaux de neurones, sont basés sur l'imitation de la façon dont le cerveau humain apprend. Il existe de nombreux outils logiciels pour faciliter sa réalisation, comme TensorFlow, Cloud AutoML ou Azure ML.

Nom exploration de données preuve de similitude avec l'exploitation minière traditionnelle. En effet, l'exploitation minière physique utilise des techniques pour extraire une petite partie précieuse en traitant d'immenses quantités de terre du sol et la seconde extrait des informations précieuses en traitant de grandes quantités de données. Il existe plusieurs technologies pour l'exploration de données. Certains sont des outils spécialisés, comme RapidMiner. Il existe également des langages de programmation comme R et DAX. D'autres sont à usage général, comme le langage Python. Un cas particulier est le extraction de processus d'affaires, très pertinent pour le transformation numérique des organisations, car il analyse des données qui reflètent tout ce qui se passe dans les processus internes d'une organisation (vente, stockage, fabrication, prise en charge des patients, etc.) et, sur cette base, obtient des informations pour changer pour le mieux (analyse prescriptive ) la manière d'effectuer les processus.

En complément de l'analyse des données, de nombreux projets incluent une visualisation appropriée des données (rangée supérieure de la figure 3). La Visualisation de données Il peut être très pertinent pour ajouter de la valeur, facilitant la consultation et la compréhension des responsables de la prise de décision. Il existe des outils logiciels spécialisés qui permettent d'obtenir des systèmes dans lesquels l'interface utilisateur est très visuelle et interactive grâce à l'utilisation de modèles d'interaction prédéfinis. C'est le cas d'outils tels que Tableau ou Power BI (la figure 4 montre leur utilisation pour créer l'exemple avec des données COVID). Certains outils, comme Power BI, incluent des fonctionnalités pour toutes les étapes des projets de données, du téléchargement de données à partir de sources à l'analyse de divers types et à la visualisation. Elles sont connues sous le nom de plates-formes ABI (Analytique et intelligence d'affaires).

figure 4. Environnement Power BI pour la visualisation et la consultation interactive des données.

Une fois qu'un projet Data est terminé (après toutes les étapes de la figure 2), vous entrez dans le exploitation de vos résultats. À ce stade, d'autres connaissances et compétences des professionnels des données entrent en jeu. Les données sont un actif hautement précieux et stratégique et, par conséquent, il est pertinent de mettre en œuvre des pratiques pour s'assurer que l'organisation dispose des données dont elle a besoin, quand, comment et avec la qualité et la sécurité appropriées. La Gouvernance des données établit la stratégie pour répondre à ces besoins organisationnels (exemple : se conformer au règlement européen pour la protection des données personnelles) et le Gestion de données mettre en place des pratiques concrètes pour s'y conformer, par exemple, comment éviter les silos de données isolés dans les différents services de l'entreprise. D'autres aspects que les professionnels des données doivent toujours garder à l'esprit sont : Qualité (exactitude, précision, etc.), la Sécurité dans toutes ses dimensions d'intégrité, de confidentialité et de disponibilité ; et la Confidentialité quand il s'agit de données personnelles. Comment puis-je m'assurer qu'il n'y a pas de données en double avec des valeurs différentes ? Qui peut accéder à chaque donnée ? o Comment éliminer ou réduire les risques de perte de données ? Ce sont des questions auxquelles les professionnels de la Data doivent répondre correctement.

Nous avons présenté les principales compétences et connaissances informatiques pouvant être requises dans un projet axé sur la Data. Ils sont très larges et il est difficile pour une même personne de les rassembler tous de manière suffisamment approfondie. Par conséquent, il peut être pratique de définir profils professionnels différent. C'est ce que fait la norme"Profils de rôles professionnels européens des TIC"(https://itprofessionalism.org/about-it-professionalism/competences/ict-profiles/), qui fait la distinction entre Data Scientist (Scientifique de données), spécialiste des données (Spécialiste de données) et Gestionnaire de données (Administrateur de données). Le premier porte avant tout sur l'analyse des données, le second sur les aspects de modélisation et de gouvernance des données, et le troisième sur la gestion et la sécurité des référentiels de données.

Un dernier aspect à souligner dans le métier de Data Science and Engineering est que les projets peut être multidisciplinaire. En plus des profils possédant les connaissances et les compétences présentées dans cet article, dans de nombreux projets, il est nécessaire d'avoir d'autres profils non informatiques, en particulier les experts du domaine d'application et les mathématiciens/statisticiens.

Les spécialistes du domaine d'application sont les personnes qui connaissent très bien le domaine d'application des données (par exemple, les experts en santé publique et en épidémies) et pour cette raison ce sont eux qui savent bien ce qu'il y a d'intérêt à mesurer et avec quels indicateurs les décisions doivent être prises être fait. Leur rôle au début du projet est essentiel pour identifier les besoins et connaître les sources de données existantes. D'autre part, ces experts du domaine sont les futurs utilisateurs des systèmes développés dans les projets Data et, par conséquent, il est hautement souhaitable qu'ils participent à la validation des résultats. Les mathématique/statistique ils peuvent contribuer à une connaissance plus approfondie de certaines des techniques d'analyse pour le cas des données quantitatives numériques.

Les données ont leur science et leur ingénierie. La grande importance qu'ils ont nécessite des professionnels, en Data Science et Ingénierie, qui savent mener à bien des projets qui ajoutent de la valeur aux organisations et à la société.


Francisco Ruiz (francisco.ruizg@uclm.es)

Mario Piattini (Mario.piattini@uclm.es)

Partager avec:
Évaluez cet article