Les données structurées et leur traitement

Contenus Capacités attendues
Données Définir une donnée personnelle.
Identifier les principaux formats et représentations de données.
Données structurées Identifier les différents descripteurs d’un objet. Distinguer la valeur d’une donnée de son descripteur.
Utiliser un site de données ouvertes, pour sélectionner et récupérer des données.
Traitement de données structurées Réaliser des opérations de recherche, filtre, tri ou calcul sur une ou plusieurs tables.
Métadonnées Retrouver les métadonnées d’un fichier personnel.
Données dans le nuage (cloud) Utiliser un support de stockage dans le nuage.
Partager des fichiers, paramétrer des modes de synchronisation.
Identifier les principales causes de la consommation énergétique des centres de données ainsi que leur ordre de grandeur.
Sommaire ici

Les données constituent la matière première de toute activité numérique. Afin de permettre leur réutilisation, il est nécessaire de les conserver de manière persistante. Les structurer correctement garantit que l’on puisse les exploiter facilement pour produire de l’information. Cependant, les données non structurées peuvent aussi être exploitées, par exemple par les moteurs de recherche.

Historique

Vidéo : Historique (2 min 38 s)

Repères historiques 1930 : utilisation des cartes perforées, premier support de stockage de données;
1956 : invention du disque dur permettant de stocker de plus grandes quantités de données, avec un accès de plus en plus rapide;
1970 : invention du modèle relationnel (E. L. Codd) pour la structuration et l’indexation des bases de données;
1979 : création du premier tableur, VisiCalc;
2009 : Open Government Initiative du président Obama;
2013 : charte du G8 pour l’ouverture des données publiques.

Les données personnelles

Une donnée personnelle, au sens de la loi, est toute donnée qui permet d'identifier une personne physique, directement, ou indirectement.

Vidéos :
Données personnelles, Laurent Bignolas, Aude GG (4 min 33 s)
Données, données, donnez-moi ! (3min 41 s)

Une donnée fournit des informations sur des entités telles que des personnes ou des objets.
Par exemple, le numéro de téléphone d'un contact est une donnée.
Pour décrire une entité, plusieurs attributs (nom, prénom, adresse) sont utilisés, formant une collection organisée, comme un répertoire téléphonique.

Ces collections peuvent être structurées en tables, où les lignes représentent les entités et les colonnes leurs attributs, avec les données situées à l'intersection.
Pour conserver ces données, elles sont enregistrées dans des fichiers, tels que ceux au format CSV, qui sont simples et stockent les données sous forme de table.

Les fichiers comprennent des métadonnées, décrivant leur contenu, comme l'auteur d'un document ou la date d'une photo.
Ces métadonnées, numériques ou textuelles, peuvent être traitées de diverses manières.

Certains formats standardisés, comme le vCard pour les contacts, sont spécifiquement utilisés pour des collections typiques.
Les bases de données, quant à elles, regroupent plusieurs collections liées, à l'image d'une bibliothèque gérant livres, abonnés et emprunts.

Vidéo : CSV et Python (14 min 10 s)

Big Data

Vidéos :
Big Data : Comment ça marche ? (3 min 44s)
Big Data : Pourquoi les entreprises s'en emparent ! (6 min 54 s)

Les mégadonnées, ou Big Data, font référence à l'immense volume de données numériques générées par l'usage des technologies actuelles, tant dans le domaine personnel que professionnel. Elles englobent divers types de données : documents d'entreprise, données de capteurs, contenus web (comme images, vidéos et textes), transactions en ligne, interactions sur les réseaux sociaux, informations issues d'objets connectés (smartphones, compteurs intelligents), données géolocalisées, et bien plus.

Le terme « Big Data » est apparu en 1997 et a été défini en 2001 par Doug Laney, analyste chez Meta Group (aujourd'hui Gartner), à travers les "trois V" : Volume (quantité massive de données), Variété (divers formats de données, qu'elles soient structurées ou non) et Vélocité (capacité à générer, collecter et analyser ces données en temps réel). À cela s'ajoute parfois un quatrième V pour la Véracité, soulignant l'importance de la fiabilité et de la qualité des données pour leur utilisation.

En parallèle, l'Open Data, ou données ouvertes, désigne les informations mises à disposition du public de manière libre et gratuite, encouragée par des initiatives comme la charte du G8 pour l'ouverture des données publiques signée le 13 juin 2013. Ces données peuvent être téléchargées et utilisées par tous, favorisant la transparence, l'innovation et le développement de nouveaux services. Des plateformes telles que data.gouv.fr, data.oecd.org et le site de l'INSEE offrent un accès à ces données libres de droit.

Ainsi, tandis que le Big Data se concentre sur l'analyse et l'exploitation de vastes ensembles de données pour en extraire de la valeur, l'Open Data vise à rendre les données publiques accessibles à tous, pour promouvoir l'engagement civique et l'innovation.

Exemple d'Open Data :
data.gouv.
Insee
Open Data de Montpellier

Question PIX :
Grâce à l'Open Data de Montpellier, trouver le nom de la fontaine sur la Place de la COMEDIE.

L'abondance des données et l'avènement des algorithmes avancés ont des implications majeures sur la société. Le Big Data influence des secteurs variés, soulevant des questions de démocratie, de surveillance et de vie privée. Alors que certaines données sont libres d'accès (OpenData), la commercialisation de données par des entreprises souligne le besoin de régulations, comme le RGPD (Règlement Général sur la Protection des Données), pour protéger les individus.

Les datacenters, qui hébergent ces vastes quantités de données et les applications les exploitant, consomment d'importantes ressources et peuvent impacter l'environnement. Cela inclut l'utilisation d'eau pour le refroidissement, d'électricité pour le fonctionnement, et de métaux rares pour la fabrication des équipements. La pollution générée par ces activités nécessite une réflexion sur l'usage numérique, visant à minimiser l'impact écologique et à protéger la santé humaine.

Cloud

Vidéos :
Le stockage informatique (1 min 43 s)
Le cloud computing expliqué en 7 minutes (7 min)

Votre santé

En investissant le secteur médical, les géants du Web se positionnent comme une alternative à des systèmes de santé publics et privés à bout de souffle. Enquête sur les dessous d’un modèle galopant, qui mobilise technologie et collecte de données.

"Guérir et éliminer toutes les maladies d’ici la fin du siècle" : c’est l’ambition du patron de Facebook Mark Zuckerberg et de sa femme, la pédiatre Priscilla Chan, à travers leur fondation, la Chan Zuckerberg Initiative. Depuis plusieurs années, les géants du Web investissent massivement l’univers de la médecine. Tandis que Google développe une intelligence artificielle capable de rivaliser avec les meilleurs praticiens, Apple permet à chacun de contrôler son état de santé grâce aux objets connectés, quand Amazon s’empare des marchés de la télémédecine et des mutuelles via Amazon Care, son service d’assistance.

Ces mastodontes de la tech, auxquels se joignent de nombreuses start-up, misent sur l’exploitation des données de santé, le "nouvel or noir", pour améliorer les soins, diminuer les coûts et prévenir les maladies. Mais peut-on leur confier ces informations les yeux fermés ?

Si l’Union européenne réglemente jusqu’à présent la confidentialité des données personnelles, leur gestion aux États-Unis et au Royaume-Uni est cédée à des entreprises au moyen de lucratifs contrats. Entre progrès médical et course aux profits, comment appréhender ce nouveau modèle ? En quoi va-t-il changer le rôle des médecins ?

Business juteux
Du diagnostic médical aux assurances en passant par les tests génétiques, rien ne semble désormais échapper aux géants du Web. En Europe et aux États-Unis, les entreprises privées tentent de s’approprier un marché juteux sous couvert de rendre les individus maîtres de leur bien-être.


Décoration