Journée d’étude de la thématique
« Data, médiation, valorisation »
Le 15 avril à partir de 10h – Amphi Jean Prouvé (Côté saint Martin, accès 11, r-ch) au Cnam
Co-animée par Béa Arruabarrena, Gérald Kembellec et Karim Fraoua (poster une déclaration d’intention ou poser une question)
« Place des données dans les sciences de l’information et de la communication : usages, usagers et applications » (clickez pour afficher/cacher la suite de l’appel)
La journée d’études spéciale « data, médiation, valorisation » du Laboratoire DICEN-IdF se tiendra le 15 avril prochain au CNAM. Nous y discuterons les phénomènes data sous plusieurs angles disciplinaires : Info-communicationnel comme axe d’ancrage bien sûr, mais aussi en convoquant des postures issues notamment de l’anthropologie, de la sociologie ou même de la philosophie. L’objectif de cette journée d’étude est faire un état des travaux de recherche interne au Laboratoire DICEN-IdF sur le phénomène des datas par leurs contributions épistémologiques, méthodologiques et appliquées s’intéressent aux problématiques de data dans leurs rapports entre humains et société au regard des enjeux sociotechniques, sociocognitifs, organisationnels, socioéconomiques, politiques et éthiques qu’elles soulèvent.
A l’heure où la mise en données des activités humaines par n’a jamais été aussi importante, les technologies numériques produisent des données de manière de plus en plus massive, qui elles obligent à repenser les relations humaines, le fonctionnement de la société et les modalités de la production de nouveaux savoirs appuyés sur les contenus. Ces avancées majeures impactent nos réflexions sur la relation humaine au sens de l’interface humain-machine que ce soit par l’extension technologique de l’IOT (et des objets connectés), l’émergence de l’intelligence artificielle, le Web sémantique, le traitement des données massives, mettant en œuvre des algorithmes et des méthodes d’analyse quantitative de données de plus en plus sophistiqués, telles que le Machine Learning pour la prédiction et le Deep Learning pour la reconnaissance faciale ou encore le traitement automatique des langues avec par exemple. Toutes ces évolutions technologiques ont un impact d’ordre cognitif et anthropologique non seulement dans leur conception (design) basés sur les ressorts de la psychologie cognitive et sociale, et les récentes découvertes des neurosciences que dans leurs usages où les dispositifs data interviennent désormais dans toutes nos décisions. Ces innovations technologiques occasionnent également le développement de nouvelles formes de « gouvernementalité » pour la société, telles qu’on peut le voir avec l’utilisation des traces comportementales, ou encore avec l’intensification de plateforme de données, des API et l’automatisation des procédures portés par l’action publique par exemple. La question de l’impact de la donnée est aussi cruciale sur la production de savoir pour les recherches en sciences sociales. Ce sont aussi les questionnements éthiques tant sur le plan de la protection des données que celui de la protection des personnes qui sont convoqués.
Ce séminaire sera organisé en deux parties. Dans une première partie, il s’agira d’aborder les travaux d’ordre théorique et méthodologique visant à problématiser d’un point de vue disciplinaire, la médiation et de la valorisation des données et les enjeux associés au sein de notre société. Nous questionnerons alors la manière dont on peut analyser les dispositifs producteurs ou consommateurs de données comme « objets frontières » entre les disciplines et quelle est la porosité des dites frontières sur ces sujets. Dans la deuxième partie, nous explorerons les aspects applicatifs (expérimentation, cas d’usages, etc.) qui questionnent, mettent en œuvre ou soulèvent des problématiques de données pour la société, dans des domaines aussi variés que la santé, l’éducation, la ville, l’écologie, le marketing et la documentation, etc.
Modalité de participation
Les contributions peuvent couvrir différents champs sur ce qui a été exposé, il faut proposer pour le 15janvier février 2022 un résumé d’une page maximum adressée à Gérald Kembellec, Karim Fraoua et Béatrice Arruabarrena (avec une courte bibliographie en cas d’intervention extérieure au laboratoire, sur proposition d’un membre du Laboratoire). Il faudra préciser dans le courriel si vous souhaitez participer sur la partie « théorique » ou dans la partie « appliquée » de l’après-midi, ou encore s’il s’agit de discuter un texte lors de la section doctorale.
Chaque présentation durera environ 20-15 minutes et sera suivie d’échanges avec les participants.
Les propositions des doctorants sont encouragées, surtout s’il y a un enjeu de présentation scientifique ultérieure lors d’un congrès (comme H2PTM, SFSIC…) ou encore du séminaire doctoral. Une session est spécifiquement dédiée en fin de journée à la discussion des textes de doctorants.
Programme prévisionnel du séminaire
Matin – Data et usages : Dimensions philosophique / anthropologique et techniques
- 10h Introduction : Gérald Kembellec & B. Arruabarrena & K.E Fraoua
-
10h15-11h00 Intervention théorique 1, Armen Khatchatourov: Deux figures de Big Data. (afficher le résumé)
En examinant les technologies et les discours à l’œuvre dans Big Data, nous proposons d’y distinguer deux tendances en partie concurrentes qui permettent de décrire les nouveaux « diagrammes » du pouvoir, les modes de gouvernementalité qui leur correspondent, ainsi que leurs relations complexes avec les savoirs constitués.
On postule aujourd’hui que nos savoirs dépendent de plus en plus des « données » obtenus à l’aide de Big Data. L’approche critique de ce champ, d’abord structurée par des enjeux épistémologiques, thématise la manière dont ce nouveau paradigme redéfinit la constitution des savoirs. Après une brève restitution de ce débat dans le but d’en dégager quelques éléments distinctifs et problématiques, nous allons tenter de le compléter par une approche dont l’aspiration est de dépasser les problèmes strictement épistémologiques pour s’acheminer vers ceux de l’exercice du pouvoir, en amont de la constitution des savoirs particuliers. Pour ce faire, nous tenterons de dégager le diagramme d’aujourd’hui, dans le sens où ce terme est employé par Gilles Deleuze, à savoir une représentation, une exposition « des rapports de force qui constituent le pouvoir ».
Cette analyse, convoquant également le paradigme cybernétique ici en jeu, nous amène à formuler l’hypothèse suivante : il en va désormais non pas simplement d’une nouvelle forme historique de la relation entre les savoirs et le pouvoir mais de l’auto-actualisation indéfinie de ce dernier.
-
11h00-11h45 Intervention théorique 2, Dario Compagno. Au-delà des big data : pour une approche model based aux données des SHS (afficher le résumé)
Les dernières années ont vu une explosion de recherches basées sur des algorithmes
capables d’extraire de l’information de manière purement inductive à partir de grandes
bases de données. Ces approches permettent par exemple de réaliser des annotations en
imitant l’agir humain (algorithmes supervisés) et même de détecter des formes invisibles à
l’œil humain, c’est-à-dire des nouveaux observables (Rastier), sur la base d’associations
parmi un grand nombre de petits traits pertinents (algorithmes non-supervisés). Les
dernières technologies permettent d’intensifier la puissance de ces approches, par exemple
grâce aux réseaux de neurones, qui identifient eux même les traits les plus pertinents pour
une certaine tâche, et implémentent donc une approche de plus en plus créative et
“humaine”. On a dit que grâce aux algorithmes on serait donc entrés dans un quatrième
paradigme de la recherche scientifique, où les corrélations auraient substituées le recours à
des modèles interprétatifs formulés à partir de théories, et cela avant de collecter des
données. Certaines limites des algorithmes inductifs sont connues, et notamment leur
opacité. Pour cette raison, les chercheurs se concentrent aujourd’hui dans le développement
d’algorithmes plus facilement interprétables.
Mais même au net de leurs problèmes d’opacité, les algorithmes inductifs souffrent d’une
grande incapacité, d’une faiblesse qui dérive directement de la statistique traditionnelle sur
laquelle ces algorithmes se basent. La statistique classique en effet ne sait pas passer d’une
corrélation observée dans les données à son interprétation, notamment causale (Fisher). Et
effectivement les algorithmes inductifs sont juste des puissantes machines à corrélation : ils
identifient des configurations mais ils ne peuvent pas leur attribuer du sens. Depuis une
vingtaine d’années, au contraire, une nouvelle famille d’approches se pose la question de
formaliser les conditions en accord avec lesquelles certaines corrélations peuvent être
interprétées causalement (Pearl). Cela permet de répondre à des vraies questions
scientifiques, pour lesquelles des simples configurations de corrélations seraient
insuffisantes ou pourraient même induire des lectures trompeuses. Les modèles causaux
sont des dispositifs hypothético-déductifs qui apportent de la connaissance qualitative aux
données, et permettent d’intégrer le travail des algorithmes (appliqués d’ailleurs souvent à
des “small” data) dans une vraie perspective de recherche.
Notre intervention présente ces approches model based, vis-à-vis des algorithmes inductifs,
et se concentre sur leur applicabilité aux sciences de l’homme. En effet, les modèles
causaux visent des interprétations causales des données, mais il n’est pas dit que cela soit
suffisant pour les SHS (Geertz, Eco). Nous proposons donc une extension des méthodes
causales visant à saisir le sens de données qui sont déjà signifiantes, qui sont déjà des
signes avec leur intentionnalité (Searle), et pour lesquels une lecture causale ne serait pas
adéquate. - 11h45-12h30, Intervention théorique 3, Karim Fraoua et Amos David. Émergence de la Blockchain dans l’espace numérique, une nouvelle identité partagée.
- Pause /déjeuner libre
-
13h30-14h15 Intervention théorique 4, Ugo Verdi, Resituer la data literacy dans son écosystème littératien (afficher le résumé)
La donnée, objet conceptuel ayant connu une nouvelle mise en lumière avec l’évocation
des big data, de l’open data, de l’intelligence articielle et des algorithmes, considérée
comme le” nouveau pétrôle du XXIe siècle” (Haupt 2016) et comme avantage compétitif
certain (CNIL and BpiFrance 2018), est l’objet de guerres commerciales et l’enjeu de
débats citoyens récurrents notamment dans le cadre de l’appropriation des données
personnelles et des impacts de la datafication. Dans ce contexte, la_ data literacy_ est
alors souvent vue comme la solution miracle pour la formation de “lettrés de la donnée”
(data literate). Or, si cette nécessité d’une maitrise des données est constamment
évoquée, réaffirmée avec la crise de la Covid-19 (Commission Européenne 2020), nous
constatons toutefois un manque de clarté sur l’ancrage de la_ data literacy_ dans un
écosystème littératien complexe et profifique; la data literacy elle-même ayant connu et
continuant de connaitre des évolutions.
L’héritage de la data literacy est double, ancrée d’une part dans l’histoire de la donnée,
et ancrée d’autre part dans la logique de la littératie, à savoir l’étude des effets de la
lecture et l’écriture sur la cognition humaine (Olson and Lejosne 2006), remise en
lumière par les travaux de Jack Goody. La littératie elle-même est traversée de plusieurs
courants, que Sreet nomme “autonome” et “idéologique” (Street 2006) dont les
implications techniques et culturelles façonnent les visions implémentées dans les
littératies qui ont pu naitre par la suite (ex : Information Literacy, Data Literacy, etc.).
Et par-delà la littératie elle-même, la data literacy est imbriquée dans un écosystème de
littératies, dont le nombre total ne peut être quantifié notamment du fait que les
frontières entre elles sont de plus en plus floues (Le Deuff 2012). Toutefois, plusieurs
partagent une même appétence pour les données et en font leur matériau d’étude pour
leurs analyses. Il est à souligner que plusieurs littératies ont précédé la data literacy
dans l’étude des données et existent toujours actuellement. Du fait de leur ancrage,
elles influencent la vision des données et in extenso de la data literacy, en particulier la
statistical literacy (Shields 2005). De fait, la place de la data literacy, ses interactions vis-
à-vis des autres littératies, tend à l’instabilité, les visions de sa nature divergeant selon
les auteurs.
Et si nous parlons ici de la data literacy sous l’angle d’une littératie monolotique, aux
définitions et compétences bien arrêtées (dont les auteurs les plus connus ayant
travaillé sur cette thématique sont notamment (Gummer and Mandinach 2015) et (Prado
and Marzal 2013)), c’est parce qu’elle a constitué une remise en cause ayant abouti à la
crétion de nombreuses data literacies spécialisées dans un domaine spécifique (ex : la
pedogical data literacy (Mandinach 2012)), des compétences spécifiques (ex : la data
visualisation literacy (Börner, Bueckle, and Ginda 2019)) ou encore des données
spécifiques (ex : la big data literacy (Bhargava 2015)),. Les raisons évoquées sont
multiples : manque de compétences spécifiques, nécessité d’une extension du domaine
d’analyse ou encore dénomination inadéquate.
Ainsi, l’objectif de cette contribution est d’apporter un éclairage épistémologique de la
data literacy en rappelant héritage littératien de la data literacy, en analysant ses
interactions avec les littératies voisines et enfin en traitant ses diverses spécialisations. -
14h15-15h00 Intervention théorique 5, Sophie Pène. Indisponibles données : Les belles endormies de l’éducation (afficher le résumé)
La proposition porte sur les données de l’éducation. Elle vise à décrire l’état de maturité de la « donnée » (2021), et plus précisément de l’open data, dans les discours professionnels de l’administration centrale de l’éducation et de la recherche. Impossibles à produire, trop sensibles pour être partagées, marginales dans un environnement sidéré par sa propre complexité, les données de l’éducation ont été cependant en 2021 un sujet porté par la politique gouvernementale. Selon un site du MESRI (enseignement supérieur, recherche et innovation) « Ouvrir la science », « Le potentiel des données d’enseignement supérieur et de recherche, ainsi que des données administratives et de pilotage de l’enseignement supérieur, de la recherche et de l’innovation est encore trop peu exploité, malgré les efforts déjà engagés. Pourtant, une meilleure gestion des données permettrait un gain important de valeur scientifique, économique et d’efficacité collective ». Du côté du MENJS ( éducation nationale, jeunesse et sports), le rapport du comité d’éthique des données de l’éducation précise : « Le secteur du numérique éducatif ouvre un nouveau champ des possibles pédagogiques par le recueil, l’analyse et l’exploitation des données d’éducation. Ces potentialités nouvelles doivent d’abord être au bénéfice des élèves et de leurs familles, des professeurs, des chercheurs en éducation mais doivent aussi éclairer le pilotage du système éducatif. »
Si la donnée ouverte est l’objet d’une politique numérique des deux ministères concernés (selon l’organisation actuelle du gouvernement, MESRI et MENJS), il apparaît que ces deux ministères qui réunissent plus de 12 millions d’usagers, en comptant les seuls élèves et étudiants, indépendamment des familles, et plus d’un million d’enseignants, ont relativement peu de jeux de données ouverts, au regard de leur puissance statistique. De plus ces jeux sont ponctuels, aléatoires et discontinus (analyse de data.gouv, rubrique éducation). Ils ne permettent pas d’évaluation systématique et participative du service public de l’éducation en France. Par ailleurs ces deux ministères ont de solides services statistiques qui publient de nombreuses études, à partir de données traitées et agrégées sans pour autant partager les jeux de données.
L’hypothèse examinée est purement potentielle : l’ouverture méthodique de données descriptives du système éducatif aurait-elle un effet sur l’appropriation de l’éducation comme bien commun par la communauté sociale ? En somme la critique de l’éducation par les médias, les politiques et les usagers pourrait-elle évoluer si les données décrivant le service public exprimaient une redevabilité et une transparence du service public de l’éducation ?
Si les deux ministères, en particulier le MENJS, qui se distingue au sein des autres ministères par le niveau de contrôle exercé par le cabinet sur les données publiées, et par un haut degré de définition des « données sensibles », augmentaient le flux et la complémentarité des données publiées, à quelles conditions cela pourrait-il améliorer la reconnaissance par des communautés (éducatives, informatiques, associatives) de la qualité du système éducatif et de sa valeur pour le pays ?
L’hypothèse peut paraître anecdotique et difficile à examiner. Elle permet cependant d’expliciter les thèses sous-jacentes aux réticences, difficultés ou au contraire investissement de l’open data et de passer en revue les appels actuels à leur ouverture. Considérons qu’elle permet aussi d’évaluer avec quelques années de recul les thèses développées dans plusieurs travaux sur le rôle des données ouvertes dans les politiques de modernisation de l’Etat français (Goëta, 2016 ; 2017 Denis, 2017, 2020, Auray, 2013 ; Bellon, 2017) , autour de l’idée que l’open data a été un instrument dans ces politiques et a introduit la notion de communs numériques dans le discours d’Etat (Shulz, 2021).
En analysant les occurrences de « données ouvertes » en contexte, il s’agit donc d’examiner si l’éducation occupe une place particulière (par son niveau de fermeture) , éventuellement en contradiction avec l’intérêt que les sujets éducatifs éveillent, et de proposer des explications (organisationnelles, techniques, éthiques). Pour interroger cette possible spécificité, on utilisera différentes sondes :
– Etude (rapide) depuis le point d’origine d’une politique de la donnée ouverte, l’année 2013, avec l’arrivée d’Henri Verdier à la direction d’Etalab, et le développement du site data.gouv, qui seront les bases d’un discours public sur l’open data, et l’innovation publique, par l’ouverture des monopoles informationnels de l’Etat.
– Etude terminologique du vocabulaire désignant les données : comparaison lexique statistique vs lexique data sciences, catégories descriptives (i.e : données de l’apprentissage, données PISA, données personnelles, données éducatives, données de la recherche), telles qu’émanant des textes officiels (circulaires, rapports), de la nomenclature des services et des libellés de poste, des discours des acteurs lors des entretiens.
– Etude comparative « données de l’éducation 2021 vs données de la santé 2019 ». Les données de la santé ont connu un affinement récent, à la suite du rapport Pon (regroupements thématiques, caractérisation accrue, terminologie enrichie, définition des services producteurs, gestionnaires et utilisateurs), mais aussi sous le booster qu’a représenté la pandémie Covid-19 en termes de valorisation sociale des données ouvertes, constituant cellles-ci comme une « cause » d’intérêt général.
– Etudes des textes officiels invitant à lier politiques d’ouverture de la donnée et politiques d’innovation. (Rapport Bothorel, ( 23/12/2020), Circulaire du premier ministre « Données, algorithmes et codes sources »(27 avril 2021), feuilles de route de 15 ministères et nomination d’un ou une administrateur des données dans chaque ministère ( septembre 2021)
Cette proposition est un segment d’un enquête portant sur la politique numérique éducative (octobre janvier 2021), entretiens, analyses de documents et observations, au MESRI et au MENJS, et s’inscrit dans le champ d’une description sociale de la donnée, considérée comme préfigurant les possibilités et impossibilités d’une production technique de la donnée, en relation ou non avec une approche dite data by design.
- 15h00-15h45 Actualités des données en SIC, Gérald Kembellec. Publier, décrire, partager et valoriser ses données : de nouveaux modes d’écriture en SHS (focales sur le notebook et le datapaper).
http://r.cnam.fr/data-dicen-2022 - 15h45-16h30
Appel à présentation informelle aux doctorant.es : place des données dans leur projet de thèse avec une présentation de 5 min et 5 à 10 min d’échange avec la salle. - 16h30-16h45 – Conclusion, Clôture