Quatre Essais pour Comprendre les Processus Démocratiques
de Marcellis-Warin, Nathalie
Ecole Polytechnique, Montreal (Canada)
2019
203
Ph.D.
Ecole Polytechnique, Montreal (Canada)
2019
Les comportements politiques des citoyens, des partis politiques et des institutions démocratiques ont évolué depuis la naissance d'Internet. Aucune élection ne se passe désormais sans l'utilisation de données générées par les individus, que ce soit avec des sondages ou avec des interactions sur les médias sociaux. En parallèle, de nouvelles méthodologies quantitatives permettent d'interpréter ces nouvelles données. Cette thèse doctorale se concentre sur la question de recherche suivante : comment les données massives et la science des données peuvent être utilisées pour comprendre les processus démocratiques à l'ère d'Internet ? Après une revue algorithmique de la littérature académique concernant les sciences politiques et les nouvelles données, puis le développement de la littérature associée aux sciences politiques et aux médias sociaux, quatre pistes de recherche sont explorées, permettant de répondre à la question de recherche générale. Chacune est associée à un article de recherche constituant le corps de la thèse. Les données récoltées à travers cette thèse doctorale sont principalement issues de Twitter (articles 1 à 3). L'article 4 utilise l'ensemble des manifestes politiques européens entre 2000 et 2018. Concernant la méthodologie, cette thèse doctorale repose sur la science des données (acquisition de données massives à partir de réseaux sociaux, économétrie, visualisations de données, traitement automatique du langage naturel). Le premier article se rapporte aux élections québécoises de 2014, et décrit la campagne électorale perdue par le Parti Québécois malgré le fait que le parti ait été au pouvoir au moment du déclenchement de l'élection. L'utilisation de modèles économétriques a permis d'associer préférentiellement les thématiques de campagne aux quatre chef·fe·s de partis politiques à partir de 672 497 tweets. Le deuxième article de recherche prend pour terrain d'observation l'élection fédérale canadienne de 2015. Les techniques d'analyse textuelle ont permis de traiter près de 3,5 millions de tweets et de révéler les dynamiques de campagnes menant à la victoire du Parti Libéral du Canada. Le troisième article de la thèse met en oeuvre plusieurs modèles économétriques pour étudier plus de deux millions de messages publiés sur Twitter au cours de la campagne électorale nigériane de 2015. Ces techniques mettent en perspective l'utilisation des données issues des médias sociaux comme source supplémentaire d'informations pour consolider la portée des sondages traditionnels. Finalement, le quatrième article de la thèse se concentre sur les différentes élections européennes ayant eu lieu entre 2000 et 2018. À partir d'une base de données de 12 millions de mots, la création de nouveaux indicateurs mesurant la similarité entre les partis politiques permet d'appréhender la notion de populisme à travers les pays européens. Les contributions de la thèse sont de trois natures. (1) Méthodologiquement, cette thèse met en oeuvre de nombreuses techniques en science des données. Cela va de la collecte de données inédites issues des médias sociaux, à la création de nouveaux indicateurs de suivis électoraux, jusqu'à la comparaison de documents écrits en plusieurs langues ou à l'attribution de thématiques de campagne aux différents candidats grâce à des modèles économétriques ou des techniques d'apprentissage semi-supervisé. Ces méthodologies permettent de comprendre le déroulement d'une élection moderne alors que sont générées en temps réel les données des individus et des organisations. (2) Les contributions sont aussi de nature théorique, avec la caractérisation des partis de gouvernement par rapport aux partis extrêmes et l'étude du populisme. (3) Finalement, les contributions sont de nature thématique, avec la publication de recherches concernant les élections québécoises de 2014, canadiennes de 2015, nigérianes de 2015 et européennes entre 2000 et 2018.