Abstract
Introduction - Présentation
Ces journées d’études ont permis de réunir des chercheurs venant d’horizons géographiques très différents (10 universités françaises, l’UQAM, l’Université du Québec à Ottawa, l’Isituto Nazionale di Statistica, l’Université La Sapienza à Rome, l’University of Warwick) et de débattre de leurs pratiques et usages des logiciels d’analyse textuelle automatisée, et plus précisément de leur appréhension des matériaux langagiers lorsqu’ils sont soumis à des opérations de collecte et de comptage en rapport à des algorithmes.
Pourquoi ces journées d’études ? Il a été souvent constaté que si les sociologues reconnaissent aujourd’hui la place centrale du langage dans la constitution des rapports sociaux, sa prise en compte rigoureuse passe très souvent par l’usage de logiciels (lexicométrie ou assistance à l’analyse) pour traiter leurs matériaux langagiers. Or ces traitements ne vont pas de soi et on peut faire l’hypothèse qu’ils transforment le raisonnement sociologique (pour reprendre l’expression de J. C. Passeron). Délaissant volontairement une approche techniciste des logiciels d’analyse textuelle, les deux journées d’études visaient plutôt à révéler les processus d’interprétation induits par les différentes opérations de traitement. Il était proposé aux intervenants de décrire leurs cheminements tant au plan du rassemblement de données et de la constitution de corpus (Axe 1), que du traitement, des opérations d’enquête et de fouille, de la formulation d’hypothèses (Axe 2).
En ouverture, Laurent Willemez 1 a souligné le danger d’autonomiser et de substantialiser les discours lorsqu’ils sont réduits à des matériaux langagiers détachés de l’espace social dans lequel ils ont été produits. C’était d’emblée souligner l’importance d’une démarche d’interprétation contextualisée.
Relevant combien l’interprétation infiltrait tous les moments de la dynamique de recherche, François Leimdorfer a souligné les caractéristiques spécifiques de l’enquête lexicométrique : traitement de gros corpus, détermination de certains choix techniques (par ex. le choix entre lemmatisation et non lemmatisation qui engage vers deux théories sous-jacentes du sens), question de la quantité dans l’interprétation. Certes l’accumulation est significative, mais une phrase, un mot, prononcés une seule fois par une certaine personne dans une certaine situation (« Karcher », « normal ») ont des effets sociaux très importants et contribuent à marquer les discours et représentations de la société.
Marc Glady a proposé quelques points-clés pour analyser les actes interprétatifs induits par l’usage des logiciels : rapport entre les réalités sémiotiques découpées (corpus) et les ontologies sociologiques implicites ou explicites du chercheur ; traitement des propriétés statiques vs dynamiques des données langagières (analyse du déploiement du sens dans le texte) ; place faite (ou pas) à la description linguistique des matériaux ; possibilité (ou pas) de croiser différentes « couches de lecture » ; incidence sur l’interprétation des types de matérialités dans lesquelles sont données les traitements et résultats (tableaux de valeurs statistiques, arbres, graphes, cartes, projections spatiales, matrices, etc.).
En séance plénière et complétant ces exposés introductifs, les conférences de Pierre Fiala (« le devenir du projet lexicométrique »), Karl van Meter (« compter les mots – retombées en sciences sociales »), Francesca della Ratta-Rinaldi (« l’analyse textuelle en Italie : de l’exploration du texte à l’extraction de l’information ») et Valérie Beaudoin (« les outils de textométrie appliqués aux corpus du web ») ont montré l’extension historique et méthodologique du « projet lexicométrique ».
Si les deux journées d’étude ont permis à de nombreux jeunes chercheurs et doctorants de présenter la méthodologie lexicographique de leur travail, elles ont aussi été l’occasion pour des collègues largement connus dans ce champ de re-questionner leur travail à partir de la thématique de l’interprétation. Au cours de la séance plénière introductive de ce thème, et reprenant l’ensemble des étapes de transformation des matériaux textuels et de leur annotation, Jules Duchastel a montré l’existence de différents actes interprétatifs qu’il faut concevoir comme « une spirale herméneutique allant de la précompréhension de l’objet à sa compréhension enrichie ». L’exemple de la catégorisation des unités textuelles montre que toute opération en apparence descriptive « embarque » un processus interprétatif. Si l’interprétation intervient dès la constitution du corpus, alors – comme l’a expliqué Dimitri della Faille dans une perspective post-positiviste – il faut accepter la violence faite au texte par le chercheur et la concevoir comme une subjectivité raisonnée. Décrivant les logiciels lexicométriques comme des « outils de contraste » capables de fournir des représentations qui facilitent l’interprétation sociologique, Elias Rizkallah a regretté que, pour des raisons d’architecture technique, la plupart d’entre-eux imposent une démarche heuristique au chercheur, bien plus qu’ils ne l’accompagnent. L’auteur a ouvert des pistes pour un espace de travail intégré qui offre véritablement une assistance à l’activité interprétative du sociologue. Montrant que cette préoccupation était précisément au cœur du développement de Prospero, Patrick Trabal a développé trois exemples d’interprétation (interprétation d’une « scorie » de l’analyse, interprétation du « non-dit », émergence de dimensions négligées) qui témoignent de la traçabilité du raisonnement du sociologue. Enfin Frédéric Lebaron a présenté un travail illustrant l’apport de l’analyse géométrique des données à l’analyse lexicométrique des discours économico-politiques.
Les journées ont montré que l’usage de logiciels engageait des questionnements qui traversent de manière constante les méthodes en sciences humaines et sociales : la représentativité des données par rapport à la réalité sociale étudiée ; l’orientation du recueil de ces données en fonction d’hypothèses de recherche ; le contrôle des opérations qui procèdent à leur réduction et à l’identification de leur structure. L’usage des logiciels d’analyse textuelle renouvelle ces questionnements, notamment en ce qu’ils nous obligent à « dénaturaliser » et à exhiber les opérations techniques et les raisonnements mis en œuvre pour accéder à une interprétation du social via le discours des acteurs. C’est à cet exercice que se sont livrés les participants, acceptant par là-même de nous faire rentrer dans la cuisine de production de l’interprétation sociologique.
Ainsi pouvons-nous rendre compte des avancées permises par ce colloque à partir de 4 grands axes qui émergent de la relecture attentive des textes fournis : Chercher à rendre compte des pratiques d’analyse lexicométrique par les sociologues conduit en premier lieu à situer ces dernières dans une histoire : celle-ci est scandée par les développements du projet lexicométrique sur une cinquantaine d’années et par ses extensions récentes, notamment sous forme d’outils de textométrie appliqués à des corpus de discours recueillis sur le web. Nous ne sommes pas sans disposer d’enquêtes sur les usages des outils lexicométriques, et un deuxième axe correspond aux résultats de ces enquêtes en tant qu’elles éclairent sur les pratiques d’analyse, leurs attendus, leurs justifications, les acteurs, les logiciels, les types d’exploration, etc. Un troisième grand axe touche aux modalités de constitution de corpus. Ce qui pose en premier lieu la question de leur représentativité. Il s’agit aussi de savoir si ces corpus sont figés ou évolutifs, clos ou ouverts (1.). D’autres auteurs s’intéressent au calibrage mutuel de la problématique et du corpus (2.). Certaines communications traitent de nouveaux outils qui changent considérablement la physionomie des corpus traditionnels ou amènent à en pointer des aspects jusqu’alors peu analysés (3.) Enfin le couplage corpus/méthodes est décisif et fait l’objet d’un réglage propre aux stratégies de recherche (4.). Un quatrième axe enfin touche à l’interprétation, qui est une constante du travail d’enquête avec des outils lexicométriques. Les communicants au colloque montrent qu’elle est présente tout au long de la démarche, de la constitution des matériaux langagiers à leur traitement, et qu’elle est liée à des opérations de découpage, d’annotation et de catégorisation des données (1.). Ils décrivent également la manière dont elle est en quelque sorte « préconstruite » par les logiciels (2.). Si elle est généralement guidée par l’émergence d’éléments saillants dans les résultats des traitements statistiques (3.), elle est tout autant liée à l’inattendu ou à des éléments de détail qui poussent les chercheurs à de nouvelles investigations (4.). Des démarches sont présentées pour finir qui mêlent investigations lexicométriques et démarches qualitatives plus traditionnelles, ce qui n’est pas sans induire une manière spécifique de construire l’interprétation par croisements (5.).
Les résumés par les auteurs des communications de ces deux derniers axes se trouvent sur le blog https://karlvanmeter.wordpress.com/. Ces résumés ont été quelque peu modifiés et reclassés en fonction des thématiques dominantes qu’ils abordaient.
Passé et avenir des analyses textuelles assistées par ordinateur
La communication de Phase initiale (1970-1985), l’affirmation d’une démarche lexicologique résolument quantitative dans les sciences humaines, fondée sur des modèles statistiques, atypique au sein du structuralisme linguistique dominant, a constitué une rupture tant avec la tradition littéraire, qu’avec la linguistique en plein développement. De la lexicométrie à la textométrie : enrichissement et développements linguistiques du modèle lexico-statistique, diversifications des programmes et des fonctionnalités dans le cadre conceptuel de l’Analyse du discours (1985-2000). Extensions du domaine lexicométrique : des données textuelles aux données du Web2 ; dépassement de l’opposition quantitative-qualitatif ; généralisation des objets de la mesure dans le cadre des SIC ; tentations de la valorisation.
La présentation de
Le véritable tournant est lié à l’explosion des corpus issus du Web (corpus natifs) et au développement des entreprises de numérisation de masse qui ont conduit à l’explosion des ressources textuelles numériques et à la nécessité de développer de nouveaux outils d’analyse. Car les corpus du Web ne sont pas « donnés ». Ils sont imbriqués dans des espaces numériques aux formats spécifiques. Ils nécessitent la création d’outils d’exploration et d’extraction des contenus, adaptés à chaque plateforme : pour un forum, ce ne sera pas la même chose que pour un site communautaire… Dans tous les cas, il ne s’agit pas seulement d’extraire le texte, mais d’extraire tous les éléments qui permettent de situer le texte. Avec plus que jamais la nécessité de conserver les données du paratexte : contexte d’énonciation, émetteur, date, destinataire, sujet…
Les corpus du Web ne se limitent pas à des textes : les documents du web combinent du texte avec des références externes et des objets multimedia (image, vidéo). Parfois le texte devient secondaire par rapport à l’image, comme sur Flickr ou Tumblr. Cela pose deux grandes catégories de questions : comment traiter la structure réticulaire du Web et l’articuler à l’approche textuelle ? Comment tenir compte de la dimension multimedia des messages ? Par ailleurs les corpus sont de plus en plus interactionnels et acquièrent une dimension temporelle qui ne se réduit plus à la séquentialité du texte. Enfin, les corpus du Web sont de taille inégalée et sont le plus souvent des corpus de flux. Les méthodes de statistique textuelle traditionnelles ont atteint leurs limites et le recours aux méthodes d’apprentissage utilisées en datamining devient incontournable (en texte et web-mining), même si celles-ci sont encore peu utilisées en sciences sociales.
En mobilisant des recherches s’appuyant sur des corpus différents (interactions sociales dans les forums ; corpus de sites web, plateforme de critiques amateurs,…), Valérie Baudouin trace les nouvelles voies qu’impliquent les corpus du Web pour les recherches en sciences sociales en soulignant la nécessité de mobiliser différentes méthodes pour le traitement des corpus, mais aussi l’intérêt de combiner les approches de corpus avec des approches ethnographiques et qualitatives.
Les usages de la lexicométrie en sociologie, les enquêtes
Un questionnaire sur les usages de la lexicométrie a été envoyé par le groupe de travail Discours en sociologie du laboratoire Printemps
2
à plus d’une centaine de chercheurs travaillant avec les différents logiciels de travail sur les corpus. Sur les 57 réponses au questionnaire envoyé et mis sur le blog du laboratoire Printemps, la plupart proviennent de sociologues et de politistes.
Alceste et Lexico sont les logiciels les plus utilisés. La plupart du temps, les chercheurs ne se contentent pas d’un seul logiciel, mais combinent différentes approches lexicométriques. De même, ils combinent les différentes fonctionnalités proposées par les logiciels.
Corpus écrits et corpus oraux retranscrits se partagent également. La plupart des répondants travaillent sur un seul type de corpus, mais ceux qui travaillent sur 2 à 3 types sont également nombreux. S’agissant des types de recherche, l’ « exploration des données » et l’ « aide à la formulation d’hypothèses » ou l’« identification de problèmes » (70 pour cent des résultats) renvoient au rôle heuristique et exploratoire de ces logiciels. Les tendances remarquées plus haut à des usages multiples (de logiciels, de fonctionnalités, de corpus) se confirment ici sur les usages de recherche des logiciels. S’agissant de formation à ces logiciels, près des 60 pour cent répondants ont bénéficié d’une formation formelle, moins de 32 pour cent d’une formation informelle, moins de 10 pour cent pas de formation. Les thématiques de recherche sont bien entendu variées, avec un certain nombre concernant les discours politiques et médiatiques. Les objets de recherche pour lesquels on a recours à la lexicométrie peuvent être regroupés en : corpus, objets, méthodes-concepts. Les arguments de recours à la lexicométrie sont principalement les suivants : vérifier et objectiver, méthode et rigueur, taille du corpus et quantité de données, intérêt, rôle des collègues et enseignants et formation, objets et disciplines, exploration, pistes de recherche.
L’intérêt de la lexicométrie est de plusieurs ordres : heuristique, aide à la formulation d’hypothèses, de catégories, méthodologie, rapidité, efficacité, précision, neutralité, objectivation, visualisation, taille et quantité (les « gros corpus »), calcul, exploration, vue d’ensemble. Les limites des logiciels sont : les insuffisances de la formation, les difficultés d’utilisation, les rapports entre l’outil et l’analyse, les rapports entre l’outil et les faits, les rapports entre l’outil et les interprétations, la préparation des données, les contraintes, insuffisances et opacités techniques. De nombreuses réponses pointent l’illusion scientiste et l’illusion que les analyses par logiciels épargnent l’analyse propre du chercheur.
En revenant sur cinq ans de fonctionnement du Réseau ARCATI (Atelier-Réseau Coopératif pour Analyses Textuelles Informatisées) animé par Jacques Jenny jusqu’en 2006,
Les applications connues dans la littérature impliquent plusieurs disciplines : psychologie, sociologie, linguistique, statistique, études de communication et extraction automatique d’informations. Les textes analysés sont eux-aussi très variables : il y a les documents textuels produits avec des outils spécifiques de recherche tels que des interviews, des focus groups ou des questions ouvertes, et des textes pas nécessairement conçus à des fins de recherche, mais qui constituent une source précieuse d’informations (journaux, discours politiques, témoignages ou d’autres documents sur les sites Web, etc.). La question de savoir comment procéder à une analyse en utilisant une base de données textuelles est en effet multidisciplinaire mais difficile à placer dans les domaines de recherche tels qu’ils sont structurés en Italie. Cet emplacement incertain (entre la statistique et les domaines thématiques définis par des applications spécifiques) a jusqu’ici été un obstacle à la création d’un groupe académique bien défini. En revanche, il est possible de parler d’écoles ou de groupes de chercheurs, dirigés par une passion pour l’analyse des textes, essayant d’utiliser le plus souvent possible l’analyse textuelle dans leur propre activité de recherche (Della Ratta-Rinaldi, 2004).
Le développement de l’analyse automatisée des textes est également entravé par le conflit de longue date entre les méthodes de recherche qualitative ou quantitative (Cipolla et De Lillo, 1996). Bien que l’analyse des textes provienne d’un intérêt pour la recherche d’informations à partir de sources non structurées (qu’il s’agisse d’entretiens libres, des questions ouvertes, des articles de journaux ou de messages sur les médias sociaux), certains chercheurs privilégient l’approche statistique et lexicométrique et d’autres préfèrent utiliser des CAQDAS. Improprement considérées comme opposées l’une à l’autre, ces deux approches se distinguent surtout par le type d’unité d’analyse et par la taille des textes à analyser. Tandis que dans les études de lexicométrie, l’unité d’analyse est le mot ou la forme graphique, dont sont analysées les occurrences et les associations avec d’autres mots dans le texte, dans l’approche plus « herméneutique » de ceux qui utilisent les CAQDAS, on préférera l’interprétation et l’attribution d’étiquettes sémantiques à des parties définies de texte, dont on analysera les relations. On peut aussi parler d’un troisième approche, plus proche de l’analyse lexicométrique et particulièrement répandue dans les études de type psychologique parmi les chercheurs qui utilisent le logiciel Alceste, avec le but de classer les différents fragments de texte pour identifier les « mondes lexicaux » qui caractérisent une collection de corpus (Carli et Paniccia, 2002). Enfin, au cours des dernières années, ont émergé des méthodes d’analyse textuelle visant à l’extraction des informations de texte avec des techniques de Text Mining (Bolasco, 2005 ; Bolasco et al., 2007 ; Della Ratta-Rinaldi, 2010).
Une étude menée en 2004 par les chercheurs en sciences sociales les plus actifs dans le domaine a permis une première description des pratiques de recherche répandues en Italie et toujours actuelles (Della Ratta-Rinaldi, 2004). L’exploration des contributions au cours des deux dernières éditions de JADT (Iezzi, 2010) et l’analyse des apports les plus récents de la littérature mettent en évidence les dernières tendances dans le domaine de l’analyse des textes parmi les chercheurs italiens.
Les pratiques de constitution de corpus
Découpage, structure et représentativité des corpus
La constitution d’un corpus de données, de textes, est une préoccupation et un enjeu central tant en analyse de discours qu’en sociologie. Il en va en effet de la construction d’une donnée sur laquelle porteront les analyses, puis les interprétations. Dans quelle mesure ce corpus rassemblé est-il un représentant raisonnablement fidèle d’une réalité à observer ?
La présentation de
La constitution du corpus au cœur de la qualité de la démarche d’enquête
Dans les analyses textuelles automatisées, la constitution d’un corpus est une opération complexe qui engage une délimitation mutuelle progressive de la problématique et du matériel d’enquête. Plusieurs communications du colloque rendent compte de la complexité et des difficultés de cette démarche faite de va et vient, de choix, mais aussi de limitations liées à l’accès aux données et à leur organisation ou au choix des logiciels. La constitution du corpus est une modalité de passage de l’objet « social » à l’objet de recherche. Elle scelle la qualité de construction de la démarche scientifique.
Quels outils de constitution et quels outils d’analyse de corpus ?
Les outils sont profondément impliqués dans les pratiques de constitution de corpus. Certains d’entre eux automatisent plus ou moins largement la recherche des données textuelles, ce qui permet de rassembler de larges corpus avec plus de facilité. D’autres, par les codages ou les extractions automatisées qu’ils proposent, recomposent ou complexifient largement les données en en faisant surgir des dimensions nouvelles (temps de la parole et débit moyen des interlocuteurs, détection dans un corpus des acteurs et de leur influence, mouvements successifs d’écriture d’un texte, etc.), qui ne demandent qu’à être analysées.
L’Extraction automatisée de documents sur Internet et la constitution de larges corpus textuels est la méthode que
L’étude de cas sur la protection des données personnelles dans les médias proposée par
Textométrie : entre outil de débroussaillage et facilitateur d’analyse ? Telle est l’interrogation de
Corpus, stratégies d’enquête et croisement des méthodes
Il s’agit également de réfléchir au couplage corpus/méthode dans la mesure où chaque stratégie de recherche doit opérer un réglage conjoint de ces deux dimensions. La méthode adoptée guide en effet le choix des matériaux analysés. Lorsqu’une stratégie de recherche implique la mise en œuvre de plusieurs méthodes sur le même corpus, celui-ci est souvent spécifié en sous-corpus différenciés. La question se pose alors de la pertinence de la comparaison entre des couplages sous-corpus/méthodes hétérogènes. Et in fine de la qualité heuristique de ces croisements.
Les pratiques d’interprétation
Si la question des corpus langagiers, leur constitution, leur validité, leur représentativité et significativité est relativement bien analysée et documentée en sociologie, la question de l’interprétation des résultats de l’analyse lexicométrique est souvent le « trou noir » de la recherche. Il y a plusieurs raisons à cela.
Tout d’abord on peut constater que l’activité interprétative du chercheur est diffuse et s’effectue à tous les moments et étapes de la recherche : dans la constitution du corpus, le choix des textes, et l’élaboration des faits à analyser bien sûr, mais aussi dans la transcription des matériaux oraux, dans leur mise en forme, dans le choix des logiciels et de leurs fonctionnalités, des catégories descriptives et analytiques, des variables d’analyse et, finalement de la mise en perspective sociologique des résultats.
Mais la raison tient peut-être plus encore dans le fait que l’activité interprétative est consubstantielle à la compréhension des faits, qu’elle est en quelque sorte « naturellement » mise en œuvre, et que souvent le chercheur doit faire un effort sur lui-même pour ne pas interpréter trop vite. De plus, les moments où il interprète échappent souvent à sa conscience immédiate. De même qu’en analyse de discours, il y a une mise à distance nécessaire des discours et de leur compréhension (« faire l’imbécile » disait Pêcheux), de même il y a une mise à distance nécessaire de l’interprétation, mais mal étudiée et difficile à dérouler…
L’interprétation comme pratique de découpage, d’annotation et de catégorisation des données
Comment penser et analyser la part interprétative qui est nécessairement impliquée par les automatismes de traitement dès lors qu’on ne les subsume pas uniquement sous une idée d’objectivité des procédures ? Deux communications abordent cette question en répertoriant les différentes opérations introduites par le travail lexicométrique sur les données textuelles et en montrant que ces opérations impliquent des interprétations continues de la part du chercheur. Interprétations qui tiennent tant du niveau local que du niveau global. L’annotation ou la catégorisation par exemple sont des « actes de recherche » qui, pour être microscopiques, impliquent néanmoins des choix classificatoires et des décisions de type herméneutique.
Divers logiciels proposent des catégorisations automatiques (lemmatique, grammaticale, sémantique) alors que d’autres (Caqdas) offrent des fonctionnalités de catégorisation en contexte. Les auteurs retiennent l’exemple d’un logiciel à orientation lexicométrique qui offre la double possibilité de catégoriser en ou hors contexte (SATO), pour montrer en quoi les deux formes de catégorisation posent problème. L’acte de catégoriser est a priori un acte interprétatif. Les systèmes de catégories peuvent avoir un caractère plus ou moins factuel ou référentiel mais, dans les deux cas, ils réfèrent à un triple espace de décision : paradigmatique, théorique et contextuel (syntagmatique).
Décrivant quelques unes des unités d’analyse sur lesquelles se base le processus d’interprétation, l’auteur rappelle que la seule prise en compte du lexique augmente le réductionnisme et le manque d’exhaustivité dans les interprétations. Il pointe le fait que malgré les avancées techniques et technologiques, les LL sont bien plus des outils d’analyses clés en main que des outils de gestion de données d’analyses essentielles à l’interprétation. En attendant à moyen terme d’avoir un environnement plus intégré, il y a lieu de s’orienter vers des formats d’échange qui tiennent compte de ces annotations/traces ainsi que de l’architecture des différents LL.
L’interprétation du chercheur orientée par les opérations automatisées
En parlant d’orientation de l’interprétation par les opérations automatisées, nous référons à plusieurs dimensions qui sont développées dans les communications du colloque. D’abord le fait que la production de l’interprétation est d’une certaine façon « préconstruite » par les logiciels puisqu’elle se fait à partir des types d’opérations permises par le logiciel (voir le point précédent). Ensuite l’idée, précisément, que ces logiciels ne sont pas neutres, ils « embarquent » des théories implicites, par exemple des théories du langage. L’interprétation est vue alors pour certains comme la part résistante du chercheur aux diktats des algorithmes, car c’est le chercheur qui doit rester maître des inférences sociologiques produites sur la base des traitements lexicométriques. Enfin, en élargissant des logiciels aux méthodes d’analyse, il faut signaler le rôle décisif des modes « d’inscription » des données, dans le guidage des interprétations : les visualisations, schématisations, axes, tableaux d’extraction, cartographies, graphes… orientent incontestablement les formes de raisonnement et le calcul interprétatif.
Décrire des parcours interprétatifs
Plusieurs communications se sont centrées sur la description de parcours interprétatifs. L’outil y est vu comme un moyen de poser des questions au texte. Les auteurs montrent comment la statistique différentielle, les calculs de co-occurrences et l’analyse factorielle notamment, leur permettent de valider des hypothèses théoriques arrêtées au début de la recherche. Ils soulignent l’enjeu de contextualisation de ces résultats.
L’auteur s’arrête à l’enjeu de contextualisation qui est crucial dans le passage des données attestées en corpus à l’interprétation, des chiffres au sens. Cette contextualisation tend à se réaliser, au niveau global, par l’internalisation des ressources pour l’interprétation à travers l’élaboration de « macro-corpus réflexifs » comprenant à la fois les textes analysés et les textes mobilisés pour leur compréhension. Concrètement, l’étude des discours électoraux des candidates à la députation passe par l’établissement d’un corpus rassemblant outre les textes des candidates, un échantillon raisonné de professions de foi d’hommes rédigées à la même période. La statistique différentielle appliquée au corpus, incarnant une norme endogène de la parole électorale législative, permet d’éclairer dans une perspective réflexive les textes des candidates. À l’autre extrémité, au niveau local, la co-occurrence permet de dépasser l’approche occurrentielle parfois limitée pour traiter de paires de mots constitutives de la textualité et déjà porteuses de sens. L’interprétation, in fine toujours subjective et sujette à discussion, est néanmoins solidement fondée sur des parcours de lecture objectivés par la statistique.
Dans sa communication, l’auteur discute de la possibilité qu’a la lexicométrie d’extraire des mots et de les analyser de manière décontextualisée. Si les analystes de corpus politiques ont pour usage de resituer – au moment de l’acte interprétatif – les mots dans leur cadre textuel, il apparaît que le mot coupé de son contexte fait également sens de par sa polysémie, et l’étude de ces « virtualités sémantiques » présente en soi un grand intérêt. Ainsi le terme de Umma pour désigner la nation égyptienne fait sens du fait de l’ambiguïté de ce terme, qui peut également désigner la nation arabe ou la communauté des croyants. D’autre part, la critique interne à un même corpus revient à comparer entre eux les textes qui les composent. Or la mise en corpus constitue une détermination sémantique pour chacun des textes qui le composent, à tel point que Damon Mayaffre (2002) construit la notion de « corpus réflexif », suffisamment large pour constituer son propre contexte, et dont tous les éléments seraient interprétables sans recours à des éléments de sens extérieurs. Dans son enquête, Clément Steuer sépare formellement ces deux niveaux d’analyse en ne tenant pas compte du contexte dans l’interprétation des résultats des analyses factorielles des correspondances, et en réservant la prise en compte du contexte à la deuxième phase de l’analyse, portant sur la structure sémantique des programmes. Selon lui, ces deux niveaux d’analyse engagent à réfléchir sur les rapports entre critique interne et critique externe dans l’interprétation des résultats d’une enquête lexicométrique.
L’interprétation comme interpellation du chercheur par l’inattendu, le non-dit des textes ou par les scories de l’analyse automatisée
Soucieux de restituer la traçabilité de leurs raisonnements, certains chercheurs ont tenu à donner à voir leur cheminement interprétatif. On découvre des parcours heuristiques qui butent sur des résultats inattendus et s’attachent à les éclairer par des analyses complémentaires fructueuses. La mise en comparaison de sous-corpus permise par certains logiciels joue ici un rôle non négligeable dans la mise en évidence de propriétés insoupçonnées qui encouragent à de nouvelles investigations. L’enquête se fait donc aussi « aux marges de l’analyse ».
Pour expliciter ces cheminements et restituer la traçabilité du raisonnement, ils s’appuient sur trois recherches : l’une, issue de l’analyse d’un corpus de résumés sociologiques (Trabal, 2005) permet de souligner comment une intuition a été mise à l’épreuve et comment une scorie a pu donner naissance à une piste de recherches ; une autre, extraite d’une analyse de fils de discussion sur un forum, revient à raconter comment des recherches de quantification ont pu modifier les interprétations et faire émerger des dimensions souvent négligées ; une autre enfin sur les aspects économiques et juridiques des transferts dans le football invite à penser l’interprétation du non-dit.
En utilisant successivement Lexico et Alceste,
L’interprétation au croisement des méthodes d’analyse lexicométrique avec des méthodes qualitatives plus classiques en sociologie
Enfin, si la plupart des auteurs du colloque montrent la qualité heuristique des démarches appuyées sur l’analyse lexicométrique, certains d’entre eux ne sont pas sans plaider pour une nécessaire complémentarité entre cette dernière et les approches qualitatives plus classiques en sociologie. Leurs communications donnent alors à voir des exemples de construction d’enquête intégrant différentes méthodes aux niveaux successifs de la démarche d’analyse et interrogent la fécondité de tels croisements.
Conclusion
Il est difficile de conclure cette présentation, sans doute à l’image des deux journées d’études, riches d’expériences et de pratiques d’analyse textuelles innovantes. On peut néanmoins faire les observations suivantes. Des réflexions plus en surplomb sur le champ de recherche, son histoire, ses évolutions, ses acteurs et ses méthodes ont fait le pendant à des descriptions de pratiques locales questionnant des usages circonscrits à des objets et problématiques définis. La problématique des outils a traversé aussi bien la question de la constitution des corpus que celle de l’interprétation, et les déterminismes qu’ils impliquent ont été largement questionnés et relativisés. La notion de corpus elle-même a été repensée au regard des multiples façons de les composer, contraster, rassembler, comparer. Au delà de la question de sa représentativité, le corpus scelle la qualité de la démarche de recherche, par l’articulation qu’il permet entre pensée sociologique et matériaux langagiers. Enfin l’interprétation est apparue comme l’élément central qui traversait toute démarche d’enquête impliquant des analyses automatisées : loin de se limiter à la phase finale d’interprétation des résultats, elle irrigue l’ensemble des opérations de traitement, lesquelles demandent à être « dénaturalisées » car elles comportent toujours des formes d’interprétation locale.
Les pratiques d’utilisation des outils lexicométriques témoignent donc de bien autre chose que d’une soumission aux algorithmes de la machine. La recherche outillée par l’analyse textuelle prend la forme d’un dialogue homme/machine à visée de production scientifique, dans lequel les logiciels imposent des cadrages d’analyse des données (par exemple lemmatisation ou non), des raisonnements (essentiellement liés à la statistique textuelle), des mises en formes et des visualisations des résultats (diagramme, matrices, projection sur des axes, nuages de points, etc.), mais où la « résistance » analytique et réflexive du chercheur est cruciale pour piloter la mise en sens, l’interprétation et la ré-investigation des données. Décrire ces parcours interprétatifs et les nombreuses questions qu’ils soulèvent importe plus que jamais, dès lors que l’on soutient l’idée que ces logiciels, en tant qu’actants de la recherche, induisent de nouvelles heuristiques et de nouvelles formes de légitimation des résultats scientifiques.
