Les langues humaines avec une densité d'information plus grande ont une vitesse de communication plus élevée mais une largeur de conversation plus faible

Les langues à haute densité d’information ont une vitesse de communication plus rapide mais une portée de conversation plus étroite

Variabilité de la densité et de l’étendue de l’information dans les langues humaines

Introduction

Il existe de grandes différences dans la manière dont les langues humaines encodent l’information. Ces différences ont été largement étudiées dans certains domaines sémantiques limités (comme le temps, l’espace, les couleurs, les parties et activités du corps humain, etc.). Cependant, il n’y a pas encore eu d’étude approfondie sur les structures d’information sémantique à l’échelle mondiale et leur relation avec la communication humaine. Les auteurs proposent d’abord, à travers un échantillon d’environ 1000 langues, que la densité d’information dans les langues présente des différences significatives. Ensuite, ils examinent comment les langues à haute densité d’information configurent l’information sémantique de manière plus dense. Enfin, ils analysent la relation entre la densité d’information linguistique et les modes de communication, découvrant que les langues à haute densité d’information tendent à permettre une communication plus rapide mais avec une portée conceptuelle de conversation plus étroite.

Source de l’article

Cet article a été rédigé par Pedro Aceves et James A. Evans, publié dans le numéro d’avril 2024 de « Nature Human Behaviour ». Pedro Aceves appartient au département de management et d’organisation de la Carey Business School de l’Université Johns Hopkins, et James A. Evans est professeur au département de sociologie de l’Université de Chicago et au Knowledge Lab, ainsi que chercheur à l’Institut Santa Fe.

Processus de la recherche

1. Mesure de la densité d’encodage de l’information

L’étude a utilisé 18 corpus de traductions parallèles diversifiés, couvrant environ 998 langues représentées dans 101 familles linguistiques. En utilisant un algorithme de codage Huffman, chaque langue dans une traduction donnée a été convertie en code binaire le plus efficace possible et le nombre de bits de chaque document a été calculé. Les chercheurs ont ainsi généré une mesure standardisée de la densité d’information linguistique pour comparer toutes les langues des corpus.

2. Mesure de la densité sémantique

Ensuite, l’étude a calculé la densité sémantique de chaque langue basée sur des modèles de plongement lexical. Ces modèles entraînent un espace vectoriel de haute dimension à partir des fréquences de co-occurrence des mots dans le texte, où les mots ayant des similitudes grammaticales et sémantiques sont généralement proches dans l’espace. Les auteurs ont découvert que les langues à haute densité d’information tendent également à avoir une densité sémantique élevée, c’est-à-dire que les mots sont plus polysemous et que les concepts sont plus associés entre eux.

3. Mesure de la vitesse de communication

Pour vérifier si les langues à haute densité d’information peuvent effectivement transmettre des informations plus rapidement, les chercheurs ont utilisé la durée des fichiers audio de la Bible couvrant 265 langues comme objet de test. Les résultats montrent que les langues à haute densité d’information nécessitent effectivement moins de temps pour transmettre la même information, ce qui est conforme aux prévisions de la théorie de l’information.

4. Mesure de l’étendue sémantique des conversations réelles

Les chercheurs ont analysé plus de 6000 conversations naturelles en 14 langues différentes. Ils ont utilisé des modèles de plongement lexical pour calculer l’étendue conceptuelle des conversations, à savoir la portée des espaces sémantiques couverts. Les résultats montrent que les langues à haute densité d’information tendent à couvrir une gamme conceptuelle plus étroite dans les conversations réelles, mais avec une plus grande profondeur de discussion. Cela signifie que dans ces langues, les participants sont plus susceptibles de se concentrer sur un sujet spécifique, explorant celui-ci sous plusieurs angles.

5. Mesure de l’étendue sémantique de la production de connaissance collective

Enfin, les chercheurs ont analysé plus de 95000 articles écrits dans différentes langues sur Wikipedia pour étudier l’étendue conceptuelle de la production de connaissance collective. De manière similaire, ils ont trouvé que les articles rédigés dans des langues à haute densité d’information avaient également une concentration conceptuelle plus élevée, confirmant que la communication collective dans ces langues tend à explorer profondément un espace conceptuel plus réduit.

Résultats de la recherche

Cette étude, grâce à des techniques computationnelles et d’intelligence artificielle à grande échelle, démontre des différences significatives dans la densité d’information des langues et révèle la relation importante entre cette densité, la densité sémantique et les modes de communication humaine. Les résultats montrent que les langues à haute densité d’information peuvent transmettre des informations plus rapidement et que la portée conceptuelle des conversations et de la production de connaissances est plus étroite mais la discussion est plus profonde. Ces découvertes mettent en lumière l’impact majeur de la structure linguistique sur les interactions humaines et les comportements sociaux.

Importance de la recherche

Cette étude approfondit non seulement notre compréhension des différences dans les modes d’encodage linguistique, mais révèle également comment la structure linguistique influence la vitesse de communication et l’étendue des contenus de communication. Elle étend le concept de relativité linguistique au-delà du cadre cognitif pur, vers les domaines de la communication, de l’interaction, de la collaboration et du comportement collectif. Cela ouvre de nouvelles perspectives pour les recherches futures sur comment la densité d’information linguistique joue un rôle dans les interactions sociales et la performance collective.

Points forts de la recherche

  • Différences significatives de densité d’information : L’étude documente de vastes différences dans la densité d’information entre les langues du monde entier.
  • Fréquence d’utilisation et polysémie : Les langues à haute densité d’information présentent une fréquence d’utilisation élevée et une polysémie dans divers contextes.
  • Communication rapide : Les langues à haute densité d’information permettent de transmettre des informations plus rapidement dans une bande passante fixe.
  • Discussion approfondie : Les langues à haute densité d’information tendent à des discussions plus étroites mais plus profondes dans les conversations et la production de connaissances.

À travers ces étapes de recherche, les auteurs offrent une nouvelle perspective pour comprendre comment les langues influencent nos interactions quotidiennes et la structure sociale. Cette recherche jette les bases pour les études futures, nous incitant à explorer les effets plus larges de la densité d’information linguistique sur les interactions sociales et la performance collective.