Analyse textuelle de manuscrits mayas et égyptiens : apports d'un codage par n-grammes, et de représentations multidimensionnelles graduées

Bruno Delprat; Martine Cadot; Alain Lelu

Communication Dans Un Congrès Année : 2024

Textual analysis of Mayan and Egyptian manuscripts: contributions of n-gram coding and graded multidimensional representations

Analyse textuelle de manuscrits mayas et égyptiens : apports d'un codage par n-grammes, et de représentations multidimensionnelles graduées

(1) , (2) , (3)

1
2
3

Bruno Delprat

Fonction : Auteur

Université Grenoble Alpes - UFR de Langues étrangères (LLCE et LEA)

Martine Cadot

Fonction : Auteur
PersonId : 9342
IdHAL : martine-cadot
IdRef : 113870906

Speech Modeling for Facilitating Oral-Based Communication

Alain Lelu

Fonction : Auteur correspondant
PersonId : 1271895
IdHAL : alain-lelu

Connectez-vous pour contacter l'auteur

Université de Franche-Comté

Résumé

Texts in logosyllabic scripts are generally written without separators between lexical units. For ancient logosyllabic writings, we propose to explore methods without prior tokenization, adapted to small corpora. We present here a comparative analysis of literary and religious texts, Egyptian tale of the Shipwrecked Sailor, and the only three available Mayan manuscripts, using their representation in n-grams of elementary signs, visualized through LaTeX with mayaTeX, and their processing by Correspondence Analysis and graded unsupervised classification (Axial K-Means and Non-negative Matrix Factorization). The statistical units are sentences and text sections: Egyptian rubrics and Mayan almanacs. We identify intra- and inter-text features, characteristic of the narrative structures in these literary corpora, such as parallelism and mise en abyme. The groupings identified on nuanced axes and their correspondences within original texts make it possible to clarify the meaning of certain poorly understood passages, by situating them in contexts easier to interpret.

Les textes en écritures logosyllabiques sont de façon générale écrits sans séparateurs entre les unités lexicales. Pour les écritures logosyllabiques anciennes, on se propose d’explorer des méthodes sans tokenisation préalable, adaptées à de petits corpus. Nous présentons ici une analyse comparative de textes littéraires et religieux, d’une part égyptien du Conte du naufragé, et d’autre part mayas des trois seuls manuscrits mayas disponibles, utilisant leur représentation en n-grammes de signes élémentaires, visualisés sous LaTeX avec mayaTeX, et leur traitement par Analyse Factorielle des Correspondances et classification non supervisée graduée (K-Moyennes Axiales et Non-negative Matrix Factorization). Les unités statistiques sont les phrases et les sections de texte : rubriques égyptiennes et almanachs mayas. Nous en dégageons des manifestations, intra- et inter-textes, caractéristiques des structures narratives dans ces corpus littéraires, comme le parallélisme et la mise en abîme. Les regroupements dégagés sur des axes nuancés et leur report dans le texte original permettent d’éclairer la signification de certains passages peu compris, en les resituant dans des contextes interprétables.

Mots clés

Tournebool algorithm logosyllabic scripts Maya Egyptian n-grams correspondence analysis CA axial k-means KMA non-negative matrix factorization NMF intrinsic dimension Monte-Carlo simulations N-grams

écritures logosyllabiques Maya Egyptien n-grammes analyse factorielle des correspondances AFC k-moyennes axiales KMA non-negative matrix factorization NMF dimension intrinsèque simulations de Monte-Carlo algorithme TourneBool

Domaines

Sciences de l'Homme et Société Statistiques [stat]

Fichier principal

Lelu-et-al_JADT2024_V0.pdf (986.17 Ko)

Lelu_et_al_JADT2024_Annexes_V0.zip (9.89 Ko)

Origine : Fichiers produits par l'(les) auteur(s)
licence : CC BY NC - Paternité - Pas d'utilisation commerciale

licence : CC BY NC - Paternité - Pas d'utilisation commerciale

Alain Lelu : Connectez-vous pour contacter le contributeur

https://hal.science/hal-04523153

Soumis le : mercredi 27 mars 2024-19:03:37

Dernière modification le : lundi 15 avril 2024-03:12:15

Dates et versions

hal-04523153 , version 1 (27-03-2024)

Licence

Paternité - Pas d'utilisation commerciale

Identifiants

HAL Id : hal-04523153 , version 1

Citer

Bruno Delprat, Martine Cadot, Alain Lelu. Analyse textuelle de manuscrits mayas et égyptiens : apports d'un codage par n-grammes, et de représentations multidimensionnelles graduées. JADT 2024 - 17es Journées internationales d'Analyse statistique des Données Textuelles, SeSLa (Séminaire des Sciences du Langage de l’UCLouvain – Site Saint-Louis), en collaboration avec le LASLA (Laboratoire d’Analyse statistique des Langues anciennes de l’Université de Liège), Jun 2024, Bruxelles, Belgique. ⟨hal-04523153⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS INRIA UNIV-FCOMTE UNIV-LORRAINE INRIA2 LORIA LORIA-NLPKD

16 Consultations

4 Téléchargements

Textual analysis of Mayan and Egyptian manuscripts: contributions of n-gram coding and graded multidimensional representations

Analyse textuelle de manuscrits mayas et égyptiens : apports d'un codage par n-grammes, et de représentations multidimensionnelles graduées

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager