Analyse textuelle de manuscrits mayas et égyptiens : apports d'un codage par n-grammes, et de représentations multidimensionnelles graduées - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2024

Textual analysis of Mayan and Egyptian manuscripts: contributions of n-gram coding and graded multidimensional representations

Analyse textuelle de manuscrits mayas et égyptiens : apports d'un codage par n-grammes, et de représentations multidimensionnelles graduées

Résumé

Texts in logosyllabic scripts are generally written without separators between lexical units. For ancient logosyllabic writings, we propose to explore methods without prior tokenization, adapted to small corpora. We present here a comparative analysis of literary and religious texts, Egyptian tale of the Shipwrecked Sailor, and the only three available Mayan manuscripts, using their representation in n-grams of elementary signs, visualized through LaTeX with mayaTeX, and their processing by Correspondence Analysis and graded unsupervised classification (Axial K-Means and Non-negative Matrix Factorization). The statistical units are sentences and text sections: Egyptian rubrics and Mayan almanacs. We identify intra- and inter-text features, characteristic of the narrative structures in these literary corpora, such as parallelism and mise en abyme. The groupings identified on nuanced axes and their correspondences within original texts make it possible to clarify the meaning of certain poorly understood passages, by situating them in contexts easier to interpret.
Les textes en écritures logosyllabiques sont de façon générale écrits sans séparateurs entre les unités lexicales. Pour les écritures logosyllabiques anciennes, on se propose d’explorer des méthodes sans tokenisation préalable, adaptées à de petits corpus. Nous présentons ici une analyse comparative de textes littéraires et religieux, d’une part égyptien du Conte du naufragé, et d’autre part mayas des trois seuls manuscrits mayas disponibles, utilisant leur représentation en n-grammes de signes élémentaires, visualisés sous LaTeX avec mayaTeX, et leur traitement par Analyse Factorielle des Correspondances et classification non supervisée graduée (K-Moyennes Axiales et Non-negative Matrix Factorization). Les unités statistiques sont les phrases et les sections de texte : rubriques égyptiennes et almanachs mayas. Nous en dégageons des manifestations, intra- et inter-textes, caractéristiques des structures narratives dans ces corpus littéraires, comme le parallélisme et la mise en abîme. Les regroupements dégagés sur des axes nuancés et leur report dans le texte original permettent d’éclairer la signification de certains passages peu compris, en les resituant dans des contextes interprétables.
Fichier principal
Vignette du fichier
Lelu-et-al_JADT2024_V0.pdf (986.17 Ko) Télécharger le fichier
Lelu_et_al_JADT2024_Annexes_V0.zip (9.89 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
licence : CC BY NC - Paternité - Pas d'utilisation commerciale
licence : CC BY NC - Paternité - Pas d'utilisation commerciale

Dates et versions

hal-04523153 , version 1 (27-03-2024)

Licence

Paternité - Pas d'utilisation commerciale

Identifiants

  • HAL Id : hal-04523153 , version 1

Citer

Bruno Delprat, Martine Cadot, Alain Lelu. Analyse textuelle de manuscrits mayas et égyptiens : apports d'un codage par n-grammes, et de représentations multidimensionnelles graduées. JADT 2024 - 17es Journées internationales d'Analyse statistique des Données Textuelles, SeSLa (Séminaire des Sciences du Langage de l’UCLouvain – Site Saint-Louis), en collaboration avec le LASLA (Laboratoire d’Analyse statistique des Langues anciennes de l’Université de Liège), Jun 2024, Bruxelles, Belgique. ⟨hal-04523153⟩
16 Consultations
4 Téléchargements

Partager

Gmail Facebook X LinkedIn More