Mining Documents and Sentiments in Cross-lingual Context

Motaz Saad

Thèse Année : 2015

Mining Documents and Sentiments in Cross-lingual Context

Fouille de documents et d’opinions multilingue

(1)

Motaz Saad

Fonction : Auteur
PersonId : 964011

Statistical Machine Translation and Speech Modelization and Text

Résumé

The aim of this thesis is to study sentiments in comparable documents. First, we collect English, French and Arabic comparable corpora from Wikipedia and Euronews, and we align each corpus at the document level. We further gather English-Arabic news documents from local and foreign news agencies. The English documents are collected from BBC website and the Arabic document are collected from Al-jazeera website. Second, we present a cross-lingual document similarity measure to automatically retrieve and align comparable documents. Then, we propose a cross-lingual sentiment annotation method to label source and target documents with sentiments. Finally, we use statistical measures to compare the agreement of sentiments in the source and the target pair of the comparable documents. The methods presented in this thesis are language independent and they can be applied on any language pair.

L'objectif de cette thèse est d'étudier les sentiments dans les documents comparables. Premièr\-ement, nous avons recueillis des corpus comparables en anglais, français et arabe de Wikipédia et d’Euronews, et nous avons aligné ces corpus au niveau document. Nous avons en plus collecté des documents d’informations des agences de presse locales et étrangères dans les langues anglaise et arabe. Les documents en anglais ont été recueillis du site de la BBC, ceux en arabe du site d’Al-Jazzera. Deuxièmement, nous avons présenté une mesure de similarité coss-linguistique des documents dans le but de récupérer et aligner automatiquement les documents comparables. Ensuite, nous avons proposé une méthode d’annotation cross-linguistique en termes de sentiments, afin d’étiqueter les documents source et cible avec des sentiments. Enfin, nous avons utilisé des mesures statistiques pour comparer l'accord des sentiments entre les documents comparables source et cible. Les méthodes présentées dans cette thèse ne dépendent pas d’une paire de langue bien déterminée, elles peuvent être appliquées sur toute autre couple de langue.

Mots clés

text mining natural language processing comparable corpus cross-lingual information retrieval cross-lingual projection sentiment analysis

Fouille de textes traitement automatique du langage naturel corpus comparable recherche d’information inter-langues projection inter-langues analyse des sentiments

Domaines

Traitement du texte et du document

Fichier principal

saad_phd.pdf (840.77 Ko)

Motaz Saad : Connectez-vous pour contacter le contributeur

https://inria.hal.science/tel-01751251

Soumis le : dimanche 15 février 2015-17:17:42

Dernière modification le : lundi 11 septembre 2023-17:41:19

Archivage à long terme le : jeudi 28 mai 2015-15:10:49

Dates et versions

tel-01751251 , version 2 (15-02-2015)

tel-01751251 , version 1 (29-03-2018)

Identifiants

HAL Id : tel-01751251 , version 2

Citer

Motaz Saad. Mining Documents and Sentiments in Cross-lingual Context. Document and Text Processing. Université de Lorraine, 2015. English. ⟨NNT : 2015LORR0003⟩. ⟨tel-01751251v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE LORIA LORIA-NLPKD THESES-UL

478 Consultations

618 Téléchargements

Mining Documents and Sentiments in Cross-lingual Context

Fouille de documents et d’opinions multilingue

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager