Analyse comparative d'indices d'implication discriminants fond´es sur une échelle de probabilité

Israël-César Lerman 1, * Sylvie Guillaume 2
* Corresponding author
1 SYMBIOSE - Biological systems and models, bioinformatics and sequences
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : Historiquement, l'élaboration d'une échelle de probabilité pour éprouver l'existence d'un lien entre deux attributs descriptifs a été établie dans l'optique des tests d'hypothèses statistiques. L'adaptation au problème de la comparaison mutuelle entre plusieurs attributs nécessite une normalisation préalable ; laquelle est indispensable pour que l'échelle de probabilité reste discriminante pour un nombre n d'observations augmentant de façon considérable (n pouvant atteindre plusieurs millions). C'est le cas de l'association symétrique traduisant un “degré d'équivalence” entre attributs qui s'est présenté en premier. Plus récemment, il s'est agi du cas de l'association dissymétrique traduisant un “degré d'implication” entre attributs, définissant ainsi ce qu'on appelle une “règle d'association”. Ce dernier cas sera étudié de façon plus accentuée ici. Différentes techniques de normalisation ont été proposées. La première est contextuelle par rapport à un ensemble potentiel de règles d'association. Elle conduit à l'Intensité d'Implication Contextuelle (IIC). La seconde raisonne par rapport à un échantillon dont la taille serait réduite à 100 et propose une Valeur Test notée VT100. Nous découvrirons différentes variantes pour une telle réduction. La troisième technique, conduisant à l'Intensité d'Implication Entropique (IIE), mélange un indice probabiliste non normalisé et un indice d'inclusion faisant appel à l'entropie de Shannon. L'objet de ce travail est l'analyse théorique et expérimentale de ces différentes approches par rapport à différents modèles de croisance du nombre n d'observations. Une vision nouvelle et des résultats originaux seront proposés. L'analyse comparative et expérimentale utilisera la base de données bien connues “Wages”.
Complete list of metadatas

https://hal.inria.fr/inria-00451952
Contributor : Anne Jaigu <>
Submitted on : Thursday, February 4, 2010 - 1:06:33 PM
Last modification on : Wednesday, February 13, 2019 - 10:32:05 AM
Long-term archiving on : Wednesday, November 30, 2016 - 12:11:59 PM

File

RR-7187.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : inria-00451952, version 1

Citation

Israël-César Lerman, Sylvie Guillaume. Analyse comparative d'indices d'implication discriminants fond´es sur une échelle de probabilité. [Rapport de recherche] RR-7187, INRIA. 2010, pp.88. ⟨inria-00451952⟩

Share

Metrics

Record views

284

Files downloads

108