Radioactive Data: Tracing Through Training

Alexandre Sablayrolles; Matthijs Douze; Cordelia Schmid; Hervé Jégou

Communication Dans Un Congrès Année : 2020

Radioactive Data: Tracing Through Training

(1) , (1) , (2, 3) , (1)

1
2
3

Alexandre Sablayrolles

Fonction : Auteur

Facebook AI Research [Paris]

Matthijs Douze

Fonction : Auteur

Facebook AI Research [Paris]

Cordelia Schmid

Fonction : Auteur

Apprentissage de modèles à partir de données massives

Models of visual object recognition and scene understanding

Hervé Jégou

Fonction : Auteur

Facebook AI Research [Paris]

Résumé

Data tracing determines whether particular data samples have been used to train a model. We propose a new technique, radioactive data, that makes imperceptible changes to these samples such that any model trained on them will bear an identifiable mark. Given a trained model, our technique detects the use of radioactive data and provides a level of confidence (p-value). Experiments on large-scale benchmarks (Imagenet), with standard architectures (Resnet-18, VGG-16, Densenet-121) and training procedures, show that we detect radioactive data with high confidence (p <0.0001) when only 1% of the data used to train a model is radioactive. Our radioactive mark is resilient to strong data augmentations and variations of the model architecture. As a result, it offers a much higher signal-to-noise ratio than data poisoning and backdoor methods.

Domaines

Vision par ordinateur et reconnaissance de formes [cs.CV] Apprentissage [cs.LG] Cryptographie et sécurité [cs.CR] Machine Learning [stat.ML]

Fichier principal

Radioactive_data.pdf (4.05 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Alexandre Sablayrolles : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-02954159

Soumis le : mercredi 30 septembre 2020-18:59:01

Dernière modification le : vendredi 26 avril 2024-13:43:43

Archivage à long terme le : lundi 4 janvier 2021-08:44:01

Dates et versions

hal-02954159 , version 1 (30-09-2020)

Identifiants

HAL Id : hal-02954159 , version 1

Citer

Alexandre Sablayrolles, Matthijs Douze, Cordelia Schmid, Hervé Jégou. Radioactive Data: Tracing Through Training. ICML 2020 - Thirty-seventh International Conference on Machine Learning, Jul 2020, Vienna / Virtual, Austria. pp.8326-8335. ⟨hal-02954159⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-PARIS UGA CNRS INRIA INSMI LJK LJK_GI INRIA2 LJK-GI-THOTH PSL ANR PRAIRIE-IA

175 Consultations

237 Téléchargements

Radioactive Data: Tracing Through Training

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager