AI-based selection of imaging and biological markers predictive of therapy response in lung cancer

Paul Tourniaire

Résumé

The purpose of this thesis is to develop machine learning models that can leverage histology slides and clinical data to predict the outcome of immunotherapies against lung cancer. To this end, there are several challenges to overcome, such as the concurrent classification and localization of information within whole-slide images of large size, or the interpretability of the predictions made by the models. The thesis proposes several contributions to address such challenges.Chapter 2 introduces the concept of mixed supervision in histopathology. The purpose of this framework is to leverage several levels of supervision (i.e., global and local supervision) to make the model more efficient in both classification and localization tasks. Set on an attention-based deep learning model fit for global and local classification of tissue in whole-slide images, we show that it is possible to improve not only the model slide-level classification performance, but also and most importantly its ability to accurately locate regions of interest in the tissue, with only a few available local annotations.Chapter 3 extends the work presented in chapter 2, by consolidating the simultaneous classification and localization branches of the model with tailored loss functions that enforce attention distribution to follow the actual label distribution with respect to the available annotations. A slide sampling strategy is also proposed to strengthen the localization performance, and simplify the training procedure to have it fit in a single process.In Chapter 4, we present a multicentric lung cancer dataset dedicated to the prediction of immunotherapy response. We document the various steps followed to filter out low-quality samples, as well as undetermined outcomes, and we discuss the interpretation of what is a positive or a negative response with respect to the current gold standard clinical evaluations. Finally, we evaluate several models to directly predict the treatment response out of pathology slides, and discuss the caveats of the tested approaches.In Chapter 5, we switch from binary treatment response prediction to survival analysis, and use contrastive learning along with deep nonparametric clustering to generate a set of prognostic features in an unsupervised manner. We show that the obtained set of characteristics is a powerful indicator of survival, and that it maintains a good level of performance when picking one acquisition center as the test set. We also discuss the histological interpretation of the most prominent discovered clusters.To conclude, we address the remaining issues and challenges, and debate what future directions could be taken in order to tackle unanswered questions.

L'objectif de cette thèse est de développer des modèles d'apprentissage automatique capables d'exploiter des lames histologiques et des données cliniques pour prédire le résultat des traitements par immunothérapie contre le cancer du poumon. À cette fin, plusieurs défis doivent être relevés, tels que la classification et la localisation simultanées d'informations dans des images de lames entières de grande taille, ou l'interprétation des prédictions faites par les modèles. Dans ce qui suit, nous proposerons plusieurs contributions pour relever ces défis.Le chapitre 2 introduit le concept de supervision mélangée en histopathologie. L'objectif de cette méthode est de tirer parti de plusieurs niveaux de supervision (c'est-à-dire la supervision globale et locale) pour rendre le modèle plus efficace à la fois en classification et en localisation. Sur la base d'un modèle d'apprentissage profond basé sur l'attention et adapté à la classification globale et locale de tissu dans des coupes histologiques, nous montrons qu'il est possible d'améliorer non seulement les performances du modèle en matière de classification des lames, mais aussi et surtout sa capacité à localiser avec précision les régions d'intérêt dans le tissu disponible, lorsque seules quelques annotations disponibles.Le chapitre 3 étend le travail présenté dans le chapitre 2, en consolidant les branches de classification et de localisation simultanées du modèle avec des fonctions de coût adaptées qui contraignent la distribution de l'attention à suivre la distribution réelle des labels d'après les annotations disponibles. Une stratégie d'échantillonnage des images est également proposée pour renforcer les performances de localisation et simplifier la procédure d'apprentissage afin qu'elle s'inscrive dans un processus unique.Dans le chapitre 4, nous présentons un ensemble de données multicentriques sur le cancer du poumon dédié à la prédiction de la réponse à l'immunothérapie. Nous documentons les différentes étapes suivies pour éliminer les échantillons de faible qualité, ainsi que les cas indéterminés, et nous discutons de la définition de ce qu'est une réponse positive ou négative par rapport aux évaluations cliniques actuelles de référence. Enfin, nous évaluons plusieurs modèles permettant de prédire directement la réponse au traitement à partir de lames histologiques et discutons des écueils des approches envisagées.Dans le chapitre 5, nous passons de la prédiction binaire de la réponse au traitement à la prédiction de survie, et nous utilisons l'apprentissage par contraste ainsi que le regroupement non paramétrique profond pour générer un ensemble de caractéristiques pronostiques de manière non supervisée. Nous montrons que l'ensemble des caractéristiques obtenu est un puissant indicateur de survie et qu'il conserve un bon niveau de performance lorsque l'on choisit un seul centre comme ensemble de test. Nous discutons également de l'interprétation histologique faite du résultat de l'algorithme de regroupement, en particulier pour les groupes les plus corrélés à la survie.Pour conclure, nous abordons les questions et les défis en suspens, et nous discutons des orientations futures qui pourraient être prises afin de répondre aux questions restées sans réponse.

AI-based selection of imaging and biological markers predictive of therapy response in lung cancer

Sélection de biomarqueurs basée sur l'IA pour prédire la réponse au traitement du cancer du poumon

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager