C. C. Aggarwal and J. Han, Frequent pattern mining, 2014.

T. M. Cover and J. A. Thomas, Elements of information theory, 2012.

R. L. De-mántaras, A distance-based attribute selection measure for decision tree induction, Machine learning, vol.6, issue.1, pp.81-92, 1991.

A. Gallo, T. D. Bie, and E. N. Cristianini, Mini : Mining informative non-redundant itemsets, PKDD, pp.438-445, 2007.

B. Ganter and . Et-r.-wille, Formal concept analysis : Logical foundations, 1999.

P. D. Grünwald, The minimum description length principle, 2007.

T. Hastie, R. Tibshirani, and J. Friedman, The elements of statistical learning ; data mining, 2002.

H. Heikinheimo, A. Siebes, J. Vreeken, and H. Mannila, Low-entropy set selection, Proceedings of SIAM, pp.569-580, 2009.

S. O. Kuznetsov and T. Makhalova, On interestingness measures of formal concepts, Information Sciences, pp.202-219, 2018.

M. Mampaey, J. Vreeken, and N. Tatti, Summarizing data succinctly with the most informative itemsets, TKDD, vol.6, issue.4, p.16, 2012.

A. Rosenberg and J. Hirschberg, V-measure : A conditional entropy-based external cluster evaluation measure, Proceedings of EMNLP-CoNLL, 2007.

A. Siebes and . Et-r.-kersten, A structure function for transaction data, Proceedings of SDM, pp.558-569, 2011.

K. Smets and J. Vreeken, Slim : Directly mining descriptive patterns, Proceedings of SDM, pp.236-247, 2012.

R. Bach and F. , Adaptivity of averaged stochastic gradient descent to local strong convexity for logistic regression, Journal of Machine Learning Research, vol.15, pp.595-627, 2014.
URL : https://hal.archives-ouvertes.fr/hal-00804431

H. Cardot, P. Cénac, and J. Monnez, A fast and recursive algorithm for clustering large datasets with k-medians, Computational Statistics & Data Analysis, vol.56, issue.6, pp.1434-1449, 2012.
URL : https://hal.archives-ouvertes.fr/hal-00644683

K. Duarte, J. Monnez, and E. Albuisson, Sequential linear regression with online standardized data, PLOS ONE, vol.13, issue.1, p.191186, 2018.
URL : https://hal.archives-ouvertes.fr/hal-01538125

R. Agrawal and R. Srikant, Fast Algorithms for Mining Association Rules, Proceedings of 20th VLDB Conference, pp.487-499, 1994.

P. Bemarisika and A. Totohasina, Optimisation de l'extraction des règles d'association positives et négatives, Actes des 24èmes Rencontres de la SFC, pp.25-28, 2017.

D. R. Feno, J. Diatta, and A. Totohasina, Galois Lattices and Based for M GK -valid Association Rules, Proc. of the Fourth International Conference on Concept Lattices and their Applications, CLA'06, pp.127-138, 2006.

B. Ganter and . Et-r.-wille, Formal concept analysis: Mathematical foundations, 1999.

J. L. Guigues and V. Duquenne, Familles minimales d'implications informatives résultant d'un tableau de donnés binaires, Mathématiques et Sciences Humaines, vol.95, pp.5-18, 1986.

M. Kryszkiewicz, Concise representations of association rules, pp.92-103, 2002.

H. Mannila and H. Toivonen, Levelwise Search and Borders of Theories in Knowledge Discovery, Data Mining Knowledge Discovery, pp.241-258, 1997.

N. Pasquier, Extraction de Bases pour les Règles d'Association à partir des Itemsets Fermés Fréquents, 2000.

, Summary In this paper, we propose new bases of positive and negative valid non-redundant and informative association rules in the context of data science

R. Cabrio, E. , S. Tonelli, S. Villata, ;. Hutchison et al., From Discourse Analysis to Argumentation Schemes and Back : Relations and Differences, Computational Logic in Multi-Agent Systems, vol.8143, pp.1-17, 2013.
URL : https://hal.archives-ouvertes.fr/hal-00907873

J. B. Freeman, Dialectics and the Macrostructure of Argument, 1992.

E. Galbrun and P. Miettinen, From black and white to full color : extending redescription mining outside the Boolean world. Statistical Analysis and Data Mining, The ASA Data Science Journal, vol.5, issue.4, pp.284-303, 2012.
URL : https://hal.archives-ouvertes.fr/hal-01399211

E. Galbrun and P. Miettinen, Redescription Mining, 2017.
URL : https://hal.archives-ouvertes.fr/hal-01726072

E. Galbrun and P. Miettinen, Mining redescriptions with Siren, ACM Transactions on Knowledge Discovery from Data (TKDD), vol.12, issue.1, p.30, 2018.
URL : https://hal.archives-ouvertes.fr/hal-01399213

A. Peldszus and M. Stede, From Argument Diagrams to Argumentation Mining in Texts : A Survey, International Journal of Cognitive Informatics and Natural Intelligence (IJCINI), vol.7, issue.1, pp.1-31, 2013.

A. Peldszus and M. Stede, Rhetorical structure and argumentation structure in monologue text, Proceedings of the Third Workshop on Argument Mining (ArgMining2016), pp.103-112, 2016.

R. Prasad, N. Dinesh, A. Lee, E. Miltsakaki, L. Robaldo et al., The Penn discourse treebank 2.0, Proceedings of the Sixth International Language Resources and Evaluation (LREC 2008), 2008.

M. Stede, Subordination' versus 'Coordination' in Sentence and Text, pp.33-59, 2008.

H. Wachsmuth, G. Da-san, D. Martino, B. Kiesel, and . Stein, The impact of modeling overall argumentation with tree kernels, Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pp.2379-2389, 2017.

D. Walton, C. Reed, and F. Macagno, Argumentation Schemes, 2008.

X. Yan and J. Han, gSpan : graph-based substructure pattern mining, 2002 IEEE International Conference on Data Mining, pp.721-724, 2002.

A. Adam and H. Blockeel, Constraint-based measure for estimating overlap in clustering, Benelux Conference on Machine Learning, vol.6, pp.54-61, 2017.

M. , S. Basu, and R. J. Mooney, Integrating constraints and metric learning in semi-supervised clustering, Towards a Constrained Clustering Algorithm Selection Bilenko, p.11, 2004.

P. Brazdil, C. G. Carrier, C. Soares, and R. Vilalta, Metalearning: Applications to data mining, 2008.

L. Breiman, Random forests, Machine learning, vol.45, issue.1, pp.5-32, 2001.

M. Cachada, S. M. Abdulrahman, and P. Brazdil, Combining feature and algorithm hyperparameter selection using some metalearning methods, AutoML@PKDD/ECML, pp.69-83, 2017.

I. Davidson, K. L. Wagstaff, and S. Basu, Measuring constraint-set utility for partitional clustering algorithms, PKDD, pp.115-126, 2006.

P. K. Mallapragada, R. Jin, and A. K. Jain, Active query selection for semi-supervised clustering, ICPR, pp.1-4, 2008.

B. A. Pimentel and A. C. De-carvalho, A new data characterization for selecting clustering algorithms using meta-learning, Information Sciences, vol.477, pp.203-219, 2019.

C. Ruiz, M. Spiliopoulou, and E. Menasalvas, C-DBSCAN: Density-Based Clustering with Constraints, LNCS, vol.4482, 2007.

V. Vu, N. Labroche, and B. Bouchon-meunier, Boosting Clustering by Active Constraint Selection, ECAI, 2010.
URL : https://hal.archives-ouvertes.fr/hal-01292091

K. Wagstaff, C. Cardie, S. Rogers, and S. Schrödl, Constrained k-means clustering with background knowledge, ICML, vol.1, pp.577-584, 2001.

G. Wang, Q. Song, X. Zhang, and K. Zhang, A generic multilabel learning-based classification algorithm recommendation method, ACM TKDD, vol.9, issue.1, p.7, 2014.

S. Xiong, J. Azimi, and X. Z. Fern, Active Learning of Constraints for Semi-Supervised Clustering, IEEE TKDE, vol.26, issue.1, pp.43-54, 2014.

R. Bahaadini, S. , N. Rohani, A. K. Katsaggelos, V. Noroozi et al., Direct : Deep discriminative embedding for clustering of ligo data, 25th IEEE International Conference on Image Processing (ICIP), pp.748-752, 2018.

J. Bromley, I. Guyon, Y. Lecun, E. Säckinger, and R. Shah, Signature verification using a" siamese" time delay neural network, Advances in neural information processing systems, pp.737-744, 1994.

T. Cali?ski and J. Harabasz, A dendrite method for cluster analysis, Communications in Statistics-theory and Methods, vol.3, issue.1, pp.1-27, 1974.

R. Hadsell, S. Chopra, and Y. Lecun, Dimensionality reduction by learning an invariant mapping, Computer Vision and Pattern Recognition, pp.1735-1742, 2006.

L. V. Maaten and G. Hinton, Visualizing data using t-sne, Journal of machine learning research, vol.9, pp.2579-2605, 2008.

J. Macqueen, Some methods for classification and analysis of multivariate observations, Proc. Fifth Berkeley Symp, vol.1, 1967.

P. J. Rousseeuw, Silhouettes : a graphical aid to the interpretation and validation of cluster analysis, Journal of computational and applied mathematics, vol.20, pp.53-65, 1987.

, Pour des longueurs faibles (L < 300), KE et KS ont des temps d'exécution identiques : bien que KS ait une complexité observée quadratique alors que KE soit en O(L log(L)), les temps de calcul sont dominés par la phase d'affectation qui est identique pour les deux méthodes. Pour Haptics (L = 1092), KE se révèle cette fois 5 fois plus rapide que KS. KSE est bien sûr plus lent dans tous les cas, mais étonnamment la différence n'est pas aussi marquée que l'on aurait pu s'y attendre. Elle s'explique d'une part par la qualité inférieure des solutions, mais aussi peut être par le fait que la phase de représentation de KSE "optimise" l'alignement temporel alors qu'il est maintenu fixe pour KS et KE. KS et KE auraient donc besoin de plus d'itérations (affectation, représentation) pour stabiliser les alignements. Pour ECG5000, KS et KE nécessitent respectivement 138 et 171 itérations (cumulées sur les 10 exécutions), alors que KSE converge en 95 itérations, Partitionnement de Séries Temporelles Basé sur la Forme des Séries On constate que les performances de KS et KE sont très semblables. KSE est légèrement en retrait, ceci s'explique sans doute par l'existence d'optima locaux. Les résultats pour ? valant 0.1 et 0.001 sont relativement identiques à ceux présentés pour ? = 0.01

R. Conan-guez, B. , A. Gély, L. Boudjeloud-assala, and E. A. Blansché, K-spectral centroid : extension and optimizations, 26th European Symposium on Artificial Neural Networks, 2018.
URL : https://hal.archives-ouvertes.fr/hal-01901251

M. Cuturi and M. Blondel, Soft-DTW : a differentiable loss function for time-series, 34th International Conference on Machine Learning, vol.70, pp.894-903, 2017.

J. Paparrizos and L. Gravano, Fast and accurate time-series clustering, ACM Trans. Database Syst, vol.42, issue.2, p.49, 2017.

J. Yang and J. Leskovec, Each method relies on a custom dissimilarity measure between time series, which is invariant to time shifting and Y-scaling. The first measure is an adaptation of the cosine dissimilarity for which the best time alignment is obtained by testing all temporal translations. The second measure is a, Proc. of the fourth ACM international conf. on Web search and data mining, p.177, 2011.

C. Clv and .. , .) en DCP, comparaison avec des méthodes de classification en grande dimension, utilisation d'autres stratégies de classification dans l'étape (iv) que Ward et étude de leur impact sur le temps calcul, plus de simulations afin de valider l'approche dans différents cas de figure (taille et structure des classes, force de corrélation entre variables, Des fonctions R ont été développées. D'autres applications sur données simulées et réelles ont fourni des résultats satisfaisants. Les voies futures sont : intégration d'autres méthodes de classification, 2016.

B. Bühlmann, P. Rütimann, P. Van-de-geer, S. Zhang, and C. , Correlated in regression : Clustering and sparse estimation, Journal of Stat. Planning and Inference, issue.11, p.143, 2013.

M. Chavent, V. Kuentz, B. Liquet, J. Et-saracco, J. Dean et al., A Novel Information-Theoretic Approach for Variable Clustering and Predictive Modeling Using Dirichlet Process Mixtures, www.nature.com/scientificreports, Classification de variables : une approche à double critères contrôlés dynamiques, 48ièmes Journées de Statistique, p.49, 2004.

. Journées-de-statistique, F. Avignon, and G. Saporta, Some Simple Rules for interpreting Outputs of Principal Components and Correspondence Analysis, The VARCLUS Procedure. SAS/STAT 9.2 User's Guide, 1990.

E. Vigneau and E. M. Qannari, Clustering of Variables Around Latent Components, Communications in Statistics -Simulation and Computation, vol.32, issue.4, pp.1131-1150, 2003.

, We propose a new "Divide and Conquer" approach based on the MapReduce principle to overcome this problem. The data table is divided into several sub-tables processed in parallel, then reconciled using the MCA. This approach is applied to simulated data and provides very good results. References Baixeries, Annals of Mathematics and Artificial Intelligence, vol.72, pp.129-149, 2014.

Y. Cheng and G. M. Church, Biclustering of expression data, ISMB, vol.8, pp.93-103, 2000.

V. Codocedo and A. Napoli, Lattice-based biclustering using partition pattern structures, Proceedings of the Twenty-first European Conference on Artificial Intelligence, pp.213-218, 2014.
URL : https://hal.archives-ouvertes.fr/hal-01095865

D. Gnatyshak, D. I. Ignatov, A. Semenov, and J. Poelmans, Analysing online social network data with biclustering and triclustering, Proceedings of the, vol.871, pp.30-39, 2012.

G. Govaert and M. Nadif, Co-clustering, 2013.
URL : https://hal.archives-ouvertes.fr/hal-00933301

J. A. Hartigan, Direct clustering of a data matrix, Journal of the american statistical association, vol.67, issue.337, pp.123-129, 1972.

D. I. Ignatov, S. O. Kuznetsov, and J. Poelmans, Concept-based biclustering for internet advertisement, IEEE 12th International Conference on, pp.123-130, 2012.

M. Kaytoue, Traitement de données numériques pas analyse formelle de concepts et structures de patrons, 2011.

M. Kaytoue, S. O. Kuznetsov, J. Macko, and A. Napoli, Biclustering meets triadic concept analysis, Annals of Mathematics and Artificial Intelligence, vol.70, issue.1-2, pp.55-79, 2014.
URL : https://hal.archives-ouvertes.fr/hal-01101143

M. Kaytoue, S. O. Kuznetsov, and A. Napoli, Biclustering numerical data in formal concept analysis, International Conference on Formal Concept Analysis, pp.135-150, 2011.
URL : https://hal.archives-ouvertes.fr/inria-00600203

M. Kaytoue, S. O. Kuznetsov, A. Napoli, and S. Duplessis, Mining Gene Expression Data with Pattern Structures in Formal Concept Analysis, Information Science, vol.181, issue.10, pp.1989-2001, 2011.
URL : https://hal.archives-ouvertes.fr/hal-00541100

S. C. Madeira and A. L. Oliveira, Biclustering algorithms for biological data analysis: a survey, IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), vol.1, issue.1, pp.24-45, 2004.

A. Tanay, R. Sharan, and R. Shamir, Discovering statistically significant biclusters in gene expression data, Bioinformatics, vol.18, issue.suppl_1, pp.136-144, 2002.

, Analyse de Concepts Formels, distributivité et modèles de graphes médians pour la phylogénie

A. Gély, *. , M. Couceiro, *. , and A. Napoli,

*. Loria, BP, vol.239

, Birkhoff (1967)) et son résultat de représentation des treillis distributifs par des ordres partiels sera central dans les travaux présentés ici. Les treillis distributifs ne sont qu'une classe particulière de treillis. Pour un treillis quelconque, la distributivité des deux opérations ? et ? n'est pas vérifiée. Les treillis en général sont centraux en Analyse de Concept Formels (FCA), FCA, distributivité et graphes médians pour la phylogénie, 1999.

, Barbut et Monjardet) pour l'analyse de données, série de deux publications, 2012.

. Gély, nous nous sommes intéressés a cet aspect algorithmique et avons formalisé une approche. Nous faisons ici un point sur la manière d'obtenir un graphe médian en utilisant les outils de l'Analyse de Concepts Formels. La section 2 détaille les différents modèles possibles, étudie les liens entre FCA et graphes médians pour la phylogénie. Ces deux articles restent au niveau conceptuel et abordent peu les détails algorithmiques sous-jacents. Dans nos travaux, 2018.

E. Un-graphe-médian-est-un-graphe-g-=-(v, En phylogénie, le graphe de Buneman (Buneman (1971)), qui est le graphe représentant l'ensemble des arbres phylogénétiques parcimonieux (minimisant le nombre de mutations nécessaires pour passer d'un individu à l'autre) est un graphe médian. Les sommets du graphe de Buneman représentent d'une part les espèces à considérer pour la phylogénie, et d'autre part un certain nombre de sommets latents, ajoutés de façon à vérifier la propriété de médiane. Lorsque les espèces sont décrites par un ensemble de caractères (de type booléen "présent/absent", ou bien "muté/non muté"), il y a une arête entre deux espèces lorsqu'elles ne diffèrent que par un caractère. Notons que si la phylogénie est parfaite

, Analyse de Concepts Formels La classification phylogénétique peut souvent se ramener à utiliser des données binaires entre objets (les espèces) et variables (présence/absence d'une mutation). Ainsi, on peut définir un contexte formel C = (O, A, I), avec O l'ensemble des objets (espèces), A l'ensemble des attributs (mutations) et I une relation binaire entre O et A, telle que pour o ? O, a ? A I(o, a) (noté oIa) se lit comme "l'objet o possède l'attribut a

U. , T. , ?. , ?. , and ?. Gély, est un ensemble ordonné muni de deux opérateurs ? (resp. ?) correspondant à la borne supérieure (resp. inférieure) de deux éléments de T . Par définition, dans un treillis (contrairement à un ordre quelconque), les bornes supérieures et inférieures A

X. , Y. , X. , and Y. Tels-que-x-=-y-et-y-=-x, On appelle extent l'ensemble X et intent l'ensemble Y . En particulier, X et Y vérifient X = X et Y = Y et sont des ensembles fermés. La relation d'ordre entre concept est une relation d'inclusion entre les extensions des concepts. Pour plus de détails sur l'Analyse de Concepts Formels, On parlera de semi-treillis si l'on se restreint à l'existence d'une seule de ces deux bornes. A partir du contexte C = (O, A, I) et des connections de Galois rappelées ci-dessous (Def. 1), 1999.

O. , A. , ?. )-un-contexte-;-o, and Y. =-{o-|-?a-?-a, on peut définir une connections de Galois entre O et A comme suit : -: 2 O ? 2 A , X = {a | ?o ? O, oIa} -: 2 A ? 2

, Un concept représente l'ensemble maximal des individus partageant un ensemble maximal d'attributs. L'ajout d'un nouvel attribut à l'intent (resp. d'un nouvel objet à l'extent) va séparer les objets (resp. attributs) en deux parties strictement non vides : les objets (resp. attributs) en relation avec ce nouvel attribut

, Un treillis des concepts B(C) n'a pas de raison a priori d'être distributif. Il faut donc pouvoir transformer un treillis quelconque en un treillis distributif. Aussi, utiliser le formalisme FCA pour la production de graphe médian va nous amener à décrire plus en détail les treillis distributifs, ce qui est fait dans la section suivante

, Birkhoff s'est énormément intéressé aux treillis distributifs dès les années 30 avec un article dont est issu un des résultats utilisé ici (Birkhoff (1933)). On retrouve aussi la plupart des résultats détaillés dans l'ouvrage Caspard et al. (2012) Il découle de cette définition plusieurs caractérisations

, Or, on peut définir une opération de médiane sur un ensemble M comme une fonction : m : M 3 ? M vérifiant m(a, a, b) = a et m(m(a, b, c), d, c) = m(a, m

;. Ainsi and . Bandelt, = (a ? b) ? (b ? c) ? (c ? a) définit une opération de médiane sur un treillis distributif et ce résultat est utilisé par Bandelt, 1999.

. Voir-gély, D'autre part, des travaux en cours montrent que plusieurs solutions minimales non isomorphes peuvent exister. Il reste maintenant à caractériser une solution minimale canonique et à obtenir un algorithme produisant cette solution, 2018.

R. Bandelt, H. , P. Forster, and A. Röhl, Median-joining networks for inferring intraspecific phylogenies, Molecular biology and evolution, vol.16, issue.1, pp.37-48, 1999.

H. Bandelt, J. Et, and . Hedlíková, Median algebras, Discrete mathematics, vol.45, issue.1, pp.1-30, 1983.

M. Barbut and B. Monjardet, Ordre et classification, paris, hachette, 1970.

G. Birkhoff, On the combination of subalgebras, In Mathematical Proceedings of the Cambridge Philosophical Society, vol.29, pp.441-464, 1933.

G. Birkhoff, Rings of sets, Duke Math. J, vol.3, issue.3, pp.443-454, 1937.

G. Birkhoff, Lattice Theory, 1967.

P. Buneman, The recovery of trees from measures of dissimilarity. Mathematics in the archaeological and historical sciences, 1971.

N. Caspard, B. Leclerc, and B. Monjardet, Finite ordered sets : concepts, results and uses, Number, vol.144, 2012.
URL : https://hal.archives-ouvertes.fr/halshs-00800193

B. Ganter and . Et-r.-wille, Formal Concept Analysis : Mathematical Foundations, 1999.

A. Gély, M. Couceiro, Y. Namir, and A. Napoli, Contribution à l'étude de la distributivité d'un treillis de concepts, Extraction et Gestion des Connaissances, EGC 2018, pp.107-118, 2018.

A. Gély, M. Couceiro, and A. Napoli, Steps towards achieving distributivity in formal concept analysis, Proceedings of the Fourteenth International Conference on Concept Lattices and Their Applications, pp.105-116, 2018.

U. Priss, Concept lattices and median networks, CLA, pp.351-354, 2012.

U. Priss, Summary Philogenetic classification uses phylogeny data to classify species. The more traditionnal models are phylogenetic trees. Nevertheless, trees miss some complexity of evolution, and so, several trees should be used. Median graphs permit to encode all these trees in a unique structure, ICCS, pp.311-321, 2013.