Using Hierarchical Skills for Optimized Task Selection in Crowdsourcing

Panagiotis Mavridis

Résumé

A large number of participative applications rely on a crowd to acquire and process data. These participative applications are widely known as crowdsourcing platforms, where amateur enthusiasts are involved in real scientific or commercial projects that requesters have posted online. Most well-known commercial crowdsourcing platforms are Amazon MTurk and Crowdflower. Participants there, select and perform tasks, called microtasks and accept a micropayment in return. Common challenges for such platforms are related to the quality of the required answers, the expertise of the involved crowd, the ease of finding tasks and the respect of tasks’ deadlines. Related work focuses on modeling skills as keywords to improve quality while in this work we formalize skills using a hierarchical structure, that can help substituting tasks with similar skills and take advantage of the whole workforce. With extensive synthetic and real datasets, we show a significant improvement in quality when using a hierarchical structure of skills instead of pure keywords. We also extend our work to study the impact of a participant’s choice given a list of tasks. While our previous solution focused on improving an overall one-to-one matching for tasks and participants, we also examine how participants can choose from a ranked list of tasks. Selecting from an enormous list of tasks can be challenging, time-consuming and affects the quality of answers to crowdsourcing platforms. Existing related work concerning crowdsourcing uses neither a taxonomy nor ranking methods to assist participants. We propose a new model that provides the participant with a short list of tasks. This short list takes into account the diversity of the participant’s skills and the task deadlines as well. Our extensive synthetic and real experiments show that we can meet deadlines, get high-quality answers and keep the interest of participants high while giving them a choice of well-selected tasks.

De nombreuses applications participatives, commerciales et académiques s’appuient sur des volontaires (“la foule”) pour acquérir, désambiguiser et nettoyer des données. Ces applications participatives sont largement connues sous le nom de plates-formes de crowdsourcing où des amateurs peuvent participer à de véritables projets scientifiques ou commerciaux. Ainsi, des demandeurs sous-traitent des tâches en les proposant sur des plates-formes telles qu’Amazon MTurk ou Crowdflower. Puis, des participants en ligne sélectionnent et exécutent ces tâches, appelés microtasks, acceptant un micropaiement en retour. Ces plates-formes sont confrontées à des défis tels qu’assurer la qualité des réponses acquises, aider les participants à trouver des tâches pertinentes et intéressantes, tirer parti des compétences expertes parmi la foule, respecter les délais des tâches et promouvoir les participants qui accomplissent le plus de tâches. Cependant, la plupart des plates-formes ne modélisent pas explicitement les compétences des participants, ou se basent simplement sur une description en terme de mots-clés. Dans ce travail, nous proposons de formaliser les compétences des participants au moyen d’une structure hiérarchique, une taxonomie, qui permet naturellement de raisonner sur les compétences (détecter des compétences équivalentes, substituer des participants, etc.). Nous montrons comment optimiser la sélection de tâches au moyen de cette taxonomie. Par de nombreuses experiences synthétiques et réelles, nous montrons qu’il existe une amélioration significative de la qualité lorsque l’considère une structure hiérarchique de compétences au lieu de mots-clés purs. Dans une seconde partie, nous étudions le problème du choix des tâches par les participants. En effet, choisir parmi une interminable liste de tâches possibles peut s’avérer difficile et prend beaucoup de temps, et s’avére avoir une incidence sur la qualité des réponses. Nous proposons une méthode de réduction du nombre de propositions. L’état de l’art n’utilise ni une taxonomie ni des méthodes de classement. Nous proposons un nouveau modèle de classement qui tient compte de la diversité des compétences du participant et l’urgence de la tâche. Des expériences synthétiques et réelles montre que nous pouvons respecter les délais, obtenir des réponses de haute qualité, garder l’intérêt des participants tout en leur donnant un choix de tâches ciblé.

Using Hierarchical Skills for Optimized Task Selection in Crowdsourcing

Utiliser les compétences hiérarchiques pour optimiser la sélection des tâches dans le crowdsourcing

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager