How Information Propagates on Twitter? - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2016

How Information Propagates on Twitter?

Comment se propagent les informations sur Twitter ?

Résumé

This thesis presents the measurement study of Online Social Networks focusing on Twitter. Twitter is one of the largest social networks using exclusively directed links among accounts. This makes the Twitter social graph much closer to the social graph supporting real life communications than, for instance, Facebook. Therefore, understanding the structure of the Twitter social graph and the way information propagates through it is interesting not only for computer scientists, but also for researchers in other fields, such as sociologists. However, little is known about the information propagation in Twitter. In the first part, we present an in-depth study of the macroscopic structure of the Twitter social graph unveiling the highways on which tweets propagate. For this study, we crawled Twitter to retrieve all accounts and all social relationships (follow links) among accounts. We present a methodology to unveil the macroscopic structure of the Twitter social graph that consists of 8 components defined by their connectivity characteristics. We found that each component group users with a specific usage of Twitter. Finally, we present a method to approximate the macroscopic structure of the Twitter social graph in the past, validate this method using old datasets, and discuss the evolution of the macroscopic structure of the Twitter social graph during the past 6 years. In the second part, we study the information propagation in Twitter by looking at the news media articles shared on Twitter. Online news domains increasingly rely on socialmedia to drive traffic to their websites. Yet we know surprisingly little about how social media conversation mentioning an online article actually generates a click to it. We present a large scale, validated and reproducible study of social clicks by gathering a month of web visits to online resources that are located in 5 leading news domains and that are mentioned in Twitter. As we prove, properties of clicks and social media Click-Per-Follower rate impact multiple aspects of information diffusion, all previously unknown. Secondary resources, that are not promoted through headlines and are responsible for the long tail of content popularity, generate more clicks both in absolute and relative terms. Social media attention is actually long-lived, in contrast with temporal evolution estimated from posts or receptions. The actual influence of an intermediary or a resource is poorly predicted by their posting behavior, but we show how that prediction can be made more precise. In the third part we present an experimental study of graph sampling. Online social networks (OSNs) are an important source of information for scientists in different fields such as computer science, sociology, economics, etc. However, it is hard to study OSNs as they are very large. Also, companies take measures to prevent crawls of their OSNs and refrain from sharing their data with the research community. For these reasons, we argue that sampling techniques will be the best technique to study OSNs in the future. In this part, we take an experimental approach to study the characteristics of well-known sampling techniques on a full social graph of Twitter we crawled in 2012.
Cette thèse présente une étude sur la mesure des réseaux sociaux en ligne avec un accent particulier sur Twitter qui est l’un des plus grands réseaux sociaux. Twitter utilise exclusivement des liens dirigés entre les comptes. Cela rend le graphe social de Twitter beaucoup plus proche que Facebook du graphe social représentant les communications dans la vie réelle. Par conséquent, la compréhension de la structure du graphe social Twitter et de la manière dont les informations se propagent dans le graph est intéressant non seulement pour les informaticiens, mais aussi pour les chercheurs dans d’autres domaines, tels que la sociologie. Cependant, on sait peu de choses sur la propagation de l’information sur Twitter. Dans la première partie, nous présentons une étude approfondie de la structure macroscopique du graphe social de Twitter dévoilant les routes sur lesquelles les tweets se propagent. Pour cette étude, nous avons crawlé Twitter pour récupérer tous les comptes et toutes les relations sociales (liens de following et follower) entre les comptes. Nous présentons une méthodologie pour dévoiler la structure macroscopique du graphe social de Twitter qui se compose de 8 composants définis par leurs caractéristiques de connectivité. Nous avons découvert que chaque composant regroupe les utilisateurs avec un usage spécifique de Twitter. Enfin, nous présentons une méthode pour explorer la structure macroscopique du graphe social de Twitter dans le passé, nous validons cette méthode en utilisant des anciens ensembles de données, et nous discutons l’évolution de la structure macroscopique du graphe social de Twitter durant les 6 dernières années. Dans la deuxième partie, nous étudions la propagation de l’information sur Twitter en étudiant les articles de presse partagés sur Twitter. Les médias en ligne comptent de plus en plus sur les médias sociaux pour générer du trafic vers leur site Web. Pourtant, nous savons étonnamment peu de choses sur la façon dont les conversations sur les médias sociaux mentionnant un article en ligne génèrent un clic “social” vers cet article. Nous présentons une étude validée et reproductible des clics sociaux en collectant un mois de clics vers des articles mentionnés dans Twitter vers 5 grands journaux en ligne. Nous montrons que les clics et les clics par follower impactent plusieurs aspects de la diffusion de l’information, tous jusque-là inconnus. Par exemple, les ressources secondaires (non promues dans les gros titres des journaux) génèrent plus de clics que les gros titres. De plus, alors que l’attention des utilisateurs des médias sociaux est courte en ce qui concerne les postes, elle est étonnamment longue lorsque l’on regarde les clics. Pour finir, on montre que l’influence réelle d’un intermédiaire ou d’une ressource est mal prédite par le comportement d’envoi, et nous montrons comment cette prédiction peut être rendu plus précise. Dans la troisième partie, nous présentons une étude expérimentale d’échantillonnage du graphe social de Twitter. Les réseaux sociaux en ligne (RSL) sont une source importante d’information pour les scientifiques dans différents domaines tels que l’informatique, la sociologie, ou l’économie. Cependant, il est difficile d’étudier les RSL car ils sont très grands. En outre, les entreprises prennent des mesures pour prévenir les analyses de leurs RSL et s’abstiennent de partager leurs données avec la communauté des chercheurs. Pour ces raisons, nous affirmons que les techniques d’échantillonnage sont une option efficace pour étudier les RSL à l’avenir. Dans cette dernière partie, nous prenons une approche expérimentale pour étudier les caractéristiques des techniques d’échantillonnage bien connues sur un graphe social complet de Twitter nous avons crawlé en 2012.
Fichier principal
Vignette du fichier
These_Gabielkov.pdf (1.77 Mo) Télécharger le fichier

Dates et versions

tel-01336218 , version 1 (22-06-2016)
tel-01336218 , version 2 (20-09-2016)

Identifiants

  • HAL Id : tel-01336218 , version 1

Citer

Maksym Gabielkov. How Information Propagates on Twitter?. Social and Information Networks [cs.SI]. Univeristé Nice Sophia Antipolis, 2016. English. ⟨NNT : ⟩. ⟨tel-01336218v1⟩
1069 Consultations
1632 Téléchargements

Partager

Gmail Facebook X LinkedIn More