twitter

L’algorithme de Twitter est en ligne : ce que renferme cette boîte noire

Twitter vient de mettre en ligne une partie de son code et tout ce qui concerne son algorithme. Découvrons les premiers détails trouvés sur l’algorithme de Twitter : ce qu’il renferme et pourquoi il a été publié.

À lire également : Ce que Twitter pense de vous grâce à son algorithme

Pourquoi Twitter a-t-il publié son propre algorithme ?

Ce 31 mars, dans un billet de blog, on apprend que Twitter met en ligne son algorithme de recommandation, celui agissant notamment sur l’onglet « Pour vous », le premier ouvert lorsqu’on se rend sur le réseau social. Première raison mise en avant : une volonté de transparence de la part de l’entreprise, dont l’image se ternit de plus en plus au fur et à mesure de ses décisions controversées, principalement poussées par son récent propriétaire, Elon Musk.

D’ailleurs, à partir du 15 avril, l’onglet « Pour vous », qui se base surtout sur les recommandations (et pas uniquement sur les comptes que vous suivez), n’affichera plus que deux types de tweets :

  • Ceux publiés par les personnes que vous suivez
  • Ceux publiés par les personnes certifiées, qui par extension, possèdent un abonnement à Twitter Blue

En tout cas, le code de l’algorithme de Twitter pour les recommandations est disponible sur Github et chacun peut le consulter. Toutefois, ce n’est pas parce que le code est en ligne qu’il est immédiatement compréhensible : des experts vont devoir s’y pencher en profondeur pour en comprendre les tenants et les aboutissants. La différence entre la communication de Twitter et le fonctionnement réel de l’algorithme peut être importante.

À lire également : Quels sont les mots que vous utilisez le plus sur Twitter ?

Ce qu’on apprend sur l’algorithme de Twitter en lisant son code

Dans son annonce, Twitter détaille clairement quelques manières de trier les tweets qui vont apparaître, en se focalisant sur l’onglet « Pour vous », bien que les annonces, l’exploration ou la recherche peuvent aussi se baser sur la recommandation de tweets. Premier élément, chaque tweet répond à deux questions :

  • Quelle est la probabilité que vous interagissiez avec un autre utilisateur à l’avenir ?
  • Quelles sont les communautés sur Twitter et quels sont les tweets en vogue au sein de ces communautés ?

Twitter précise que le « tunnel de recommandation » baptisé Home Mixer se base sur trois étapes :

  1. « Récupérer les meilleurs Tweets à partir de différentes sources de recommandation dans le cadre d’un processus appelé « sourcing » de candidats. »
  2. « Classer chaque Tweet à l’aide d’un modèle d’apprentissage automatique. »
  3. « Appliquer des heuristiques et des filtres, tels que le filtrage des Tweets d’utilisateurs que vous avez bloqués, du contenu NSFW et des Tweets que vous avez déjà vus. »
algorithme twitter

En fait, à chaque « requête » d’un utilisateur, Twitter essaie « d’extraire les 1500 meilleurs tweets d’un ensemble de centaines de millions de tweets à partir de ces sources » ; les sources étant à la fois des comptes que vous suivez et que vous ne suivez pas. Par rapport au ratio entre ces deux types de compte, Twitter assure faire du 50-50 : rappelons que récemment, le fil d’actualités a été modifié et met désormais en avant davantage de comptes non-suivis qu’auparavant.

Pour les comptes que vous suivez, la sélection est assez logique : un modèle prédit la probabilité d’engagement de l’utilisateur envers un compte qu’il suit (Real Graph). Pour chaque « twittos », il établit un score entre un utilisateur et celui-ci : plus il est élevé, plus les tweets sont susceptibles d’être montrés. Quant aux comptes que vous ne suivez pas, Twitter a recours à deux approches :

  • Le graphique social : le site estime « ce que vous trouveriez pertinent en analysant les engagements des personnes que vous suivez ou de celles qui ont des intérêts similaires ». Actuellement, ce modèle (nommé GraphJet) est utilisé pour environ 15% des tweets). Il le fait notamment via plusieurs questions :
    • « Avec quels Tweets les personnes que je suis se sont-elles récemment engagées ? »
    • « Qui aime des tweets similaires aux miens et qu’ont-ils récemment aimé d’autre ? »
  • Des « espaces d’interaction » : la question principale est « quels sont les tweets et les utilisateurs qui correspondent à mes centres d’intérêt ? ». Ici, le modèle fonctionne « en générant des représentations numériques des intérêts des utilisateurs et du contenu des tweets ». Twitter dit pouvoir « ensuite calculer la similarité entre deux utilisateurs, deux tweets ou deux paires utilisateur-tweet ». L’un de ces espaces d’intégration les plus utilisés est SimClusters : un algorithme qui découpe l’ensemble de Twitter en quelque 145 000 communautés, « mises à jour toutes les trois semaines ». Chaque utilisateur et chaque tweet peut appartenir à plusieurs communautés, dont la taille varie de quelques milliers à des centaines de millions de personnes. Donc, « plus les utilisateurs d’une communauté aiment un tweet, plus ce tweet sera associé à cette communauté ».
algorithme twitter

Sur les 1500 tweets susceptibles d’être affichés, Twitter réalise un classement afin de déterminer la pertinence de chaque tweet : c’est « le principal signal de classement des tweets sur votre timeline ». Pour cela, le réseau social utilise « un réseau de 48 millions de paramètres qui est continuellement entraîné ». Puis, Twitter mélange tout cela avec des filtres pour obtenir un fil relativement diversifié : il est à rappeler là aussi que Twitter a tendance à polariser les utilisateurs, et à créer des « bulles de filtre » comme tous les autres réseaux sociaux. Voilà quelques exemples de fonctionnalités qui agissent dans la création du fil :

  • Filtrage de la visibilité : les tweets sont filtrés en fonction de leurs contenus et de vos préférences
  • Diversité des auteurs : pas trop de tweets consécutifs publiés par la même personne
  • Équilibre du contenu : entre les tweets « dans le réseau » et les tweets « hors réseau »
  • Fatigue basée sur le retour d’information : des tweets voient leur score réduit si l’utilisateur « a fourni des commentaires négatifs à leur sujet »
  • Preuve sociale : exclusion des tweets hors réseau « qui n’ont pas de lien de second degré »
  • Conversations : davantage de contexte à une réponse « en l’associant au tweet d’origine »
  • Tweets modifiés : les tweets originels sont remplacés par leur version modifiée

Selon Twitter, ce Home Mixer est utilisé 5 milliards de fois par jour et fonctionne en 1,5 seconde en moyenne. Chaque exécution demande 220 secondes « de temps CPU ».

topics

Ce que ne dit pas Twitter

Comme a pu le faire remarquer la start-up Deeplayer, tout juste créée par Defend Intelligence, influenceur et ingénieur en intelligence artificielle, il semblerait qu’il « y a des conditions sur les âges des utilisateurs », en fonction de s’ils ont plus ou moins de 30 ans. Aussi, si vous suivez « plus de 500 personnes et que le ratio following/follower est >0.6, vous serez moins vu ». Comme on pouvait s’y attendre, les comptes vérifiés (bientôt désormais tous payants », ont un score qui passe à une valeur de « 100 » directement, en termes de visibilité.

Pour Julien Topçu, dans les paramètres d’évaluation de probabilité d’interaction avec quelqu’un, « il y a le fait que le numéro de téléphone de la personne que vous suivez soit dans votre carnet d’adresse » sur votre smartphone (à condition que la permission soit activée). Parmi les interactions analysées, il y a les likes et les RT (ce qui est tout à fait normal), mais aussi les vues de profil, la lecture d’un tweet, le clic sur un lien, etc.

Aussi, le site Platformer a révélé il y a quelques jours une liste de 35 comptes favorisés dans l’onglet « Pour vous ». Une liste qui comprend bien sûr Elon Musk, mais aussi des sportifs, des influenceurs, des journalistes et des personnalités politiques par exemple : Joe Biden, LeBron James, MrBeast, etc.

Elon Musk : un traitement bien différent ?

Deeplayer précise qu’Elon Musk n’ait pas droit au même traitement que tout le monde. Mais ce n’est pas tout : il existe aussi des « power users » et des membres des partis démocrates et républicains américains, qui ont eu aussi des règles spécifiques. A priori, ces groupes seraient « là pour analyser le système de reco », pas nécessairement pour pousser le nombre de vues.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut