Une mise au point sur ce que les données récentes nous apprennent vraiment — et ce qui reste spéculatif.
Les modèles de langage (LLMs) citent plus souvent certaines plateformes tierces que les sites officiels des marques. Ce constat est réel et documenté. Mais les raisons derrière ce phénomène sont plus complexes et plus nuancées que ce qu’on lit habituellement sur le sujet.
Cet article fait le point sur ce qu’on sait avec certitude, ce qui relève d’hypothèses plausibles, et ce que cela implique pour votre stratégie de visibilité IA (GEO).
1. Ce que les données nous disent vraiment
Reddit et YouTube dominent, mais différemment selon les IA
Une étude Semrush portant sur 150 000 citations générées par des LLMs (juin 2025) montre que Reddit est le domaine le plus fréquemment cité, avec 40,1 % des références analysées. Wikipedia arrive en deuxième position (26,3 %), suivi de YouTube (23,5 %). Mais ce chiffre global masque des réalités très différentes selon les plateformes.
Source complémentaire : Visual Capitalist — Ranked: The Most-Cited Websites by AI Models
| LLM | 1ère source | 2ème source | Notes |
|---|---|---|---|
| ChatGPT (SearchGPT) | Wikipedia (47,9 %) | Reddit (11,3 %) | Cite Reddit dans 13 % des réponses |
| Perplexity | Reddit (46,7 %) | Wikipedia | Cite Reddit dans seulement 4 % des réponses (mais en position haute) |
| Google AI Overviews | Reddit (21 %) | YouTube (18,8 %) | Quora à 14,3 % |
| Google AI Mode | Reddit (dominant) | Sources diversifiées (~7 domaines/réponse) | Plus de sources que les autres LLMs |
Source : Semrush — Étude Reddit & AI Search Visibility (oct. 2025)
À noter : les LLMs ne forment pas un bloc homogène. ChatGPT et Perplexity ont des comportements de citation radicalement différents pour Reddit. Toute stratégie GEO doit tenir compte de cette fragmentation entre les différents modèles.
YouTube : un levier GEO souvent négligé
Des données de début 2026 montrent que YouTube s’est installé comme la deuxième plateforme sociale la plus citée par les LLMs, avec 23,5 % dans l’étude Semrush, juste derrière Reddit. Sa progression est constante. C’est aujourd’hui un levier GEO majeur, souvent négligé au profit des forums.
Le facteur décisif souvent omis : les accords commerciaux
La présence de Reddit dans les sorties des LLMs ne s’explique pas uniquement par la « confiance accordée aux tiers indépendants ». Reddit a signé des accords de licence avec Google (60 M$/an, annoncé en février 2024) et OpenAI (estimé à 70 M$ / an, confirmé en mai 2024), pour un total de 203 M$ sur 2 à 3 ans. Ces accords donnent aux sociétés IA un accès légal et structuré aux données Reddit pour l’entraînement de leurs modèles.
Ce n’est pas une nuance anodine : la sur-représentation de Reddit dans les réponses IA est au moins partiellement structurelle, et non seulement le reflet d’une évaluation qualitative.
2. Pourquoi les sources tierces sont privilégiées
Au-delà des accords commerciaux, plusieurs mécanismes qualitatifs expliquent pourquoi les sources indépendantes ont tendance à peser plus que les sites officiels dans les générations LLM.
Le langage naturel vs le discours marketing
Sur les forums, les utilisateurs parlent comme ils pensent : les problèmes sont concrets, les réponses sont testées par d’autres, et le vocabulaire est authentique. Les LLMs, entraînés sur des corpus massifs de langage naturel, reproduisent ce qui y ressemble le plus — pas les fiches produit optimisées pour le référencement.
À savoir : selon les analyses Semrush sur les contenus Reddit cités, les formats Q&A et de comparaison représentent les trois quarts des threads Reddit que les LLMs choisissent de citer. Ce n’est pas un hasard.
La contradiction visible comme signal de fiabilité
Un point contre-intuitif mais bien documenté : la présence de débats, d’objections et de nuances renforce la crédibilité statistique d’une information pour un LLM. Un site officiel ne présente qu’une version généralement lisse du discours. Un forum en présente plusieurs, avec des corrections mutuelles — ce qui ressemble davantage à un consensus validé.
La corroboration distribuée
Quand une même information apparaît dans plusieurs threads, formulée différemment, par des utilisateurs distincts, elle devient un signal de vérité probabiliste. C’est exactement ce que les modèles cherchent : de la répétition sémantique non-coordonnée. Pour approfondir ce mécanisme, consultez notre article sur la corroboration multi-sources et les 8 techniques GEO.
La presse comme ancre narrative
Les médias jouent un rôle différent des forums : ils structurent un récit stable, donnent un cadre temporel et normalisent les concepts. Pour un LLM, un article de presse est un point d’ancrage. Même si le journaliste n’est pas expert du sujet, il stabilise le discours — et cela compte autant que l’expertise elle-même.
3. L’autorité en GEO : distribuée, pas centralisée
Le concept de GEO : une base académique solide
Le terme GEO (Generative Engine Optimization) a été formalisé dans un article académique publié en novembre 2023 par des chercheurs de Princeton, Georgia Tech et d’autres institutions, présenté ensuite à la conférence KDD 2024. Les auteurs démontrent que certaines stratégies d’optimisation de contenu peuvent augmenter la visibilité dans les moteurs génératifs jusqu’à 40 %.
Un changement de logique par rapport au SEO
Le SEO classique reposait sur une logique de type PageRank : l’autorité circulait via les liens, les signaux techniques et la hiérarchie des domaines. En GEO, ce mécanisme change de nature.
Les moteurs génératifs n’estiment pas seulement la pertinence d’une page : ils estiment la probabilité qu’une information soit fiable, cohérente et représentative d’un consensus. L’autorité devient un signal probabiliste.
| Dimension | SEO classique | GEO / Autorité LLM |
|---|---|---|
| Nature | Centralisée | Distribuée et émergente |
| Mécanisme | Liens + signaux techniques | Répétition + consensus + indépendance |
| Stabilité | Acquise et relativement stable | Confirmée à chaque génération |
| Relation SEO/GEO | — | Complémentaires : les marques fortes en SEO performent mieux en GEO |
Nuance importante : les marques qui performent bien en GEO sont généralement celles qui dominent déjà la recherche organique. GEO et SEO sont complémentaires, pas opposés.
De la détention à la confirmation
En SEO, l’autorité pouvait être « acquise ». En GEO, elle est confirmée à chaque génération. Un LLM ne fait pas confiance à une marque parce qu’elle est historiquement forte. Il reproduit ce qui lui semble cohérent, répété, indépendant et statistiquement dominant dans son corpus.
L’autorité n’est plus un capital détenu. C’est un état validé par convergence informationnelle.
4. Ce que cela implique concrètement
Ce qu’il ne faut pas faire
- Poster des liens promotionnels sur les forums
- Forcer des mentions de marque de manière artificielle
- Écrire sur les forums comme un communiqué de presse
- Traiter Reddit ou Quora comme de simples canaux de distribution
Ce qu’il faut faire
- Répondre utilement à de vraies questions, sans vendre
- Être cohérent dans le discours sur toutes les plateformes
- Viser les citations tierces : être cité vaut plus qu’être visible
- Intégrer YouTube comme levier GEO à part entière (vidéos informatives, explicatives)
- Travailler la présence médias spécialisés pour ancrer le récit
- Accepter la nuance, même critique : elle renforce la crédibilité LLM
| Action | Impact GEO estimé |
|---|---|
| Être cité par des tiers indépendants | Très fort |
| Être mentionné dans la presse spécialisée | Très fort |
| Être présent sur YouTube (vidéos informatives) | Fort et croissant |
| Être débattu sur les forums (Q&A, comparatifs) | Fort |
| Être mentionné sans lien | Suffisant |
| S’auto-promouvoir sur son propre site uniquement | Faible seul |
5. Ce qui reste spéculatif
Plusieurs affirmations circulent sur le GEO comme des certitudes alors qu’elles restent des hypothèses plausibles mais non vérifiées, à l’heure où nous écrivons cet article. Il est important de les identifier clairement.
- La composition exacte des données d’entraînement de chaque LLM n’est pas publique.
- L’impact qualitatif précis de Reddit sur les réponses générées reste difficile à mesurer.
- Les mécanismes internes de sélection des sources lors de la génération varient selon les modèles et ne sont pas entièrement transparents.
- Le GEO est un domaine émergent : des tactiques bien établies aujourd’hui peuvent devenir caduques rapidement.
Approche recommandée : investir dans des actions qui ont de la valeur indépendamment du GEO (contenu utile, présence médias, communautés actives). Elles seront résilientes même si les algorithmes évoluent.
6. À retenir
- Reddit et YouTube sont les plateformes les plus citées par les LLMs, mais leur poids varie fortement selon l’IA.
- La sur-représentation de Reddit s’explique en partie par des accords commerciaux (203 M$ avec Google et OpenAI), pas seulement par la « confiance ».
- La presse stabilise les récits ; les forums (surtout formats Q&A) apportent le langage réel et la contradiction.
- L’autorité GEO est distribuée, émergente et complémentaire au SEO — pas opposée.
- Être cité vaut plus qu’être visible. Le off-site reste un levier GEO majeur.
7. FAQ
Pourquoi ChatGPT cite-t-il souvent Reddit ?
Parce que Reddit est massivement présent dans les données d’entraînement via des accords de licence, et qu’il offre des signaux d’usage réel : avis contradictoires, langage naturel, réponses testées par la communauté. Mais Wikipedia reste la première source citée par ChatGPT (47,9 %), loin devant Reddit (11,3 %).
Est-ce que mon site ne sert plus à rien ?
Si, il sert. Il définit l’entité et ancre votre discours de référence. Mais il ne suffit plus à vous légitimer seul aux yeux des LLMs.
Faut-il absolument être sur Reddit ou Quora ?
Non. Mais il faut exister là où le discours est indépendant — et en 2026, cela inclut YouTube. Les forums français actifs, publics et indexés ont également leur rôle.
Le GEO va-t-il remplacer le SEO ?
Non. Les deux sont complémentaires. Les marques qui performent en GEO sont généralement celles qui ont déjà une autorité SEO solide. L’un renforce l’autre.