🤖 Wizey vs Perplexity — Peut-on faire confiance aux citations de l'IA en médecine ?
Perplexity donne l’impression d’être la réponse adulte à ChatGPT. Vous posez une question, vous obtenez une réponse fluide, et là, dans les notes de bas de page, se trouvent les sources. L’UX est propre, les citations paraissent faisant autorité, et — de manière critique pour un patient qui examine ses résultats de laboratoire — toute l’expérience suggère « c’est digne de confiance parce que c’est cité ».
Du point de vue de la conception produit, Perplexity a fait quelque chose de véritablement astucieux : ils ont livré le RAG (Génération Augmentée par Récupération) comme expérience grand public, et ils ont rendu la récupération visible. C’est une réussite réelle. Mais en tant que personne qui a observé les utilisateurs interagir avec l’IA médicale pendant des années, je peux vous dire que le signal de confiance fait beaucoup de travail que le système sous-jacent n’a pas tout à fait mérité. Dans cet article, je veux expliquer où Perplexity brille, où il échoue spécifiquement en médecine, et pourquoi un RAG à la Wizey sur un corpus organisé est un produit différent même si l’architecture rime.
Ce qu’est réellement Perplexity
Perplexity est un produit LLM augmenté par la recherche. Sous le capot, une requête déclenche une recherche en direct sur le web, les meilleurs résultats sont récupérés et fragmentés, les fragments sont plongés, les fragments les plus pertinents sont introduits dans un LLM — souvent GPT, Claude ou le propre modèle Sonar de Perplexity — avec la requête, et il est demandé au modèle de répondre en utilisant ces fragments tout en citant chaque affirmation. C’est du RAG classique comme décrit dans Lewis et al. (2020), enveloppé dans une UI rapide et attrayante.
Les choix d’ingénierie clés sont : récupérer depuis le web ouvert en temps réel, utiliser un LLM généraliste pour synthétiser, et faire apparaître les citations en ligne. Cette combinaison est la source à la fois de ses forces et de ses faiblesses médicales.
Ce qui fonctionne : connaissances générales, actualité, visibilité des sources
Pour les questions non cliniques, Perplexity est excellent. Il bat les LLM statiques sur tout sujet où la fraîcheur compte — sorties récentes de produits, changements de politiques, développements du marché — parce qu’il lit réellement le web au moment de la requête. Les citations vous permettent de cliquer et de vérifier, ce qui est une véritable discipline par rapport à un chatbot pur qui vous demande de faire confiance à son entraînement. Une analyse JAMA (2023) a souligné que la visibilité des sources relève matériellement la confiance perçue dans les réponses d’IA, pour le meilleur et pour le pire.
Pour un clinicien faisant du balayage de littérature, Perplexity Pro avec sa recherche axée sur l’académique peut être un outil de bibliothèque véritablement utile. Si vous savez quoi chercher dans une citation, il fait gagner du temps.
Pour un patient essayant d’interpréter son PDF d’analyses, les mêmes fonctionnalités deviennent un handicap. Le raisonnement mérite d’être décortiqué.
Pourquoi les citations ne valent pas exactitude en médecine
Trois modes d’échec spécifiques apparaissent de manière répétée lorsque les patients utilisent Perplexity pour l’interprétation des analyses :
1. La source est réelle, mais l’affirmation qu’elle étaye n’est pas ce que la source dit réellement. Un LLM résumant un fragment de texte récupéré peut dériver. Perplexity pourrait citer une page NIH légitime tout en faisant une affirmation que la page NIH ne contient pas — la page et l’affirmation vivent près l’une de l’autre statistiquement, pas sémantiquement. Les recherches documentées dans The Lancet Digital Health (2024) montrent ce schéma à travers plusieurs systèmes RAG : les citations renforcent la confiance perçue sans nécessairement renforcer l’exactitude factuelle.
2. La source a l’air légitime mais ne fait pas autorité sur le plan médical. La récupération de Perplexity traite le web ouvert comme son corpus. Un blog de santé bien classé, un résumé Healthline, un article Medium, un fil Reddit médical populaire — ceux-ci apparaissent systématiquement dans les citations aux côtés de PubMed et Mayo. Un patient n’a pas de moyen facile de les pondérer. Les directives cliniques évaluées par les pairs sont assises à côté du post d’un influenceur bien-être, toutes deux rendues avec le même style de note de bas de page.
3. Le problème du picorage. Le RAG récupère des fragments qui se plongent près de la requête. Sur un sujet médical nuancé, le fragment le plus pertinent pour la requête est souvent une phrase hors contexte qui ne reflète pas les directives complètes. Par exemple, une question sur « la ferritine élevée est-elle toujours une surcharge en fer ? » peut récupérer un fragment indiquant que la ferritine augmente avec les réserves de fer — ce qui est vrai dans un cadre et profondément trompeur dans le cadre inflammatoire bien plus courant. La phrase citée est exacte ; la réponse qui en est construite est fausse.
L’exemple de la ferritine, concrètement
Laissez-moi vous décrire un schéma réel que je vois. Un patient demande à Perplexity : « ma ferritine est à 450, qu’est-ce que cela signifie ? » Une réponse typique extrait des fragments mentionnant la surcharge en fer, l’hémochromatose et la maladie hépatique, cite MedlinePlus et produit un essai à la sonorité mesurée sur ces affections. Cela a l’air faisant autorité.
Ce qui est typiquement manqué, à moins que l’utilisateur ait formulé la question exactement comme il faut, c’est que la ferritine est un réactif de phase aiguë. En présence d’inflammation — infection, poussée auto-immune, chirurgie récente, inflammation de bas grade liée à l’obésité — la ferritine augmente indépendamment des réserves réelles de fer. La référence MedlinePlus sur la ferritine le précise explicitement. L’interprétation clinique correcte dépend de la co-lecture de la CRP et du panel martial complet (fer sérique, saturation de la transferrine, TIBC). Sans cette co-lecture, une réponse « ferritine élevée » n’est pas fausse en isolation — elle opère simplement sur le mauvais cadre.
Wizey gère cela parce que le pipeline extrait la ferritine et la CRP et le panel martial de votre PDF en tant que valeurs structurées, et la couche d’interprétation a des règles explicites dans son graphe de connaissances sur l’interprétation de la phase aiguë. Même modèle d’architecture de récupération que Perplexity, corpus complètement différent et contraintes complètement différentes.
La qualité du RAG est un problème de corpus, pas un problème d’UX
C’est le point que je veux que les ingénieurs qui lisent ceci entendent. L’UX de Perplexity donne des citations. Son corpus est le web ouvert. Le corpus détermine ce à quoi vous pouvez et ne pouvez pas répondre de manière fiable.
Le RAG de Wizey est architecturalement similaire : extraire les fragments pertinents, les alimenter à une couche de raisonnement, produire une réponse ancrée. La différence est le corpus — un graphe de connaissances médicales organisé, construit sur des directives évaluées par les pairs (USPSTF, ACP, NICE, recommandations des sociétés de cardiologie et d’endocrinologie), des intervalles de référence filtrés et des voies cliniques validées. Il n’y a pas de Reddit dans le corpus. Il n’y a pas de blogs de santé dans le corpus. Le compromis est moins d’étendue, beaucoup plus de fiabilité, et vous ne pouvez pas utiliser Wizey pour chercher les nouvelles de l’IA de la semaine dernière — seulement pour interpréter des données de laboratoire.
Pour un aperçu plus large de la raison pour laquelle l’IA médicale nécessite ce genre de spécialisation, je recommande la comparaison pilier Wizey vs ChatGPT qui couvre en profondeur la distinction génératif vs extractif.
Confidentialité : Perplexity grand public et PHI
Le produit grand public de Perplexity conserve les requêtes et les sorties pour l’amélioration du service selon sa politique de confidentialité standard. Ce n’est pas un service couvert par la HIPAA et il n’est pas destiné aux Informations Médicales Protégées. Perplexity Enterprise offre une gestion des données plus solide, mais un BAA n’est pas sa posture par défaut, et le produit reste fondamentalement un outil de recherche général.
Un patient qui colle ses valeurs d’analyses, son nom dans l’en-tête et sa date de naissance dans un chat Perplexity grand public expose sa PHI à un produit de recherche grand public. Le produit ne fait rien pour les avertir, parce que le produit n’est pas conçu pour ce cas d’usage.
Wizey, comme les autres IA médicales conçues à dessein, conserve la PHI à l’intérieur d’une frontière conforme et traite les données de laboratoire comme protégées par conception.
Quand Perplexity aide véritablement
Pour finir sur la note équilibrée que cela mérite : Perplexity est un bon outil pour des tâches spécifiques adjacentes aux soins de santé.
- Balayer la littérature récente sur un médicament ou une maladie avant une visite chez un spécialiste
- Vérifier si une directive a été récemment mise à jour
- Trouver des sources faisant autorité sur un sujet étroit que vous pouvez ensuite lire vous-même
- Vous orienter dans un sous-domaine médical peu familier pour apprendre quels termes rechercher
- Lire des actualités médicales étrangères avec un contexte de traduction intégré
Pour celles-ci, la récupération web en temps réel est une fonctionnalité. Rappelez-vous simplement que pour la tâche plus difficile d’interpréter vos propres résultats numériques d’analyses, le web ouvert est le mauvais corpus, quelle que soit la netteté du rendu des citations.
Comparaison côte à côte
| Dimension | Perplexity | Wizey |
|---|---|---|
| Corpus | Web ouvert, récupéré en direct | Graphe de connaissances médicales organisé + protocoles cliniques |
| Style de citation | Visible en ligne, autorité mixte | Implicite, toujours à partir de sources validées |
| Traitement des PDF d’analyses | Lit les chiffres, colle des extraits web | Extraction structurée + interprétation ancrée dans un protocole |
| Raisonnement entre marqueurs | Faible — ce que les fragments récupérés se trouvent dire | Explicite dans le graphe de connaissances (ferritine × CRP, TSH × fT4) |
| Suivi longitudinal | Non pris en charge | Séries temporelles natives |
| BAA HIPAA | Grand public non, Enterprise limité | Intégré pour usage patient |
| Meilleur usage | Balayage de littérature, actualité, orientation rapide | Interprétation d’analyses de bout en bout pour les patients |
Mini-FAQ
Si Perplexity cite des sources, pourquoi n’est-ce pas suffisant en médecine ? La citation prouve qu’une source existe près de l’affirmation. Elle ne prouve pas que la source valide l’affirmation spécifique. Perplexity cite régulièrement de vraies pages qui ne soutiennent pas réellement la réponse assemblée — surtout sur des sujets cliniques nuancés.
Perplexity peut-il interpréter mes résultats d’analyses ? Il peut commenter chaque marqueur en assemblant des extraits web. Il ne peut pas ancrer l’interprétation dans des protocoles cliniques validés, croiser les marqueurs liés ou suivre les tendances.
Perplexity est-il conforme à la HIPAA ? Perplexity grand public, non. Perplexity Enterprise a une gestion plus stricte mais reste un outil de recherche général, pas une plateforme de qualité médicale.
Quelle est la vraie différence entre le RAG de Perplexity et le RAG de Wizey ? Le corpus. Même modèle d’architecture ; web ouvert vs graphe de connaissances médicales organisé.
Quand Perplexity est-il utile dans les soins de santé ? Balayage de littérature, vérifications d’actualité, orientation sur des sujets — pour les utilisateurs qui peuvent évaluer de manière critique les sources citées.
Le mot de la fin
Perplexity a transformé le RAG en un beau produit grand public, et pour de nombreuses questions non cliniques, c’est le meilleur outil d’IA à usage général disponible. L’UX à citations visibles est une discipline véritablement utile pour tout système d’IA.
En médecine, cependant, la partie du système qui détermine réellement la fiabilité est le corpus, pas l’UX. Le web ouvert est le mauvais endroit pour ancrer l’interprétation des analyses d’un patient. Un graphe de connaissances médicales organisé, ancré dans des directives évaluées par les pairs et des voies cliniques validées, est ce sur quoi est construit un outil spécialisé comme Wizey. Même modèle de récupération, promesse très différente — et pour la tâche étroite de lire votre bilan sanguin en toute sécurité, la promesse est ce qui compte. Si vous voulez l’argument architectural plus approfondi, le billet pilier Wizey vs ChatGPT le parcourt de bout en bout.