🤖 Wizey vs Gemini — L'IA multimodale surpasse-t-elle l'OCR médical spécialisé ?

Wizey vs Gemini — L'IA multimodale surpasse-t-elle l'OCR médical spécialisé ?

Travaillant au produit dans une entreprise d’IA médicale, on me pose plus de questions sur Gemini que sur tout autre concurrent de cette série. L’argumentaire est véritablement convaincant : un seul modèle qui lit votre PDF d’analyses, regarde la photo de votre tensiomètre, visionne la vidéo de 30 secondes de vous marchant pour évaluer votre démarche, et synthétise le tout avec un contexte de plus d’un million de jetons. Google a mis une ingénierie sérieuse pour que la multimodalité semble native plutôt que rajoutée.

L’instinct quand on voit cela est « eh bien, cela résout le problème de l’OCR ». Ce n’est pas le cas. Cela déplace le problème d’une couche à une autre, et ce faisant, échange la précision d’un pipeline spécialisé contre la flexibilité d’un modèle généraliste. Cet article est ma prise au niveau produit sur les moments où cet échange vaut la peine pour un patient et ceux où il ne l’est absolument pas.

Ce que Gemini fait vraiment de différent

Gemini est nativement multimodal au sens technique : il a été pré-entraîné sur du texte, des images, de l’audio et de la vidéo entrelacés plutôt que d’avoir la vision greffée après coup, comme le décrit le rapport technique Gemini de Google DeepMind. En pratique, cela signifie qu’une seule passe avant peut prendre un PDF d’analyses, une photographie d’un flacon de médicaments et une question du patient, et produire une seule réponse — au lieu d’acheminer chaque modalité via un modèle distinct et de recoudre les sorties.

Pour les entrées propres et structurées, le résultat est impressionnant. Un PDF Quest Diagnostics ou LabCorp bien scanné, avec des valeurs dactylographiées dans un tableau propre, est extrait et résumé en quelques secondes. Gemini signalera correctement quels marqueurs sont hors plage, expliquera grossièrement chacun d’eux, et remarquera souvent des combinaisons évidentes (LDL élevé avec HDL bas, par exemple). Sur son terrain — données tabulaires propres — vous obtenez ce que promet le marketing.

La question produit est : à quelle fréquence l’entrée est-elle propre ?

Le problème du document désordonné

Dans notre recherche utilisateur, je vois le même schéma se répéter. Les patients n’arrivent pas avec des PDF d’analyses immaculés. Ils arrivent avec :

  • Des photos de téléphone prises en biais, avec des reflets de la lumière au plafond dans un couloir de clinique
  • Des mises en page sur deux colonnes où la colonne de gauche déborde sur la droite lors de la compression
  • Des annotations manuscrites griffonnées par une infirmière
  • Des panneaux multipages où la quatrième page est une copie télécopiée d’une copie télécopiée
  • Des formulaires de laboratoire de petits prestataires régionaux au formatage sur mesure

Sur ces entrées, la lecture multimodale de Gemini se dégrade de manières difficiles à détecter à partir de la sortie. Une valeur peut être mal lue comme 14 au lieu de 1,4, une ligne d’alanine aminotransférase peut être tirée dans la ligne d’aspartate aminotransférase, un marqueur peut être silencieusement abandonné si sa ligne est partiellement obscurcie par l’ombre d’une agrafe. La réponse que Gemini renvoie se lit toujours couramment — elle se trouve simplement être basée sur un tableau légèrement erroné. Les recherches sur les modèles de fondation multimodaux en médecine (The Lancet Digital Health, 2024) documentent ce schéma à travers les LLM dotés de capacités visuelles.

Le même problème affecte d’autres modèles généralistes. J’ai couvert le mode d’échec étroitement lié dans la comparaison pilier Wizey vs ChatGPT : une interprétation générative n’est aussi bonne que les jetons qui y sont entrés, et les jetons dépendent d’une étape de lecture qui n’est pas toujours juste.

Extraction structurée vs lecture générative

C’est la différence architecturale qui compte. Wizey exécute deux étapes :

  1. Un OCR médical spécialisé entraîné sur des formulaires de laboratoire de centaines de prestataires, avec une gestion explicite des mises en page multi-colonnes, des superpositions manuscrites et des scans de faible qualité. La sortie est un enregistrement structuré : {marqueur, valeur, unité, référence basse, référence haute, drapeau, date, échantillon}.
  2. Une couche de raisonnement clinique qui opère sur cet enregistrement structuré, ancrée dans un graphe de connaissances médicales et des voies cliniques validées. Elle ne relit jamais les pixels bruts.

Gemini fusionne les deux étapes en une seule passe générative. C’est élégant, et sur des entrées propres, c’est rapide et précis. Mais il n’y a pas d’artefact intermédiaire structuré. Si l’extraction était erronée, vous ne pouvez pas le voir. Si l’interprétation était erronée, vous ne pouvez pas la retracer jusqu’à la bonne valeur. La débogabilité, qui du point de vue du produit est la moitié de l’histoire de sécurité, disparaît. Une étude JMIR Medical Informatics (2024) a constaté que les vérificateurs d’analyses de laboratoire spécialisés pilotés par l’IA atteignaient une précision diagnostique de 74,3 % avec une sensibilité de 100 % pour les cas de sécurité aux urgences — un niveau de performance validée que les modèles multimodaux généralistes n’ont pas démontré.

L’illusion du contexte de 1M

Le contexte d’un million de jetons de Gemini est impressionnant, et le marketing de Google s’appuie dessus pour les cas d’usage longitudinaux — « téléversez vos cinq dernières années d’analyses et obtenez une analyse de tendance ». En pratique, l’effet Perdu au milieu décrit par Liu et al. (2023) s’applique toujours : l’attention est plus forte aux extrémités d’une longue invite, plus faible au milieu. Une mesure de glycémie de la troisième année d’un historique de dix ans ne reçoit pas le même traitement que la mesure de la première ou de la dixième année.

Plus important encore, l’analyse longitudinale des analyses est fondamentalement un problème de séries temporelles. Vous voulez tracer l’hémoglobine A1c sur 20 visites et voir la pente ; vous ne voulez pas la décrire en paragraphes. Wizey stocke chaque valeur extraite comme une ligne dans une série temporelle et calcule directement les tendances. Un LLM à long contexte peut approximer cela, mais l’argument de l’outil adapté à la tâche favorise fortement le stockage structuré.

Multimodal au-delà des PDF — là où Gemini mène

Pour être juste, il y a un territoire où la multimodalité de Gemini surpasse véritablement ce qu’un pipeline spécialisé peut faire aujourd’hui. L’utilisation conversationnelle en direct — pointez votre téléphone vers une étiquette de médicament, prononcez une question, obtenez une réponse qui fait référence à l’étiquette — est une victoire légitime de Gemini. Résumer une consultation médicale enregistrée en vidéo est plausible. Lire une lettre manuscrite d’un spécialiste ponctuellement est possible.

En termes de produit : Gemini est un excellent outil universel de lecture. Le problème est que « lire un PDF d’analyses » ressemble à une tâche universelle de lecture de l’extérieur et est une tâche spécialisée de l’intérieur. La forme du problème compte plus que la modalité apparente d’entrée.

Confidentialité et la séparation grand public vs entreprise

L’API Gemini sur Google Cloud Vertex AI peut être couverte par le BAA de Google pour les clients éligibles, ce qui est la bonne voie pour toute clinique ou plateforme manipulant des Informations Médicales Protégées réelles via Gemini.

L’application grand public Gemini sur gemini.google.com et les fonctionnalités Gemini au sein de Google Workspace personnel ne comportent pas de BAA. Téléverser un PDF d’analyses là pour une lecture rapide est un schéma courant chez les patients et constitue aussi une exposition claire de PHI — que la plupart des utilisateurs ne réalisent pas être en train de créer. La distinction est invisible dans l’interface, ce qui est un véritable échec produit dans un contexte de santé.

Wizey, conçu à dessein pour un usage patient, ne demande pas aux utilisateurs de raisonner sur la version du produit qu’ils utilisent.

Comparaison côte à côte

Dimension Gemini (Google) Wizey
Lecture de documents Multimodale native, forte sur entrées propres OCR médical spécialisé, robuste sur scans désordonnés du monde réel
Format de sortie Prose générative Enregistrement structuré + interprétation en prose
Débogabilité Faible — une passe, pas d’artefact intermédiaire Élevée — chaque valeur extraite visible et modifiable
Analyse longitudinale Basée sur invite, affectée par Perdu au milieu Schéma natif de séries temporelles
Ancrage des connaissances Trace statistique + lignée Med-PaLM Graphe de connaissances médicales organisé
BAA HIPAA Vertex AI oui, Gemini grand public non Intégré pour usage patient
Meilleur usage Lecture universelle, vidéo/audio, tâches intermodales Interprétation d’analyses de bout en bout, tendances, signalement

Mini-FAQ

Puis-je téléverser une photo de mon compte rendu de laboratoire vers Gemini et obtenir une lecture fiable ? Vous pouvez obtenir une lecture. Sur des PDF propres, elle est souvent correcte. Sur des photos de téléphone, des inclinaisons, des reflets, de l’écriture manuscrite ou des mises en page sur deux colonnes, les erreurs d’extraction sont fréquentes et renvoyées sous forme de prose fluide, donc difficiles à détecter.

Un contexte de plus d’un million de jetons signifie-t-il que Gemini gère mieux des années d’analyses ? Seulement en surface. Perdu au milieu continue de dégrader le rappel à mi-contexte, et l’analyse longitudinale de laboratoire est un problème de séries temporelles — pas un problème d’invite longue.

Gemini est-il conforme à la HIPAA pour les documents médicaux ? Déploiement Vertex AI avec un BAA Google, oui. Application grand public Gemini, non.

En quoi l’OCR de Wizey diffère-t-il de la vision native de Gemini ? Wizey extrait vers un schéma structuré validé — chaque marqueur avec unité et plage de référence — avant de raisonner. Gemini lit en une seule passe générative sans artefact intermédiaire.

Quand Gemini aide-t-il véritablement pour la santé ? Traduction, explication, résumé, rédaction de questions. C’est un excellent outil de lecture et d’écriture ; l’inférence numérique spécialisée sur des scans désordonnés n’est pas son point fort.

Le mot de la fin

Gemini est le modèle multimodal le plus flexible disponible aujourd’hui pour les consommateurs, et pour de nombreuses tâches quotidiennes de lecture, c’est un bon choix. Pour la tâche spécifique de transformer un PDF d’analyses du monde réel — scanné, photographié, télécopié, parfois manuscrit — en une interprétation structurée digne de confiance, la spécialisation bat toujours la flexibilité.

C’est la niche pour laquelle Wizey a été construit : un pipeline OCR médical qui survit aux entrées désordonnées, un schéma structuré qui survit à l’analyse longitudinale, et une couche de raisonnement ancrée dans des voies cliniques validées plutôt que dans la probabilité en prose. Si vous voulez l’argument plus approfondi sur la place et les échecs des LLM généralistes en médecine, l’article pilier Wizey vs ChatGPT est le compagnon de celui-ci.

Revue médicale

Ces informations sont fournies à titre éducatif uniquement et ne se substituent pas à un avis médical professionnel, à un diagnostic ou à un traitement. Consultez toujours un professionnel de santé qualifié.

Dre Aigerim Bissenova

Directrice médicale, Médecine interne

Dernière révision le

Sources

← Blog