🤖 Wizey vs Gemini — ¿La IA multimodal supera al OCR médico especializado?

Wizey vs Gemini — ¿La IA multimodal supera al OCR médico especializado?

Trabajando en producto en una empresa de IA médica, me preguntan por Gemini más que por cualquier otro competidor de esta serie. La propuesta es genuinamente atractiva: un único modelo que lee tu PDF de laboratorio, mira la foto de tu tensiómetro, ve el vídeo de 30 segundos de ti caminando para evaluar tu marcha, y lo sintetiza todo con un contexto de más de 1M de tokens. Google ha puesto una ingeniería seria en hacer que la multimodalidad se sienta nativa en lugar de añadida.

El instinto cuando ves esto es “bueno, eso resuelve el problema del OCR”. No lo hace. Mueve el problema de una capa a otra, y al hacerlo intercambia la precisión de un pipeline especializado por la flexibilidad de un modelo generalista. Este artículo es mi visión a nivel de producto sobre cuándo ese intercambio vale la pena para un paciente y cuándo absolutamente no.

Qué hace Gemini realmente de forma diferente

Gemini es nativamente multimodal en un sentido técnico: fue preentrenado con texto, imágenes, audio y vídeo intercalados en lugar de tener la visión injertada después del hecho, tal como describe el informe técnico de Gemini de Google DeepMind. En la práctica, esto significa que una única pasada hacia delante puede tomar un PDF de laboratorio, una fotografía de un bote de medicamentos y una pregunta del paciente, y producir una única respuesta — en lugar de enrutar cada modalidad a través de un modelo distinto y coser las salidas.

Para entradas limpias y estructuradas, el resultado es impresionante. Un PDF de Quest Diagnostics o LabCorp bien escaneado, con valores escritos a máquina en una tabla limpia, se extrae y se resume en segundos. Gemini señalará correctamente qué marcadores están fuera de rango, explicará cada uno a grandes rasgos y, a menudo, notará combinaciones obvias (LDL alto con HDL bajo, por ejemplo). En su terreno — datos tabulares limpios — obtienes lo que promete el marketing.

La pregunta de producto es: ¿con qué frecuencia la entrada es limpia?

El problema del documento desordenado

En nuestra investigación de usuarios, veo el mismo patrón repetidamente. Los pacientes no llegan con PDF de laboratorio impolutos. Llegan con:

  • Fotos de móvil tomadas en ángulo, con reflejos de la luz cenital en el pasillo de una clínica
  • Diseños de dos columnas en los que la columna izquierda se solapa con la derecha al comprimirse
  • Anotaciones manuscritas garabateadas por una enfermera
  • Paneles multipágina donde la página cuatro es una copia por fax de una copia por fax
  • Formularios de laboratorio de pequeños proveedores regionales con formato a medida

En estas entradas, la lectura multimodal de Gemini se degrada de maneras difíciles de detectar desde la salida. Un valor puede leerse como 14 en lugar de 1,4, una fila de alanina aminotransferasa puede arrastrarse a la línea de aspartato aminotransferasa, un marcador puede descartarse silenciosamente si su fila está parcialmente tapada por la sombra de una grapa. La respuesta que devuelve Gemini sigue leyéndose con fluidez — simplemente resulta que está basada en una tabla ligeramente incorrecta. La investigación sobre modelos fundacionales multimodales en medicina (The Lancet Digital Health, 2024) documenta este patrón en los LLM con capacidad visual.

El mismo problema afecta a otros modelos generalistas. Cubrí el modo de fallo estrechamente relacionado en la comparación pilar Wizey vs ChatGPT: una interpretación generativa solo es tan buena como los tokens que entraron en ella, y los tokens dependen de un paso de lectura que no siempre es correcto.

Extracción estructurada vs lectura generativa

Esta es la diferencia arquitectónica que importa. Wizey ejecuta dos etapas:

  1. Un OCR médico especializado entrenado en formularios de laboratorio de cientos de proveedores, con manejo explícito de diseños multicolumna, superposiciones manuscritas y escaneos de baja calidad. La salida es un registro estructurado: {marcador, valor, unidad, referencia inferior, referencia superior, bandera, fecha, muestra}.
  2. Una capa de razonamiento clínico que opera sobre ese registro estructurado, anclada en un grafo de conocimiento médico y rutas clínicas validadas. Nunca vuelve a leer los píxeles en bruto.

Gemini fusiona ambos pasos en una única pasada generativa. Eso es elegante, y con entradas limpias es rápido y preciso. Pero no hay artefacto intermedio estructurado. Si la extracción fue incorrecta, no puedes verlo. Si la interpretación fue incorrecta, no puedes rastrearla hasta el valor correcto. La depurabilidad, que desde una perspectiva de producto es la mitad de la historia de seguridad, desaparece. Un estudio de JMIR Medical Informatics (2024) encontró que los verificadores especializados de pruebas de laboratorio basados en IA alcanzaron una precisión diagnóstica del 74,3% con una sensibilidad del 100% para casos de seguridad de urgencias — un nivel de rendimiento validado que los modelos multimodales generalistas no han demostrado.

La ilusión del contexto de 1M

El contexto de un millón de tokens de Gemini es impresionante, y el marketing de Google se apoya en él para casos de uso longitudinales — “sube tus últimos cinco años de análisis y obtén un análisis de tendencias”. En la práctica, el efecto Perdido en el medio descrito por Liu et al. (2023) sigue aplicándose: la atención es más fuerte en los bordes de un prompt largo, más débil en el medio. Una lectura de glucosa del año tres de un historial de diez años no recibe el mismo tratamiento que la lectura del año uno o el año diez.

Más importante aún, el análisis longitudinal de análisis es fundamentalmente un problema de series temporales. Quieres trazar la hemoglobina A1c a lo largo de 20 visitas y ver la pendiente; no quieres describirla en párrafos. Wizey almacena cada valor extraído como una fila en una serie temporal y calcula las tendencias directamente. Un LLM de contexto largo puede aproximarse a esto, pero el argumento de la herramienta adecuada para el trabajo favorece claramente el almacenamiento estructurado.

Multimodal más allá de los PDF — donde Gemini lidera

Para ser justos, hay territorio donde la multimodalidad de Gemini supera genuinamente lo que puede hacer hoy un pipeline especializado. El uso conversacional en vivo — apuntar el teléfono a una etiqueta de medicamento, decir una pregunta, obtener una respuesta que referencia la etiqueta — es una victoria legítima de Gemini. Resumir una consulta médica grabada en vídeo es plausible. Leer una carta manuscrita de un especialista como caso puntual es posible.

En términos de producto: Gemini es una gran herramienta universal de lectura. El problema es que “leer un PDF de laboratorio” parece una tarea universal de lectura desde fuera y es una tarea especializada desde dentro. La forma del problema importa más que la modalidad aparente de entrada.

Privacidad y la división consumidor vs empresa

La API de Gemini en Google Cloud Vertex AI puede estar cubierta bajo el BAA de Google para clientes elegibles, que es la ruta correcta para cualquier clínica o plataforma que maneje Información Médica Protegida real a través de Gemini.

La aplicación de consumo Gemini en gemini.google.com y las funciones de Gemini dentro de Google Workspace personal no llevan un BAA. Subir un PDF de laboratorio allí para una lectura rápida es un patrón común entre los pacientes y también es una exposición clara de PHI — una que la mayoría de los usuarios no se da cuenta de que están creando. La distinción es invisible en la interfaz, lo que es un fallo de producto genuino en un contexto sanitario.

Wizey, diseñado específicamente para uso de pacientes, no pide a los usuarios que razonen sobre en qué versión del producto están.

Comparación lado a lado

Dimensión Gemini (Google) Wizey
Lectura de documentos Multimodal nativa, fuerte en entradas limpias OCR médico especializado, robusto en escaneos desordenados del mundo real
Formato de salida Prosa generativa Registro estructurado + interpretación en prosa
Depurabilidad Baja — una pasada, sin artefacto intermedio Alta — cada valor extraído visible y editable
Análisis longitudinal Basado en prompt, afectado por Perdido en el medio Esquema nativo de series temporales
Anclaje de conocimiento Traza estadística + linaje Med-PaLM Grafo de conocimiento médico curado
BAA de HIPAA Vertex AI sí, Gemini de consumo no Integrado para uso de pacientes
Mejor uso Lectura universal, vídeo/audio, tareas multimodales Interpretación de laboratorio de extremo a extremo, tendencias, marcado

Mini-FAQ

¿Puedo subir una foto de mi informe de laboratorio a Gemini y obtener una lectura fiable? Puedes obtener una lectura. En PDF limpios suele ser correcta. En fotos de móvil, inclinación, reflejos, escritura a mano o diseños de dos columnas, los errores de extracción son comunes y se devuelven como prosa fluida, por lo que son difíciles de detectar.

¿Significa el contexto de más de 1M que Gemini maneja mejor años de análisis? Solo en la superficie. Perdido en el medio sigue degradando la recuperación a medio contexto, y el análisis longitudinal de laboratorio es un problema de series temporales — no un problema de prompt largo.

¿Cumple Gemini con HIPAA para documentos médicos? Despliegue en Vertex AI con un BAA de Google, sí. Aplicación de consumo Gemini, no.

¿En qué se diferencia el OCR de Wizey de la visión nativa de Gemini? Wizey extrae a un esquema estructurado validado — cada marcador con unidad y rango de referencia — antes de razonar. Gemini lee en una pasada generativa sin artefacto intermedio.

¿Cuándo ayuda Gemini genuinamente con la salud? Traducción, explicación, resumen, redacción de preguntas. Es una excelente herramienta de lectura y escritura; la inferencia numérica especializada sobre escaneos desordenados no es su fuerte.

En conclusión

Gemini es el modelo multimodal más flexible disponible hoy para los consumidores, y para muchas tareas cotidianas de lectura es una buena opción. Para el trabajo específico de convertir un PDF de laboratorio del mundo real — escaneado, fotografiado, enviado por fax, a veces manuscrito — en una interpretación estructurada fiable, la especialización sigue ganando a la flexibilidad.

Ese es el nicho para el que se construyó Wizey: un pipeline de OCR médico que sobrevive a entradas desordenadas, un esquema estructurado que sobrevive al análisis longitudinal y una capa de razonamiento anclada en rutas clínicas validadas en lugar de probabilidad de prosa. Si quieres el argumento más profundo sobre dónde encajan y fallan los LLM generalistas en medicina, la pieza pilar Wizey vs ChatGPT es la compañera de esta.

Revisión médica

Esta información tiene fines exclusivamente educativos y no sustituye el asesoramiento, el diagnóstico ni el tratamiento médico profesional. Consulte siempre a un profesional de la salud cualificado.

Dra. Aigerim Bissenova

Directora Médica, Medicina Interna

Última revisión el

Fuentes

← Blog