Wizey frente a ChatGPT: cinco casos clínicos comparados en paralelo

Q: ¿Por qué ChatGPT no falló el diagnóstico principal en ninguno de los cinco casos?

El diagnóstico principal es la hipótesis más probable a partir de un panel, y en patrones clínicos comunes —síndrome metabólico, hipotiroidismo subclínico, rabdomiólisis— los LLM lo hacen genuinamente bien. El problema no es el diagnóstico en sí. Es lo que viene después: derivar al paciente al especialista adecuado, las barreras de seguridad antes del tratamiento, los niveles objetivo y los intervalos de control, los cálculos clínicos como el cociente AST/ALT.

Q: ¿Qué es una «capa de seguridad» y por qué importa en la interpretación de análisis?

Una capa de seguridad es el conjunto de condiciones previas y cribados que deben realizarse antes de iniciar cualquier tratamiento: por ejemplo, PSA antes de la terapia de reemplazo de testosterona, o mamografía y ecografía pélvica antes de la terapia hormonal menopáusica. ChatGPT se saltó sistemáticamente estas barreras, no porque «no sepa», sino porque fue entrenado con texto heterogéneo de internet, no con algoritmos clínicos de manejo del paciente.

Q: Solo probasteis ChatGPT. ¿Y Claude, Gemini u otros modelos?

Solo ChatGPT en este experimento: GPT-5.4 en el nivel Plus. No pasamos los mismos casos por otros LLM. Hemos publicado los paneles de entrada completos y las salidas textuales, así que cualquiera que quiera repetir el experimento con otros modelos puede comparar los resultados directamente. Enlazaremos tu análisis si nos lo envías.

Q: Cinco casos es poco. ¿Dónde está la evidencia a escala?

Pregunta legítima. Cinco casos son una ilustración de un patrón, no una estadística. Vimos la misma forma en los cinco, pero no lo presentamos como un estudio aleatorizado. Las conclusiones probatorias necesitan cientos de ejecuciones con evaluadores cegados y una metodología preregistrada; esa es la siguiente fase en la que trabaja el equipo.

Q: ¿Dónde están los datos brutos del experimento?

Los paneles de entrada completos y las salidas textuales de ambos servicios en los cinco casos se publican como una página complementaria independiente en /blog/2026/04/17/wizey-vs-chatgpt-raw-experiment-data/. La metodología de reproducción también está allí, por si alguien quiere pasar a los mismos pacientes por otros modelos.

Introdujimos cinco casos clínicos en ChatGPT y en Wizey —las dos herramientas de IA que un paciente hoy es más propenso a abrir cuando intenta entender un informe de laboratorio— y pedimos a cada una que interpretara los mismos análisis. Ambas IA llegaron al mismo diagnóstico. Lo que ocurrió después fue inesperado, y cambia la pregunta que vale la pena hacerle a la tecnología.

Dos respuestas para la misma persona

Hombre de cuarenta y cinco años. Un conjunto de análisis. Una petición corta: «por favor, interpreta mis análisis». Dos servicios. Esto es lo que devolvieron, textual.

ChatGPT: Haz tres cosas y la mayoría de los marcadores se normalizarán. 1) Pierde 8-12 kg. 2) Alcohol: ahora mismo casi todas las noches. Para el hígado y la insulina, esto es crítico. 3) Actividad física: un mínimo de 8.000-10.000 pasos al día más entrenamiento de fuerza tres veces por semana.

Wizey, la IA médica especializada: Endocrinólogo — para manejar la prediabetes, la resistencia a la insulina y valorar la terapia de reemplazo de testosterona. Cardiólogo o internista — para evaluar el riesgo cardiovascular. Gastroenterólogo o hepatólogo — para confirmar la esteatosis hepática. Especialista en sueño u otorrinolaringólogo — para evaluar la apnea del sueño. Urólogo-andrólogo — para un estudio más profundo de la disfunción sexual. Determinación del PSA — obligatoria antes de cualquier discusión sobre la terapia con testosterona (cribado estándar en hombres de 45 años o más).

Una persona, un conjunto de análisis. Ambas IA leyeron correctamente el cuadro: síndrome metabólico, resistencia a la insulina, hipogonadismo funcional, sospecha de apnea del sueño, déficit de vitamina D y de zinc. El diagnóstico coincidió. Lo que divergió fue lo que este hombre debería realmente hacer en las próximas dos semanas.

Somos el equipo que está detrás de Wizey. Al entrar en este experimento, nuestra apuesta de trabajo era que ChatGPT fallaría el diagnóstico. No falló ni una vez en los cinco casos. El hallazgo real fue otro: un diagnóstico principal correcto no es lo mismo que ayudar al paciente. A lo largo de cinco casos mostraremos por dónde pasa la verdadera línea de diferencia, y nombraremos el único caso en el que ChatGPT nos superó en sustancia clínica.

Cómo realizamos las pruebas

Montamos cinco paneles clínicos reconstruidos a partir de casos reales publicados (PubMed, Blood, Annals of Family Medicine), preservando cada alteración y síntoma clínicamente significativo.
Cargamos el panel idéntico en ambos servicios: ChatGPT (nivel Plus, GPT-5.4) y Wizey, una IA médica especializada.
Para ChatGPT escribimos una petición corta: «por favor, interpreta mis análisis». Sin preguntas de seguimiento, sin ingeniería de prompts. El objetivo era imitar lo que hace un paciente cualquiera con un informe impreso en la mano.
Todas las salidas se capturaron textualmente. Las citas directas de este artículo no están editadas; los pasajes en los que hemos recortado por extensión se marcan con puntos suspensivos.
Cuatro casos son escenarios ambulatorios de rutina; un caso extra es urgente, incluido específicamente para comprobar el comportamiento del triaje.

Una nota sobre el alcance

Cinco casos son una ilustración de un patrón, no una estadística. Vimos la misma forma en cada uno de los cinco, pero no lo presentamos como un estudio aleatorizado de mil ejecuciones.

Somos el equipo de Wizey: el conflicto de intereses es evidente. Para compensarlo parcialmente: la metodología quedó fijada antes de las ejecuciones, todas las salidas se citan textualmente y, allí donde ChatGPT nos superó, lo decimos directamente. Las publicaciones fuente a partir de las cuales se reconstruyó cada panel se nombran en el texto, de modo que cualquiera pueda reproducir el experimento.

Todas las pruebas se ejecutaron en un único día, el 17 de abril de 2026.

Lo que dice la literatura revisada por pares

Para los lectores que quieran las cifras antes que los casos, esto es lo que la literatura revisada por pares informa sobre ChatGPT en interpretación de laboratorio:

Cabral et al., PLOS ONE 2024: en preguntas especializadas de medicina de laboratorio, ChatGPT interpreta correctamente en torno al 51 % de los casos, y el 17 % de las respuestas son directamente erróneas.
Nature Communications Medicine, 2025: cuando se introduce discretamente un valor médico falso en el contexto del prompt, los LLM «doblan la apuesta» en el 83 % de los casos, es decir, aceptan el valor falso y construyen el razonamiento sobre él, sin señalar nunca la incongruencia.
Nature Scientific Reports, 2025: en trastornos mixtos del equilibrio ácido-base, ChatGPT devuelve un veredicto falsamente tranquilizador de «normal» en el 16,7 % de los casos; los médicos de UCI, con los mismos casos, muestran una tasa del 0 % de falsas tranquilizaciones.

Las cifras, por decirlo suavemente, son alarmantes. Pero hay un matiz. En nuestra prueba de cinco casos, ChatGPT produjo de forma fiable el diagnóstico principal correcto, incluso en los casos en los que esperábamos que tropezara: hipotiroidismo subclínico, GMSI (gammapatía monoclonal de significado incierto), rabdomiólisis inducida por estatinas, transición perimenopáusica, síndrome metabólico con hipogonadismo funcional. Cinco de cinco.

Ese es el giro real de este experimento. La diferencia no es «acertó o falló», como suele enmarcarse. La diferencia está en lo que viene después del diagnóstico correcto. Esa es la capa que desglosaremos a continuación.

Cinco casos del experimento: varón de 45 años (síndrome metabólico), mujer de 52 años (hipotiroidismo subclínico), mujer de 50 años (perimenopausia), varón de 68 años (gammapatía monoclonal), varón de 52 años (rabdomiólisis) — *Los cinco casos del experimento. Recorreremos cada uno, desde el ingeniero de 45 años hasta el caso urgente de rabdomiólisis.*

Caso 1: cuarenta y cinco años, cansado de estar cansado

Ingeniero de cuarenta y cinco años. Trabajo sedentario, un gran proyecto contra reloj, estrés crónico. Quejas: fatiga persistente que un fin de semana libre no arregla, descenso de la libido, aumento de peso, ronquidos, cefalea matutina, reflujo dos o tres veces por semana, dolor de rodillas. Alcohol: una copa o dos de vino casi todas las noches, más destilados los fines de semana. Antecedentes familiares: padre con diabetes tipo 2, madre con hipertensión. El clásico «por fin me he hecho los análisis» de un hombre de mediana edad.

Alteraciones clave del panel. HbA1c 5,9 %. HOMA-IR (índice de resistencia a la insulina) 4,9, casi el doble del límite superior de <2,5. Triglicéridos 2,4 mmol/L, LDL 3,6, HDL 0,95, ApoB 1,35, índice aterogénico 5,1. ALT 58 U/L, GGT 78 — patrón de enfermedad de hígado graso no alcohólico (EHGNA). Testosterona libre 220 pmol/L, por debajo del rango. Vitamina D 18 ng/mL, zinc 9,4 μmol/L, B12 260 pmol/L, homocisteína 11,8. PCR-us 4,8 mg/L, ácido úrico 468 μmol/L, cortisol 580 nmol/L. Perímetro abdominal 104 cm (normal <94).

Paridad en el diagnóstico. Ambas IA produjeron la misma lista: síndrome metabólico, resistencia a la insulina, prediabetes, dislipidemia aterogénica, EHGNA, hipogonadismo funcional, déficit de vitamina D y de zinc, inflamación crónica de bajo grado, hiperuricemia, sospecha de apnea obstructiva del sueño, cortisol en el rango alto-normal. ChatGPT no pasó por alto ninguna pieza del cuadro clínico. Ensambló cada dato con honestidad.

Ahora, dónde divergieron.

Enrutamiento de derivaciones. ChatGPT no nombró a ningún especialista concreto. El bloque de «dónde acudir» consistió en «urgencias» (reservado para la rabdomiólisis, no para este caso) y frases como «normalmente se prescribe» o «coméntelo con su médico». Wizey desplegó cinco especialistas con sus responsabilidades específicas:

Endocrinólogo — para manejar la prediabetes, la resistencia a la insulina, valorar la necesidad de corrección farmacológica de lípidos y glucosa y discutir la terapia de reemplazo de testosterona si los cambios de estilo de vida son insuficientes. Cardiólogo o internista — para evaluar el riesgo cardiovascular. Gastroenterólogo o hepatólogo — para confirmar la esteatosis hepática. Especialista en sueño u otorrinolaringólogo — para evaluar la apnea del sueño. Urólogo-andrólogo — para un estudio más profundo de la disfunción sexual.
— Wizey

En la mayoría de los sistemas sanitarios, ver a cinco especialistas en dos semanas es irreal; la ruta con el médico de atención primaria como filtro es más realista, e incluso con seguro privado organizar cinco consultas lleva un mes. Pero al menos el paciente sabe a quién va a ver y por qué. «Coméntelo con su médico» es una no-respuesta cuando los tiempos típicos de espera en endocrinología van de semanas a meses; el paciente simplemente abre otro chat de IA. O peor: empieza a automedicarse. O simplemente pierde un tiempo que importa.

La capa de seguridad: el fallo más grave. ChatGPT señaló la testosterona libre baja y explicó las causas. Ahí se detuvo. Wizey lo introdujo como una línea propia:

Determinación de PSA (antígeno prostático específico) — obligatoria antes de cualquier discusión sobre la terapia con testosterona. Cribado estándar en hombres de 45 años o más.
— Wizey

Esto no es una quisquillería. La terapia de reemplazo de testosterona (TRT) en presencia de un cáncer de próstata no diagnosticado puede acelerar la progresión tumoral; el cribado de PSA antes de iniciar la TRT figura en la mayoría de las guías relevantes (Endocrine Society, AUA y otras). Un hombre de 45 años que lea la salida de ChatGPT y busque TRT en una clínica boutique sin un PSA es un fallo clínico real esperando a ocurrir. La guía de terapia con testosterona de la Endocrine Society es inequívoca al respecto.

Objetivos cuantitativos. ChatGPT: «Vitamina D3 4000-5000 UI, magnesio 300-400 mg, zinc 20-30 mg, omega-3 2-3 g, complejo B». Wizey sobre la misma cuestión:

Vitamina D — con un nivel sérico de 18 ng/mL, la dosis típica es de 2000-5000 UI/día para alcanzar un rango objetivo de 40-60 ng/mL. Recontrolar a los 2-3 meses. Zinc — 15-30 mg en forma de picolinato o citrato. Magnesio 300-400 mg en forma de citrato o glicinato. Omega-3 (EPA+DHA) 1000-2000 mg. Berberina o inositol — a discutir con su endocrinólogo.
— Wizey

La diferencia es «cuánto tomar hoy» frente a «qué nivel alcanzar, qué forma elegir, cuándo recontrolar». Bajo la primera indicación, el paciente toma vitamina D y no tiene ni idea de si está funcionando. Bajo la segunda, hay un punto de control.

La cascada mecanicista. ChatGPT dio tablas y listas con viñetas: aquí está la glucosa, aquí la insulina, aquí el LDL. Wizey desplegó ocho eslabones causales numerados:

1) La grasa visceral no es solo almacenamiento; es un tejido endocrinamente activo. Libera señales inflamatorias, disminuye la sensibilidad a la insulina y convierte testosterona en estradiol. 2) Resistencia a la insulina → el páncreas produce más insulina → la insulina estimula la síntesis hepática de triglicéridos y LDL → dislipidemia. 3) Cortisol elevado → empeora la resistencia a la insulina y suprime la testosterona. 4) Alcohol diario → sube los triglicéridos y la GGT, altera el sueño. 5) Déficit de vitamina D y de zinc → reduce la síntesis de testosterona. 6) Testosterona libre baja → pérdida de masa muscular → metabolismo más lento. 7) Ronquidos más cefaleas matutinas → apnea → fragmentación del sueño → cortisol + resistencia a la insulina. 8) Antecedentes familiares: carga genética.
— Wizey

Ocho conexiones del síndrome metabólico: grasa visceral, alcohol diario, sospecha de apnea y antecedentes familiares fluyen a través de la inflamación, la resistencia a la insulina y el cortisol elevado hacia la dislipidemia, la testosterona baja y la prediabetes — *Ocho conexiones en un único cuerpo. Lo que un clínico sostiene en la cabeza y un paciente, normalmente, no.*

Este es el mapa mental que un buen clínico sostiene en la cabeza. Con él, el paciente deja de ser un pasajero en su propia fisiología: perder peso, dejar el vino de la noche y usar CPAP para la apnea dejan de ser tres acciones inconexas; son partes de un único sistema.

Encuadre emocional y pronóstico. ChatGPT se mantuvo en la afirmación clínica neutra. Wizey añadió un marco breve pero importante:

Buena noticia: la mayoría de tus problemas son reversibles… Si actúas ahora, el pronóstico es excelente: todo puede revertirse. Tu situación es típica de un hombre moderno de mediana edad. Lo importante es que lo has detectado a tiempo. Mucha gente solo acude cuando ya es diabética, o después de un infarto.
— Wizey

Esto no es terapia. Es información pronóstica —«actuar ahora importa, no es demasiado tarde»— más orientación: «tu caso no es inusual». Para un hombre de 45 años mirando un panel con veinte marcadores alterados, la diferencia entre un diagnóstico sin emoción y un diagnóstico más el reconocimiento de que la recuperación sigue siendo posible es psicológicamente significativa.

Donde ganó ChatGPT. Lp(a): con antecedentes familiares de cardiopatía coronaria, este es un marcador cardíaco importante que nosotros no mencionamos. La fórmula condensada de «tres cosas que hacer» (peso, alcohol, actividad) es memorable y motivadora. Ecografía carotídea como cribado de aterosclerosis. Victorias reales para ChatGPT en este caso.

Conclusión del caso. Paridad en el diagnóstico. Divergencia en «¿qué hace realmente este hombre en los próximos 14 días?». ChatGPT dio una fórmula motivadora de tres acciones. Wizey dio cinco especialistas con responsabilidades específicas, la barrera de seguridad PSA-antes-de-TRT, objetivos cuantitativos con intervalos de recontrol, una cascada mecanicista, un pronóstico y la tranquilidad de que el paciente iba a tiempo.

Un diagnóstico principal correcto son cero minutos de ayuda real si no hay una ruta de derivación, ni verificación de seguridad, ni niveles objetivo, ni el encuadre de «vas a tiempo» después.

Siete diferencias entre los servicios

No una estadística sobre cien casos, sino un patrón observable en cinco, repetido en cada uno. Comparamos las salidas línea por línea en siete parámetros.

Tabla de siete parámetros comparando ChatGPT y una IA médica especializada: diagnóstico, enrutamiento, seguridad, objetivos cuantitativos, pronóstico y encuadre, cascadas mecanicistas y especificidad de pruebas — *El diagnóstico coincide 5/5. Todo lo que viene después —enrutamiento, seguridad, objetivos, encuadre, mecanismo, especificidad de pruebas— diverge.*

La tabla no es una afirmación de que «ChatGPT pierde». Es un mapa de los puntos en los que los dos servicios divergen. En la pregunta rápida de «¿qué significa esto?», ChatGPT es rápido y bueno. En el plan de acción previo a la consulta médica, se desinfla de forma sistemática. No es un error: GPT se entrenó con texto heterogéneo de internet, no con algoritmos clínicos de manejo del paciente.

Donde ChatGPT nos superó, con honestidad

Pasamos el caso de GMSI (gammapatía monoclonal de significado incierto) por ambos servicios, y aquí ChatGPT ganó en sustancia clínica. Prometimos en nuestra metodología nombrar nuestros fallos directamente. Este es uno de ellos.

Hombre de sesenta y ocho años. Quejas: debilidad generalizada durante los últimos seis meses y dolor lumbar intermitente. Tratamiento con perindopril y atorvastatina 10 mg. Panel casi normal salvo por tres hallazgos: proteínas totales 92 g/L (elevadas; normal 64-83), albúmina 38 (normal), VSG 38 mm/h (más del doble del límite superior). Edad 68 + seis meses de debilidad + dolor lumbar + proteínas totales elevadas + VSG elevada = la clásica «tríada de alarma» de gammapatía monoclonal o mieloma múltiple. Hay que captarla en el cribado.

Lo que ChatGPT hizo mejor. Calculó explícitamente el cociente albúmina/globulinas: proteínas totales 92, albúmina 38 → globulinas 54, cociente 0,70 (normal >1,0). Conclusión: globulinas elevadas. A partir de ahí nombró un diferencial específico:

Tres señales de alarma: VSG 38, proteínas totales 92 y el patrón de síntomas (debilidad más dolor lumbar). Esta combinación justifica clásicamente descartar un mieloma múltiple… También puede sugerir: inflamación crónica, infección, enfermedad reumatológica, GMSI.
— ChatGPT

Y dio un estudio específico: electroforesis de proteínas séricas + inmunofijación + cadenas ligeras libres (FLC) + proteína de Bence-Jones en orina + radiografía/RM de columna + TC ósea. Ese es un checklist clínico real, exactamente lo que un hematólogo pediría. Es la diferencia entre «estudio de GMSI» y «estudio de VSG inexplicada». Según la cobertura reciente de NEJM AI sobre GPT-4 en casos clínicos, las listas de diagnóstico diferencial específicas de hematología son un área en la que los modelos de frontera han mejorado de forma apreciable.

Cuatro puntos en los que ChatGPT fue más fuerte que Wizey: Lp(a) como marcador cardiovascular, pruebas confirmatorias específicas para GMSI, fórmula condensada de tres acciones y ecografía carotídea como cribado de aterosclerosis — *Cuatro puntos en los que ChatGPT fue más fuerte. Lo dejamos por escrito para que el artículo no se convierta en marketing.*

Lo que Wizey falló. No calculamos explícitamente el cociente A/G. Mencionamos las gammapatías monoclonales como posibilidad, pero no nombramos las pruebas confirmatorias específicas: FLC, inmunofijación, Bence-Jones. Es un hueco real del producto, no una sutileza de interpretación. El equipo lo ve. Se está trabajando en ello.

Lo que Wizey sí entregó. Pese al fallo en el panel de pruebas, la salida no fue vacía. Incluyó algo que ChatGPT no:

Prepárese para su consulta: anote cuándo comenzó la debilidad, con qué frecuencia y dónde exactamente le duele la espalda, y si ha tenido fiebre, sudores nocturnos o pérdida de peso no intencional.
— Wizey

Esa lista —fiebre, sudores nocturnos, pérdida de peso— es el clásico cribado de «síntomas B» para linfoma y mieloma. Un paciente que llega a la consulta del hematólogo con una nota de dos líneas que dice «tres episodios de sudores nocturnos en seis meses, unos 3 kg de pérdida de peso no intencional» le ahorra al clínico veinte minutos de anamnesis y mejora la calidad del encuentro.

Wizey también hizo una observación metacognitiva («los rangos de referencia no estaban impresos en su informe; utilicé normas reconocidas internacionalmente»), dio una ventana de urgencia más precisa («1-2 semanas» frente al «en las próximas semanas» de ChatGPT) y comentó brevemente la medicación actual.

Conclusión editorial. Esto no es victoria/derrota: son dos modos operativos distintos. ChatGPT se comportó como un checklist de clínico en manos del paciente: una lista de pruebas que llevar al médico. Wizey se comportó como una preparación para la visita médica: síntomas B, formulación más clara de las quejas, una ventana de urgencia precisa.

Ambos modos son legítimos. Habernos saltado las pruebas específicas de GMSI es un punto en el que nos criticamos. Pero si el paciente se presenta en el hematólogo con la nota de Wizey y es el hematólogo quien pide FLC, inmunofijación y Bence-Jones (que es su trabajo), los veinte minutos ahorrados en la anamnesis de síntomas B valen mucho.

Dos casos más, el mismo patrón

Hipotiroidismo subclínico — mujer de cincuenta y dos años

Acudió por fatiga, aumento de peso y piel seca. TSH 6,8 mUI/L (elevada; normal 0,4-4,0), T4 libre y T3 dentro del rango. Colesterol total 6,8 mmol/L, LDL 4,3. Ambas IA llegaron correctamente a hipotiroidismo subclínico más dislipidemia. El diagnóstico principal volvió a coincidir.

Divergieron en una sola frase. ChatGPT:

Las guías actuales suelen recomendar iniciar tratamiento si: TSH >6-7, presencia de síntomas, edad <65. Cumples todos los criterios. Normalmente se prescribe levotiroxina a una dosis de inicio baja.
— ChatGPT

Superficialmente razonable. En sustancia, es una simplificación con consecuencias potencialmente dañinas. Las guías de la American Thyroid Association y la European Thyroid Association para TSH en el rango 4-10 mUI/L dicen en realidad lo contrario: la decisión se individualiza. Wizey lo recogió:

La decisión de iniciar tratamiento se individualiza: una TSH por encima de 10 mUI/L generalmente justifica la terapia; una TSH en el rango 4-10 mUI/L (como en su caso) depende de los síntomas, la presencia de anticuerpos tiroideos, las comorbilidades y la trayectoria en el tiempo.
— Wizey

Y dio una secuencia que ChatGPT omitió:

Repita el perfil lipídico en el seguimiento: una vez corregida la función tiroidea, el colesterol suele normalizarse por sí solo.
— Wizey

Este es el detalle pivote. Si una mujer con TSH 6,8 y colesterol 6,8 empieza simultáneamente levotiroxina y una estatina, tres meses después puede estar tomando una estatina que no necesita: el hipotiroidismo por sí mismo eleva el colesterol. Wizey añadió derivación explícita (endocrinólogo), recontrol de TSH y T4 libre en 2-3 meses y una ventana de urgencia de «2-4 semanas».

Conclusión del caso: ambos aciertan el diagnóstico. Uno empuja hacia el sobretratamiento y una estatina innecesaria. El otro construye una secuencia.

El mismo patrón aparece en el siguiente caso, sobre otro tema, y el coste de la simplificación se eleva aún más.

Perimenopausia — mujer de cincuenta años

Paciente: sofocos, sudores nocturnos, insomnio, descenso de la libido, «niebla mental». Antecedentes familiares: osteoporosis en la madre, cardiopatía coronaria en el padre. Panel: FSH 42 UI/L, estradiol 45 pmol/L (bajo), progesterona 1,2 nmol/L, anti-TPO 68 UI/mL (Hashimoto incipiente), vitamina D 22 ng/mL, ferritina 32 μg/L, PTH 68 pg/mL, LDL 3,9 mmol/L. Ambas IA llegaron a: transición perimenopáusica + tiroiditis autoinmune incipiente + déficit de vitamina D + ferropenia latente + dislipidemia posmenopáusica.

Divergieron en la terapia hormonal menopáusica (THM; la terminología antigua es THR, terapia hormonal de reemplazo; el uso actual prefiere THM). ChatGPT:

Terapia hormonal menopáusica. Muy probablemente indicada. Reduce los sofocos, mejora el sueño, protege el hueso, mejora los lípidos. La inicia un ginecólogo tras evaluación.
— ChatGPT

Wizey abrió el mismo tema en un marco de decisión:

Dada su edad (50), la ausencia de contraindicaciones y los síntomas marcados, está en la «ventana de oportunidad» para iniciar THM. Iniciar THM dentro de los primeros 10 años tras la última menstruación (usted está dentro de esa ventana) se asocia con el mayor beneficio: reducción del 80-90 % de los sofocos, mejora del sueño, estado de ánimo, libido, protección ósea y cardiovascular, prevención de la atrofia genitourinaria.
— Wizey

Lo que importa no es solo el «80-90 %»: es la barrera de seguridad que ChatGPT se saltó:

Ecografía pélvica y mamografía — para poner al día su cribado (última mamografía hace dos años, citología hace tres años). Hay que descartar contraindicaciones antes de iniciar la THM.
— Wizey

En gran parte de la cultura occidental del paciente, las discusiones sobre THM se evitan o están dominadas por los miedos desactualizados al cáncer de mama de la era WHI. Un marco de decisión con una ventana explícita, un tamaño de efecto cuantificado y el estudio de condiciones previas es raro, sobre todo para una mujer a la que su ginecóloga le dijo «es la edad, acostúmbrese». Wizey añadió además un marco emocional breve, sin excederse:

Sus síntomas no son «simplemente la edad» ni algo que tenga que aceptar. Es una condición manejable.
— Wizey

En los objetivos cuantitativos, el mismo patrón que con el hombre de 45 años. ChatGPT: «vitamina D 2000-4000 UI». Wizey: vitamina D objetivo 40-60 ng/mL, ferritina 50-100, hierro elemental 40-80 mg por la mañana en ayunas con vitamina C, calcio 1200-1500 mg, proteínas 1,0-1,2 g/kg de peso corporal. La diferencia no es la dosis: es que la paciente ahora tiene un checklist que puede monitorizar, no una sugerencia general.

Conclusión del caso: la conversación sobre la THM es un campo minado de información desactualizada. Un marco de decisión completo aquí no es un extra: es el nivel básico de apoyo al paciente.

¿Y un caso urgente?

En los cuatro casos ambulatorios, el contraste principal estaba en el enrutamiento, la seguridad y los objetivos. Pero hay otra dimensión que no se ve en los escenarios rutinarios: el triaje. Un paciente en estado crítico debería estar llamando a los servicios de emergencia, no abriendo una IA. En la práctica, abre la IA de todos modos. Ejecutamos un caso urgente para ver cómo manejaban la situación ambos servicios.

Hombre de cincuenta y dos años. En tratamiento con atorvastatina 40 mg durante 8 años por hipercolesterolemia, más diabetes tipo 2 en tratamiento con metformina. Quejas: debilidad muscular proximal grave (no puede levantar los brazos, no puede subir escaleras), dolor en hombros y caderas, orina oscura durante los últimos cinco días. Panel: CK 23.171 U/L (normal 30-200: más de 115 veces por encima), AST 3.851, ALT 594, mioglobina sérica 3.200, mioglobinuria positiva, creatinina 188 μmol/L, TFGe 38 mL/min/1,73 m², potasio 5,3 mmol/L.

Ambos acertaron. Diagnóstico: rabdomiólisis inducida por estatinas con lesión renal aguda. Etiología atribuida a la atorvastatina. Recomendación: hospitalizar. Ambos mencionaron anti-HMGCR (anticuerpos anti-HMG-CoA reductasa) y anti-SRP, marcadores de miopatía necrotizante inmunomediada asociada a estatinas (IMNM).

Más allá de eso, se separaron en tres puntos.

Triaje: la primera línea de la respuesta. ChatGPT organizó su respuesta en 12 bloques: marcadores, síntomas, causas, tratamiento. La frase «acuda al hospital inmediatamente» apareció en el noveno bloque de doce, tras un largo muro de texto. Wizey abrió el mismo caso de forma diferente:

Situación crítica: se requiere hospitalización inmediata. Sus análisis indican un daño grave agudo del tejido muscular (rabdomiólisis) que amenaza la función renal y requiere atención médica inmediata. Es una emergencia médica.
— Wizey

Y más adelante, en el bloque de urgencia:

Urgencia CRÍTICA: hospitalización requerida en cuestión de horas… Si siente un empeoramiento súbito (debilidad intensa, ritmo cardíaco irregular, disminución de la diuresis, confusión), llame al 112 / servicios de emergencia.
— Wizey

En una emergencia, la primera línea de la respuesta determina el resultado. Si el paciente ve un análisis en 12 bloques con «acuda al hospital inmediatamente» en el bloque nueve, puede perder 10-15 minutos leyendo. La ubicación del triaje es la diferencia entre «llamó a los servicios de emergencia» y «lo leyó hasta el final».

Razonamiento clínico: el cálculo AST/ALT. AST 3.851 y ALT 594 son fáciles de malinterpretar como lesión hepática grave: transaminasas por las nubes, por tanto, hígado. Wizey hizo el cálculo explícito:

Cociente AST/ALT = 6,5 (lo normal es aproximadamente 1). Este grado de predominio de AST sobre ALT es típico de lesión muscular, no de lesión hepática.
— Wizey

Sin ese cálculo, el paciente podría aterrorizarse por una «catástrofe hepática», cuando la fuente de las transaminasas aquí es el músculo. ChatGPT mencionó el patrón en términos generales, pero no calculó el cociente.

Responder a «¿por qué ahora?». El paciente llevaba 8 años con atorvastatina. ¿Por qué ha ocurrido la rabdomiólisis justo ahora?

La rabdomiólisis puede haberse desencadenado por: deshidratación sutil, interacciones farmacológicas o exposición acumulada a la estatina sobre un fondo de empeoramiento de la función renal (aclaramiento renal reducido → niveles crecientes de estatina).
— Wizey

ChatGPT omitió esta pregunta. Es una pregunta importante: es la razón por la que continuar con la estatina tras la recuperación no es una opción.

Plan posthospitalario. El de ChatGPT fue prácticamente inexistente: suspender la estatina, fluidoterapia, monitorización. El de Wizey fue un plan de alta completo: hidratación 2-2,5 L/día, restricción de proteínas a 0,8-1 g/kg, restricción de potasio, evitar AINE, CoQ10 100-200 mg/día, genotipado de SLCO1B1, alternativas a la estatina (ezetimiba, fibratos, inhibidores de PCSK9), monitorización de función renal y CK al menos cada 3 meses durante el primer año.

Conclusión del caso. En los escenarios rutinarios, el triaje es cuestión de tacto. En las emergencias, es responsabilidad clínica. La diferencia en la primera línea, en el cálculo del cociente y en el plan de alta es la diferencia entre «información» y «navegación». Para que quede absolutamente claro: en una situación de este tipo, el paciente debe llamar al 112 / servicios de emergencia, no abrir una IA.

Limitaciones del experimento

Prometimos transparencia metodológica. Esto es lo que flojea en lo que hicimos.

Cinco casos son una ilustración de un patrón, no una estadística. Las conclusiones probatorias necesitan cientos de ejecuciones, idealmente con evaluadores cegados y una metodología preregistrada. Vimos el mismo patrón en los cinco, pero reconocemos que la muestra es demasiado pequeña. Un lector sofisticado tiene derecho a decir «enséñame 200 casos». Es una exigencia legítima.

En la GMSI nos saltamos las pruebas confirmatorias específicas —FLC, inmunofijación, Bence-Jones—. Eso no es «no entendió el contexto»: es un hueco real del producto. El equipo lo sabe, y se está trabajando en una mejor recuperación de fragmentos clínicamente relevantes para patrones de panel específicos.

«Lost in the Middle». Inicialmente esperábamos que en el caso de rabdomiólisis por estatinas —un panel de ~70 marcadores con la atorvastatina enterrada a mitad de una lista de ocho medicamentos— ChatGPT no fuera capaz de conectar la miopatía con la estatina. No ocurrió: el modelo ató correctamente la atorvastatina a la CK elevada. Es posible que el efecto aparezca en paneles más grandes (150+ marcadores), que no probamos. La hipótesis queda sin verificar.

Un modelo, una versión. Probamos ChatGPT en GPT-5.4: una instantánea concreta en el tiempo. No probamos otros LLM públicos con estos casos. Los resultados pueden diferir.

Conflicto de intereses. Somos el equipo de Wizey. Para limitarlo: la metodología se fijó antes de las ejecuciones (lista de casos, prompt, servicios), y todas las salidas se citan textualmente.

Cuándo usar cada herramienta

La conclusión no es «usa Wizey». La conclusión es que la elección depende de la tarea.

Tres modos operativos: ChatGPT para respuestas rápidas y contexto educativo, Wizey para análisis detallado y preparación de la visita médica, un clínico real para exploración física y responsabilidad clínica — *Tres modos operativos. ChatGPT, respuesta rápida. IA especializada, análisis estructurado. Clínico, responsabilidad clínica.*

ChatGPT es genuinamente bueno para:

Traducir el lenguaje médico a lenguaje llano («¿qué significa realmente HOMA-IR?»)
Respuestas cortas a una pregunta focalizada («¿qué es la ferritina?»)
Contexto educativo sobre enfermedades, especialmente raras
La fórmula motivadora de «tres cosas que hacer ahora»: un primer paso concreto

Una IA médica especializada es buena para:

Una lectura estructurada de un panel de laboratorio completo
Derivación a especialistas con responsabilidades específicas
La capa de seguridad: condiciones previas antes del tratamiento, signos de alarma, ventanas de urgencia con plazos
Objetivos cuantitativos: qué nivel alcanzar, qué formulación elegir, cuándo recontrolar
Preparación de la visita: cómo formular las quejas, qué preguntas hacer, qué llevar para hacer la cita eficiente

Un clínico real sigue siendo necesario. Ninguna IA puede hacer la exploración física, la palpación, ni asumir la responsabilidad clínica del paciente. Un buen clínico aún puede hacer preguntas que la IA no ha aprendido a generar, y ve lo que no está en el informe de laboratorio. Pero llegar preparado —con un mapa de derivaciones, quejas bien formuladas y una lista de preguntas— es drásticamente mejor que llegar confundido con un montón de resultados.

La pregunta no es «qué IA es más inteligente». La pregunta es qué quieres exactamente de la tecnología: una respuesta rápida o un análisis estructurado de tu situación concreta.

Preguntas frecuentes

¿Por qué ChatGPT no falló el diagnóstico principal en ninguno de los cinco casos? El diagnóstico principal es la hipótesis más probable a partir de un panel, y en patrones clínicos comunes —síndrome metabólico, hipotiroidismo subclínico, rabdomiólisis— los LLM lo hacen genuinamente bien. El problema no es el diagnóstico en sí. Es lo que viene después: derivar al paciente al especialista adecuado, las barreras de seguridad antes del tratamiento, los niveles objetivo y los intervalos de control, los cálculos clínicos como el cociente AST/ALT.

¿Qué es una «capa de seguridad» y por qué importa en la interpretación de análisis? Una capa de seguridad es el conjunto de condiciones previas y cribados que deben realizarse antes de iniciar cualquier tratamiento: por ejemplo, PSA antes de la terapia de reemplazo de testosterona, o mamografía y ecografía pélvica antes de la terapia hormonal menopáusica. ChatGPT se saltó sistemáticamente estas barreras, no porque «no sepa», sino porque fue entrenado con texto heterogéneo de internet, no con algoritmos clínicos de manejo del paciente.

Solo probasteis ChatGPT. ¿Y Claude, Gemini u otros modelos? Solo ChatGPT en este experimento: GPT-5.4 en el nivel Plus. No pasamos los mismos casos por otros LLM. Hemos publicado los paneles de entrada completos y las salidas textuales, así que cualquiera que quiera repetir el experimento con otros modelos puede comparar los resultados directamente. Enlazaremos tu análisis si nos lo envías.

Cinco casos es poco. ¿Dónde está la evidencia a escala? Pregunta legítima. Cinco casos son una ilustración de un patrón, no una estadística. Vimos la misma forma en los cinco, pero no lo presentamos como un estudio aleatorizado. Las conclusiones probatorias necesitan cientos de ejecuciones con evaluadores cegados y una metodología preregistrada; esa es la siguiente fase en la que trabaja el equipo.

¿Dónde están los datos brutos del experimento? Los paneles de entrada completos y las salidas textuales de ambos servicios en los cinco casos se publican como una página complementaria independiente en /blog/2026/04/17/wizey-vs-chatgpt-raw-experiment-data/. La metodología de reproducción también está allí, por si alguien quiere pasar a los mismos pacientes por otros modelos.

En resumen

El diagnóstico correcto es la parte fácil. Lo que viene después —el mapa de derivaciones, las barreras de seguridad, los niveles objetivo, el pronóstico, el triaje— es donde ocurre el trabajo real de cuidar al paciente. Esa es la capa en la que los LLM de propósito general se desinflan de forma consistente, y la capa en la que una IA médica especializada está construida para vivir.

Si quieres una herramienta diseñada específicamente para este tipo de interpretación multipanel de análisis, eso es lo que estamos construyendo en Wizey. No es un sustituto de una consulta clínica: está pensada para ayudarte a llegar a una con preparación. Las salidas brutas completas de ambos servicios en los cinco casos se publican de forma abierta, junto con la metodología de reproducción, por si alguien quiere pasar a los mismos pacientes por otro modelo.