🤖 Wizey vs Claude — IA Constitucional en medicina, ¿es suficiente?
Claude tiene fama en mis círculos de ser el adulto de la sala entre los grandes modelos de lenguaje. Rechaza con más cuidado, alucina menos a menudo y da respuestas más matizadas cuando se le empuja sobre disyuntivas. Como ingeniero que lleva una década enviando productos de IA, lo aprecio — y uso Claude a diario para revisión de código, escritura y lectura de documentos largos.
Pero un LLM que se porta bien no es automáticamente una herramienta médica segura. En esta pieza quiero ver qué hace realmente la IA Constitucional, dónde Claude mejora de forma genuina a otros chatbots generalistas para preguntas de salud y dónde la arquitectura sigue quedándose corta frente a lo que una IA médica especializada como Wizey está construida para hacer. Es una pieza técnica, pero mantendré la jerga explicable.
Qué es realmente la IA Constitucional (en lenguaje llano)
La IA Constitucional, introducida por el equipo de Anthropic en Bai et al., 2022, es una técnica de entrenamiento que utiliza un conjunto escrito de principios — una «constitución» — para guiar al modelo lejos de salidas dañinas, engañosas o poco útiles. En lugar de basarse únicamente en anotadores humanos que comparan pares de respuestas (el clásico bucle RLHF), la IA Constitucional añade un segundo bucle en el que el modelo critica sus propias salidas frente a la constitución y luego las revisa. Anthropic llama a la técnica resultante RLAIF: aprendizaje por refuerzo a partir de retroalimentación de IA.
La constitución no es un reglamento sobre medicina o derecho; es un conjunto de valores de alto nivel como «sé útil, inocuo y honesto», negarse a ayudar con la violencia, no simular ser humano, ser cauto ante la incertidumbre, etcétera. A lo largo del entrenamiento, el modelo interioriza estos principios. Por eso Claude parece más consistente en los casos límite que algunos de sus pares — su «comportamiento de rechazo» y su «comportamiento de respuesta» los da la misma lógica de valores, en vez de pegarlos encima como un filtro separado.
Por qué esto ayuda (un poco) en las conversaciones médicas
Varias propiedades de la IA Constitucional se traducen en ventajas reales cuando un paciente hace una pregunta de salud:
- Incertidumbre calibrada. Claude está más dispuesto a decir «no estoy seguro» o «deberías verificarlo con un clínico», que en medicina es genuinamente la respuesta correcta más a menudo que en código o marketing.
- Menos confabulación florida. Cuando los modelos no saben, tienden a echar mano de prosa con apariencia plausible. Claude parece hacer esto menos a menudo que los modelos de base de la clase GPT, según las evaluaciones internas de Anthropic y los benchmarks independientes referenciados en la literatura reciente sobre razonamiento médico de LLM.
- Mejor retención de contexto largo para documentos complejos. Con un informe de consulta de especialista de 30 páginas limpio, Claude hace un mejor trabajo manteniéndose fiel a la fuente que algunos competidores.
Son victorias reales. Si vas a usar un LLM generalista para resumir un artículo médico o traducir un informe anatomopatológico, Claude es una elección defendible.
Dónde la IA Constitucional deja de ser suficiente
La medicina no es solo un dominio crítico para la seguridad; es un dominio donde la respuesta correcta depende de datos estructurados interpretados contra protocolos clínicos validados. La IA Constitucional, por fuerte que sea, no resuelve tres problemas centrales:
- Sin extracción estructurada. Cuando Claude lee tu PDF, lo lee como texto. No construye una tabla interna con tus 60 marcadores con unidades, rangos de referencia y marcas de tiempo — procesa una secuencia de tokens. Los valores pueden leerse mal (especialmente en los límites del OCR), confundirse entre ensayos o perderse en silencio a mitad de un documento largo.
- Sin un grafo de conocimiento médico anclado. El «conocimiento» de Claude es un rastro estadístico de su corpus de entrenamiento. No tiene un mapa curado que le diga, por ejemplo, que la ferritina es un reactante de fase aguda y debe cointerpretarse con la PCR — da la casualidad de que ha leído mucho texto que lo dice y recupera esa asociación con cierta fiabilidad parte del tiempo.
- Sin barandillas rígidas sobre el razonamiento numérico. El razonamiento libre es fluido y persuasivo, pero no está verificado. Cuando Claude explica por qué tu TSH y T4 libre sugieren hipotiroidismo subclínico, el razonamiento puede ser correcto, parcialmente correcto o confiadamente erróneo — no puedes distinguirlo solo por la prosa, sin cotejarlo con una fuente de referencia.
Esta es la misma limitación subyacente sobre la que he escrito en la comparativa pilar Wizey vs ChatGPT: un LLM generalista genera, mientras que un especialista extrae, valida y aplica. La generación de Claude tiene mejor comportamiento, pero sigue siendo generación.
El problema de Lost in the Middle no se rinde ante tu constitución
Incluso con el excelente rendimiento de contexto largo de Claude, el fenómeno Lost in the Middle descrito por Liu et al. (2023) sigue aplicándose: los LLM atienden con más fuerza al principio y al final de su entrada que al medio. En un panel denso de 40–60 marcadores repartido en cinco páginas, un valor en la mitad de la página tres puede ser reconocido pero infravalorado en la interpretación final.
El entrenamiento constitucional no cambia esto — es un artefacto de la arquitectura transformer y del encoding posicional. Anthropic ha logrado mejoras genuinas en sus lanzamientos recientes de modelos, pero ningún benchmark público que haya visto muestra que el efecto se haya eliminado del todo para la recuperación de datos aislados en el medio del contexto.
Wizey aborda esto de forma estructural, no estadística. El pipeline primero extrae cada valor a un esquema; el análisis se ejecuta entonces sobre una tabla de 60 filas en vez de sobre un PDF de 5 páginas. Lost in the Middle en una tabla estructurada corta se comporta de forma muy distinta a Lost in the Middle en texto libre.
Privacidad y HIPAA: Claude de consumidor vs Claude Enterprise
Aquí emerge una distinción real. La API de Anthropic y Claude Enterprise admiten Acuerdos de Asociado de Negocio HIPAA y pueden configurarse con Retención Cero de Datos, lo que significa que los prompts y las respuestas no se persisten más allá de la sesión. Es una opción legítima para una clínica que construye una herramienta interna.
El producto de consumidor en claude.ai bajo los niveles gratuito y Pro es otra historia. Bajo los términos de consumidor, las conversaciones pueden retenerse para revisión de seguridad y política, y la cuenta no está cubierta por un BAA. Para un paciente que quiera discutir su PDF de laboratorio, este es el nivel que realmente usaría — y subir Información Sanitaria Protegida allí no está cubierto por las protecciones de empresa.
En comparación, Wizey está diseñado desde cero para la PHI: la capa de extracción corre dentro de un perímetro conforme, y el análisis está anclado en un corpus clínico validado que no sale del servicio.
Cuándo recurro a Claude de todos modos
Para que quede claro, hay un lugar real para Claude en el flujo de un paciente. Personalmente lo uso para:
- Explicar lo que significa un término médico antes de profundizar.
- Traducir un informe de laboratorio del español o el francés al inglés preservando el matiz clínico.
- Resumir un PDF largo de una carta de consulta de especialista.
- Redactar preguntas de seguimiento estructuradas para mi propia consulta de atención primaria.
- Leer críticamente un artículo de un ensayo clínico.
Nada de esto es «interpreta los valores de mi laboratorio y dime qué pasa». Son tareas en las que la respuesta se verifica contra mi propio juicio o el de mi médico, y donde el trabajo del LLM es trabajo lingüístico, no inferencia numérica. Un análisis similar para un modelo de pesos abiertos pesado en razonamiento aparece en mi comparativa Wizey vs DeepSeek R1.
Comparativa en paralelo
| Dimensión | Claude (Anthropic) | Wizey |
|---|---|---|
| Tipo de modelo | LLM generalista (IA Constitucional + RLAIF) | Pipeline médico especializado (OCR → extracción → grafo de conocimiento → RAG validado) |
| Extracción numérica | Implícita, por lectura de texto | Determinista, estructurada, con unidades validadas |
| Anclaje del conocimiento médico | Rastro estadístico de los datos de entrenamiento | Grafo de conocimiento médico curado + protocolos clínicos |
| Perfil de alucinaciones | Menor que la mayoría de sus pares, distinto de cero | Acotado — rechaza fuera de protocolo en lugar de fabricar |
| Contexto largo | Hasta ~1 M tokens, aún afectado por Lost in the Middle | El análisis corre sobre una tabla estructurada corta, no sobre un PDF largo |
| BAA HIPAA | Disponible en API / Enterprise, no en consumidor | Integrado para uso de pacientes |
| Mejor uso | Lectura, escritura, explicación, traducción | Interpretación integral de paneles de laboratorio, seguimiento longitudinal |
Mini-FAQ
¿Alucina Claude menos que ChatGPT en preguntas médicas? De forma incremental sí en muchos benchmarks, impulsado por la IA Constitucional y RLAIF. Pero «menos a menudo» no es «nunca», y el modo de fallo cuando ocurre — una respuesta confiada, fluida y médicamente errónea — es idéntico.
¿Claude cumple con HIPAA para subir resultados de laboratorio? Solo en la API de Anthropic o en Claude Enterprise con un BAA en vigor. El claude.ai de consumidor no, y la Política de Uso de Anthropic sitúa explícitamente el diagnóstico y el tratamiento médicos en una categoría de human-in-the-loop.
¿Es suficiente el contexto de 1 M tokens de Claude para años de laboratorios? La ventana es lo bastante grande, pero Lost in the Middle sigue degradando la recuperación en mitad del contexto. La extracción estructurada a una serie temporal supera a meter a la fuerza un PDF largo en el prompt.
Si Claude es más seguro, ¿por qué no usarlo para todo? Un comportamiento de rechazo más seguro no es lo mismo que validez clínica. Wizey está diseñado para la tarea específica de convertir una hoja de laboratorio en una interpretación clínicamente coherente; Claude está diseñado para el trabajo lingüístico general.
¿Para qué sirve Claude en el flujo de un paciente? Tareas lingüísticas — explicar, traducir, resumir, redactar preguntas. No la interpretación numérica de un resultado multipanel.
En resumen
Claude es el LLM generalista más reflexivo del mercado, y la IA Constitucional es un logro de ingeniería significativo. Para un paciente que quiere entender lo que significa «anemia microcítica hipocrómica» o traducir una carta de especialista, es una herramienta genuinamente buena.
Para la tarea más estrecha y más difícil de convertir un PDF de laboratorio de varias páginas en una interpretación estructurada y clínicamente coherente con rangos de referencia verificados, tendencias longitudinales y patrones cruzados entre marcadores señalados — eso es lo que diseñamos que hiciera Wizey. Si ese es el problema que intentas resolver, un pipeline especializado encaja mejor con la forma de la tarea. Y si quieres una visión más amplia de dónde encajan y fallan los LLM generales en medicina, la pieza pilar Wizey vs ChatGPT es el argumento más largo.