🤖 Wizey vs Grok (xAI) — ¿Puede una IA en tiempo real responder tus preguntas médicas?
Cuando ahora atiendo pacientes, escucho una nueva versión de una vieja pregunta: «Doctora, le pregunté a Grok sobre esto». A veces sobre un síntoma, a veces sobre un valor concreto de su panel bioquímico, a veces sobre una dosis de medicación que leyeron en X. Grok se ha convertido en una IA doméstica para cierto tipo de usuario — el público tecnológico y nativo de X, que prefiere su sensación en tiempo real y su disposición a responder preguntas que otros chatbots declinan cortésmente.
Precisamente por eso, quiero revisar con honestidad qué hace bien Grok en una conversación médica y dónde se sitúan los límites de producto, técnicos y regulatorios. En este artículo analizo el modelo insignia de xAI desde la mirada de un clínico: cómo se comporta con preguntas de salud, qué te aporta realmente su búsqueda en tiempo real y dónde deberías dejar de esperar que un asistente de propósito general haga un trabajo para el que nunca fue diseñado.
Trabajo en el equipo de Wizey, así que tengo un sesgo — evalúo cada IA por cómo maneja un informe de laboratorio. Pero ese sesgo deja al descubierto cosas que a un usuario casual se le escaparán: por qué un chatbot menos filtrado y en tiempo real es en algunos aspectos más peligroso para la medicina que uno educado, y por qué «Grok dice las cosas como son» es copia de marketing, no un hecho clínico.
Grok en 2026: tiempo real, provocador, aún un LLM general
Un marco técnico rápido, porque a veces la gente habla de Grok como si fuera una nueva especie de IA. No lo es. Grok es la familia de grandes modelos de lenguaje de xAI (actualmente en la clase Grok 3 / Grok 4 durante 2026), entrenada sobre una mezcla de datos de la web pública y del corpus de publicaciones de X, distribuida principalmente a través de la suscripción a X Premium y de la API de xAI.
Lo que hace distintivo a Grok desde la perspectiva de producto son tres cosas. Primero, una integración estrecha con X — puedes hablar con él dentro de la app donde desplazas el feed, y puede citar o resumir publicaciones casi en tiempo real. Segundo, una política de contenidos «menos censurada» — xAI comercializa Grok como más dispuesto a involucrarse con preguntas provocadoras, políticas o especulativas. Tercero, una voz deliberadamente irreverente, inspirada en parte en la estética de La guía del autoestopista galáctico.
Ninguno de esos tres rasgos lo convierte en un modelo médico. Por dentro, Grok es un LLM de propósito general con los mismos modos de fallo documentados en todo el campo — alucinaciones, sinsentidos confiados, sensibilidad al fraseo del prompt y el efecto Lost in the Middle, en el que la información enterrada en la mitad de un contexto largo queda infravalorada en la salida. Son propiedades de la arquitectura transformer, no de un proveedor concreto. Todo lo que escribí en la comparativa pilar de Wizey frente a ChatGPT sobre los LLM generales se aplica también a Grok. Aquí me centraré en lo específico de Grok: el ángulo del tiempo real, la postura sobre la política de contenidos y la distribución por X Premium.
El problema del «menos censurado» — por qué importa en medicina
Con ChatGPT o Claude, la queja más habitual de los usuarios avanzados es que el modelo es demasiado cauteloso: matiza, se niega o redirige con un «por favor, consulta a un médico» incluso ante preguntas educativas benignas. Grok se posiciona explícitamente en la dirección contraria. Se involucra con más preguntas, da respuestas que suenan más directas y matiza menos.
En casi cualquier dominio no médico, eso es una ventaja. En medicina, es un pasivo.
Aquí está el mecanismo. Un chatbot educado que se niega a interpretar tu valor de ferritina es molesto, pero también evita que te dé con confianza una respuesta incorrecta. Un chatbot que responde alegremente a la misma pregunta con un párrafo que suena plausible puede ser mucho más dañino, porque el usuario se va creyendo que ahora entiende su laboratorio. El riesgo clínico real escala con la confianza del modelo, no con su disposición a cooperar. Menos filtrado y más tono directo es una mala combinación para un dominio en el que las respuestas equivocadas pueden traducirse en diagnósticos retrasados.
Grok también presenta las tendencias aduladoras documentadas en los LLM de frontera — el modelo a menudo adapta su respuesta a lo que parece que el usuario quiere oír. Pregúntale «mi ferritina está en 800, ¿probablemente es sólo inflamación?» y es más probable que recibas una respuesta que te dé la razón que si preguntas «mi ferritina está en 800, ¿de qué debería preocuparme?». La guía de Mayo Clinic sobre chatbots de IA es bastante contundente al respecto: estas herramientas son útiles para la educación general, no para la interpretación diagnóstica personal.
Búsqueda en tiempo real: útil para noticias, irrelevante para tu laboratorio
El segundo argumento de venta de Grok es el acceso en tiempo real a X y a la web pública. Esto es genuinamente útil para algunas preguntas. Si un fármaco acaba de ser retirado, si se está informando de un brote, si esta mañana ha aparecido una nueva guía clínica — Grok puede hacerlo aflorar más rápido que un modelo con un corte de entrenamiento congelado.
Sin embargo, para interpretar tu informe de laboratorio, la búsqueda en tiempo real no hace esencialmente nada. Tu panel bioquímico no está en internet. Es un PDF privado generado por tu laboratorio específico, con los rangos de referencia específicos de ese laboratorio, el método de ensayo específico que utilizaron y la combinación específica de analitos que hicieron. Nada de eso es recuperable mediante búsqueda web. Lo que realmente necesitas es un parser estructurado que extraiga cada fila como una tupla (parámetro, valor, unidad, rango de referencia), normalice las unidades entre laboratorios y pase el resultado por protocolos clínicos validados. Los datos web en tiempo real no pueden sustituir ninguno de esos pasos.
En algunos casos, la búsqueda en tiempo real empeora la situación. Grok puede incorporar a su respuesta opiniones de publicaciones de X e hilos de foros, y a menudo es difícil distinguir en la salida qué afirmación procede de una fuente revisada por pares, cuál del tuit de un médico y cuál de una cuenta anónima. The Lancet Digital Health y Nature han publicado sobre cómo los LLM difuminan la procedencia de las afirmaciones médicas — con una capa de recuperación muy cargada de redes sociales, ese difuminado empeora, no mejora.
Sin BAA HIPAA, y los términos de xAI excluyen explícitamente el asesoramiento médico
La historia regulatoria es simple y breve. El Grok de consumidor de xAI, distribuido a través de X Premium, no ofrece un Acuerdo de Asociado de Negocio HIPAA. Eso significa que Grok no es un lugar legal para subir datos identificables de pacientes en un contexto sanitario estadounidense. Para la UE, el GDPR trata la información de salud como datos de categoría especial que requieren salvaguardas explícitas que un chatbot general de consumidor no puede proporcionar. La guía de la OMS sobre IA para la salud es inequívoca al afirmar que los chatbots de consumidor no son un reemplazo de las herramientas validadas clínicamente.
Los propios términos de servicio de xAI excluyen explícitamente el asesoramiento médico — las salidas de Grok no están destinadas al diagnóstico, al tratamiento ni a ninguna decisión clínica, y xAI declina toda responsabilidad por ese uso. Esto no es una trampa enterrada en letra pequeña. Es la postura legal estándar de cualquier proveedor de LLM de consumidor (OpenAI, Anthropic, Google, xAI) y debe tomarse al pie de la letra.
Así que, aunque la respuesta de Grok sobre tu ferritina suene plausible, el proveedor ya te ha dicho, por escrito, que no puedes confiar en ella para decisiones médicas. Eso solo ya es motivo para tratar a Grok como una herramienta educativa, no clínica.
Dónde falla Grok ante un panel de laboratorio real
Déjame ser concreto sobre qué se rompe cuando intentas usar Grok para interpretar laboratorios.
Sin parser estructurado. Cuando pegas el texto de un PDF en Grok, lo lee como un muro de palabras, no como una tabla estructurada. Las unidades se confunden (µg/L frente a mg/L — una diferencia de mil veces en la práctica), los rangos de referencia dejan de estar asociados a la fila correcta, las notas al pie del método se ignoran. Con cinco valores esto funciona bien. En un panel de 28 filas empieza a perder números.
Lost in the Middle en datos estructurados. Liu et al. 2023 (Stanford) documentaron que los LLM infravaloran la información en la mitad de un contexto largo. En un panel de 30 parámetros, los analitos de la mitad del documento — exactamente los que pueden importar — reciben la menor atención. Para la bioquímica, así es como una PCR elevada, una sutil anomalía del hemograma o una TSH a la deriva desaparecen sin hacer ruido del resumen.
Sin protocolos clínicos. Cuando un sistema especializado ve una ferritina elevada, está obligado a mirar también la PCR y el recuento diferencial leucocitario, porque la ferritina es un reactante de fase aguda y leerla de forma aislada es clínicamente incorrecto. Grok no conoce ese algoritmo. Puede interpretar la ferritina «literalmente» como sobrecarga de hierro y recomendar reducir la carne roja. La respuesta suena plausible. Clínicamente, es un fallo.
Sin continuidad entre visitas. Grok no une tus laboratorios de marzo, junio y noviembre en una única línea temporal. Cada conversación es esencialmente un lienzo en blanco. En medicina, la tendencia a lo largo de tres visitas suele ser más informativa que cualquier valor aislado.
Confianza sin calibración. El tono menos filtrado de Grok implica menos momentos de «no estoy seguro» en su salida, incluso cuando la incertidumbre es alta. Un sistema que suena confiado ante un no experto pero se equivoca a menudo es peor que uno que matiza apropiadamente.
Nada de esto es una queja sobre xAI como empresa. Es simplemente una descripción de para qué está construido un LLM general y para qué no. Si yo estuviera construyendo una IA social en tiempo real, haría las mismas concesiones que ellos. Simplemente no le pondría delante un informe de laboratorio.
Escenario de prueba: ferritina 812 con Grok frente a un pipeline médico
Para mantenerlo concreto he pasado el mismo caso por ambas herramientas. Una paciente de 38 años, ferritina 812 ng/mL, PCR 14 mg/L, hemoglobina 121 g/L, con un hemograma y un panel metabólico por lo demás sin particularidades.
Grok en X Premium, tres valores pegados en el chat. La respuesta fue un párrafo confiado sobre sobrecarga de hierro, cribado de hemocromatosis, una mención de la inflamación como posible factor de confusión y la recomendación de «hablar con un médico si te preocupa». No estaba equivocado en ninguna frase concreta. Pero sin priorización — el estudio de hemocromatosis y la corrección de un reactante de fase aguda son caminos clínicos muy distintos, y el usuario se queda adivinando cuál aplica. Ante una pregunta de seguimiento «¿podría ser sólo inflamación?», Grok estuvo de acuerdo, que es exactamente el problema de la adulación.
Grok con el PDF completo de 28 parámetros. Grok leyó la mayoría de los valores pero se perdió dos anomalías en la mitad del panel y no vinculó el perfil lipídico con las enzimas hepáticas. El resumen de alto nivel fue correcto pero plano — sin etiquetado de urgencia, sin un «esto es lo primero que hay que hacer».
El mismo panel por un pipeline especializado (Wizey). Tabla estructurada con los 28 parámetros con unidades normalizadas, desviaciones señaladas, una línea de tendencia si existen paneles anteriores y una lista priorizada de acciones: «discutir de forma urgente con un gastroenterólogo», «seguimiento rutinario en tres meses», «variante de la normalidad, no se requiere acción». Cada afirmación del resumen clínico se remonta a una fila específica de la tabla extraída, para que un médico pueda auditarla fila por fila. Esto no es magia; es una arquitectura diferente. Wizey utiliza OCR → extracción estructurada → grafo de conocimiento → protocolos clínicos validados, y está diseñado explícitamente para rechazar en vez de alucinar cuando no está seguro. Grok está diseñado para involucrarse. Son productos distintos para trabajos distintos.
Cuándo Grok es la herramienta adecuada en temas de salud
Prometí una comparación justa. Grok tiene fortalezas reales y yo misma lo uso para cosas concretas.
- Educación general. «Qué es la ferritina», «qué mide la PCR», «en qué se diferencia la inmunidad inducida por vacuna de la inmunidad natural» — Grok está bien aquí. La velocidad y el tono son un neto positivo para el aprendizaje.
- Noticias sanitarias en vivo. Reporte de brotes, retiradas de medicamentos, resultados de ensayos clínicos recién anunciados — la búsqueda en tiempo real y la manguera de X son una ventaja genuina frente a modelos con cortes de entrenamiento congelados.
- Redactar preguntas para tu médico. Describe tu situación en lenguaje natural, pide a Grok que produzca cinco a siete preguntas afiladas para la visita. Esto ayuda de verdad — como médica, prefiero con mucho a una paciente preparada que a una no preparada.
- Traducir la jerga médica. «Explícame este informe de alta en español sencillo» es una tarea que cualquier LLM moderno, incluido Grok, maneja bien. Es traducción, no diagnóstico.
- Explorar un tema de salud pública. Si quieres entender una nueva guía, una controversia sobre una clase de fármacos o un debate en X sobre un artículo clínico — el acceso en tiempo real de Grok y su disposición a implicarse en matices es útil.
Lo que no haría es pegar un PDF de mis propios análisis en Grok y actuar según su interpretación. No porque Grok sea «malo», sino porque está construido para un trabajo diferente.
Mini-FAQ
¿Puedo pedirle a Grok que interprete los resultados de mi análisis de sangre? Técnicamente puedes pegar algunos valores en el chat de Grok en X y recibir una respuesta. Pero los propios términos de servicio de xAI excluyen explícitamente el asesoramiento médico, Grok no cuenta con un Acuerdo de Asociado de Negocio HIPAA, y su conocida tendencia hacia respuestas provocadoras, aduladoras o especulativas es exactamente el comportamiento equivocado para un informe de laboratorio. Para un panel completo de 20 a 30 parámetros, un LLM de propósito general como Grok no es la herramienta adecuada.
¿Qué es Grok y en qué se diferencia de ChatGPT? Grok es el modelo de lenguaje insignia de xAI, actualmente en su generación Grok 3/4 durante 2026. Se distribuye principalmente a través de X Premium (el nivel de pago de la red social antes conocida como Twitter) y mediante la API de xAI. Frente a ChatGPT, Grok se posiciona con acceso en tiempo real a publicaciones de X y a la web pública, una política de contenidos menos restrictiva y un tono deliberadamente provocador. Por dentro sigue siendo un LLM de propósito general con las mismas limitaciones de alucinaciones y razonamiento.
¿Grok cumple con HIPAA o GDPR para datos médicos? No. xAI no ofrece un Acuerdo de Asociado de Negocio HIPAA para el Grok de consumidor en X Premium, y subir información de salud identificable a cualquier interfaz de chat de consumidor — Grok, ChatGPT, Gemini o cualquier otra — no está recomendado. El cumplimiento del GDPR para datos de salud de categoría especial requiere infraestructura explícita y garantías contractuales que el Grok de consumidor no proporciona.
¿La búsqueda web en tiempo real hace que Grok sea más seguro para preguntas médicas? La búsqueda en tiempo real ayuda con temas de rápida evolución, como retiradas de medicamentos o noticias de brotes, pero no resuelve el problema central de la interpretación de laboratorio. Tu análisis de sangre no está en internet — es un PDF privado de un laboratorio específico con rangos de referencia y métodos concretos. La búsqueda en tiempo real no puede sustituir a un parser estructurado, la normalización de unidades o los protocolos clínicos. Incluso puede empeorar las cosas al citar publicaciones aleatorias de foros como evidencia.
¿Cuándo resulta realmente útil Grok en temas de salud? Grok funciona bien para preguntas de educación general — qué es la ferritina, qué mide la PCR, cómo responde el sistema inmunitario a un virus. También es útil para noticias en directo sobre eventos de salud pública, escasez de medicamentos o anuncios regulatorios donde importa la actualidad. Pero interpretar tu panel de laboratorio específico con sus números y decidir qué hacer a continuación es una tarea distinta — diseñada para un pipeline médico especializado, no para un chatbot general.
Conclusión
Grok es un LLM de propósito general capaz y distintivo, con fortalezas reales — acceso en tiempo real a X, disposición a involucrarse con preguntas que otros modelos rechazan y una prosa genuinamente rápida y fluida. Para la educación sanitaria general, para seguir noticias en vivo sobre medicina, para redactar preguntas antes de una visita, funciona bien, y no tengo problema en recomendarlo en ese terreno.
Pero interpretar un panel de laboratorio real es otro trabajo. Ese trabajo exige un parsing estricto de cada valor, normalización de unidades y rangos, costura entre visitas en una línea temporal real y funcionar dentro de protocolos clínicos validados en lugar de generación de texto libre. Construimos Wizey exactamente así — no otro chatbot general, sino un pipeline especializado para documentos médicos, diseñado para rechazar en vez de alucinar cuando no está seguro. Si tienes un informe de laboratorio en mano que quieres descifrar sin perder un solo número, esa es la herramienta construida para la tarea.