La Inteligencia Artificial (IA) en salud atraviesa una etapa de alta visibilidad. Proliferan demostraciones tecnológicas, proyectos piloto y anuncios de capacidades cada vez más sofisticadas. Sin embargo, esta expansión contrasta con una realidad persistente, la brecha entre el desempeño observado en entornos controlados y el valor que estos sistemas aportan, de forma segura, en instituciones de salud reales.

En este contexto, la discusión relevante ya no es si la IA puede aplicarse en salud, sino bajo qué condiciones su uso es clínicamente útil y operativamente seguro. La evidencia acumulada por organismos como la Organización Mundial de la Salud, la OCDE y el Institute for Healthcare Improvement coincide en un punto central: el desempeño algorítmico aislado es insuficiente. Lo crítico es la forma en que estos sistemas se integran en procesos clínicos concretos, con responsabilidades claramente definidas.

Los sistemas que logran escalar y sostenerse en el tiempo son aquellos que incorporan desde su diseño criterios explícitos de gobernanza y gestión del riesgo. En entornos clínicos, incluso modelos con altos niveles de precisión pueden resultar irrelevantes si se implementan sin considerar flujos de trabajo, roles profesionales y contextos de decisión.

Un primer fundamento es la definición precisa del propósito clínico u operativo del sistema. La automatización solo genera valor cuando responde a un problema claramente delimitado, como apoyar una decisión específica, priorizar riesgos o reducir errores. Cuando el propósito es ambiguo, la tecnología tiende a añadir complejidad sin traducirse en mejoras medibles para pacientes o profesionales.

A este propósito debe sumarse una supervisión humana estructurada. Marcos como el AI Risk Management Framework del NIST enfatizan que la IA no sustituye el juicio clínico, sino que lo apoya. La seguridad depende de establecer con claridad cuándo una recomendación puede seguirse, cuándo debe cuestionarse y cómo se documenta esa interacción. Sin estos criterios, la responsabilidad no está clara y el riesgo sistémico aumenta.

Las columnas más leídas de hoy

Otro elemento central es la gestión del riesgo a lo largo del ciclo de vida del sistema. Los algoritmos operan en entornos dinámicos: los datos cambian, los perfiles de los pacientes evolucionan y las condiciones organizacionales se modifican. Por ello, la OMS y la OCDE subrayan la necesidad de monitoreo continuo, evaluación periódica del desempeño y la capacidad de ajustar o retirar sistemas cuando dejan de comportarse de acuerdo con su propósito original.

La trazabilidad completa del sistema es igualmente esencial. Ante un fallo, debe ser posible identificar qué datos se utilizaron, qué versión del modelo estaba activa y cómo se integró la herramienta en el proceso clínico. El marco del International Medical Device Regulators Forum para Software as a Medical Device es explícito: el nivel de riesgo depende del contexto de uso y de su impacto en la toma de decisiones clínicas, no únicamente de la sofisticación técnica del algoritmo.

En consecuencia, medir la seguridad de la IA en una institución real exige ir más allá de métricas tradicionales como la precisión o la sensibilidad. Indicadores relacionados con la adopción efectiva por parte del personal, la coherencia con los flujos clínicos y la aparición de eventos adversos ofrecen una evaluación más relevante del impacto real del sistema.

Fundamentos para el uso responsable de la Inteligencia Artificial en salud

David Escudero García, Médico/Científico de datos

En 2026, la conversación sobre Inteligencia Artificial (IA) en salud necesita un cambio de marco mental: pasar de celebrar lo impresionante a exigir lo confiable. El problema del hype no es solo que exagera, sino que confunde posibilidad con realidad: lo que un modelo logra en una prueba controlada no es lo mismo que lo que ocurre cuando entra a un hospital con presión asistencial, datos incompletos, workflows distintos por servicio y decisiones que no admiten ensayo y error. Por eso, más que el año de la IA en todos lados, 2026 debería ser el año del uso seguro de la IA, entendido como la capacidad de un sistema para operar de forma consistente, trazable y sin incrementar el riesgo clínico cuando el entorno cambia.

En la práctica, la pregunta que importa ya no es ¿tu IA qué hace?, sino ¿tu IA se puede usar sin lastimar? Y esa pregunta se responde menos con demos y más con evidencia en operación. La IA no llega como un gadget: llega como un actor nuevo dentro de una cadena de decisiones donde cualquier fricción se traduce en retrasos, omisiones, fatiga de alertas o errores. Una demo puede verse perfecta porque nadie está de guardia y el dataset no trae la realidad de capturas imperfectas. El uso seguro, en cambio, se prueba cuando el modelo convive con el EHR, con la variabilidad clínica y con el hecho de que la atención es un sistema sociotécnico: personas, procesos y tecnología, todo junto.

Aterrizado a IA, uso seguro no significa que mi modelo tenga buen AUC. Tampoco significa “ya está en producción”. Significa algo más exigente: que el sistema, en su caso de uso real triage, predicción de deterioro, apoyo a antibióticos, lectura de imagen, priorización de estudios o documentación asistida; no aumenta daño, no introduce sesgos operativos, no degrada la calidad y no rompe la continuidad asistencial cuando se estresa la operación. Esto obliga a medir la IA como intervención clínica-operativa: incidentes y casi-incidentes donde la IA contribuyó al problema, severidad, patrones por servicio/turno y velocidad de corrección, en línea con la lógica de cultura y medición de seguridad.

Luego viene el corazón del asunto: desempeño medido como se vive. El promedio engaña. Un modelo puede verse bien globalmente y fallar justo donde duele: pacientes complejos, comorbilidad, adultos mayores, contextos con datos incompletos o servicios con flujos distintos. Por eso, el uso seguro se sostiene con monitoreo continuo de falsos positivos y falsos negativos, carga de alertas, tasa de override, tiempos de respuesta y consecuencias aguas abajo. En IA generativa, el riesgo se vuelve todavía más tangible: alucinaciones, sobreconfianza, resúmenes incorrectos y recomendaciones plausibles pero erróneas. Aquí, el uso seguro se construye con límites claros de tarea, verificación humana donde corresponde, trazabilidad de fuentes y auditoría sistemática de salidas.

Finalmente, el uso seguro incluye robustez y continuidad. Un hospital seguro no es el que nunca falla; es el que, cuando falla, falla sin causar daño. Si la IA depende de integraciones frágiles o servicios externos, el modo degradado no puede improvisarse. Debe existir un plan operativo: qué hace el servicio cuando la IA no está, cómo se evita decidir a ciegas por costumbre y cómo se documenta sin perder trazabilidad. En 2026, menos demos, más seguridad significa que el éxito no se mide por cuántos pilotos se anunciaron, sino por cuántos sistemas de IA pueden demostrar uso seguro sostenido: incidentes a la baja, decisiones más oportunas, menor carga innecesaria, mejor continuidad y gobernanza activa del riesgo.

Referencias (APA 7)

International Medical Device Regulators Forum. (2017). Software as a Medical Device (SaMD): Clinical evaluation (IMDRF/SaMD WG/N41FINAL:2017).

National Institute of Standards and Technology. (2023). Artificial intelligence risk management framework (AI RMF 1.0) (NIST AI 100-1).

OECD. (2024). Comparative assessment of patient safety culture performance in OECD countries (OECD Health Working Paper No. 168).

OECD. (2025). Health at a Glance 2025: OECD indicators. OECD Publishing. World Health Organization. (2019). WHO guideline: Recommendations on digital interventions for health system strengthening.

World Health Organization. (2021). Global strategy on digital health 2020–2025.