En 2026 la literatura sobre IA en radiología superó las 25.000 publicaciones indexadas. Ese volumen no equivale a calidad — buena parte es validación interna en base única, sin prueba externa, sin comparación contra radiólogos en condiciones de producción y sin seguimiento clínico. Este artículo es una revisión honesta de lo que la evidencia sostiene en 2026, lo que aún no sostiene, y cómo leer un paper de IA radiológica sin dejarse llevar por los titulares.
Áreas con evidencia madura.
La mamografía es el dominio de IA radiológica con más base. Sistemas de apoyo a la detección (CAD evolucionado a deep learning) y herramientas de triaje (priorización de la fila por probabilidad) acumulan validación prospectiva, incluido el estudio MASAI (Suecia, ~80.000 mujeres, 2023) que mostró aumento absoluto de detección de ~20% sin inflar proporcionalmente el recall, e INSIGHT MMG (Corea del Sur). No todos los hallazgos son generalizables a poblaciones de prevalencia distinta — densidad mamaria, edad, etnia importan — pero la evidencia es lo suficientemente robusta para uso clínico con gobernanza.
RX de tórax tiene decenas de validaciones para detección de neumotórax, derrame pleural, consolidación y nódulo. Los mejores sistemas alcanzan AUC > 0,90 para los hallazgos mayores, con caída (pero utilidad mantenida) en hallazgos sutiles. CheXpert y similares establecieron benchmarks que hoy siguen siendo referencia. El caso de uso más maduro es triaje en urgencias y teleradiología.
Nódulo pulmonar en TC: la detección automatizada hoy se acepta en cribado de cáncer de pulmón por TC de baja dosis (LDCT), con beneficio documentado en reproducibilidad entre lectores y en reducción de tiempo de lectura. Sistemas usados en NELSON, NLST y validaciones poscomercialización muestran que CAD reduce miss rate sin inflar demasiado los falsos positivos cuando se calibra bien para la población del servicio.
RM multiparamétrica de próstata con PI-RADS: las herramientas de detección y clasificación tienen validación creciente, con mejor reproducibilidad entre radiólogos cuando se usa la IA como segunda lectura. El estudio PI-CAI (2023) consolidó benchmarks y mostró que algunas IA igualan a radiólogos experimentados en condiciones ideales — con la salvedad de que las condiciones ideales no son las de producción.
Áreas en curva inicial.
Musculoesquelético (lesión meniscal, ligamentaria, fractura sutil) tiene evidencia creciente pero heterogénea — diferencias entre conjuntos de entrenamiento y poblaciones de prueba explican parte de la variabilidad. Hallazgos sutiles (fractura de escafoides, lesión SLAP, edema medular) siguen siendo difíciles para la mayoría de los sistemas comerciales.
Neurorradiología más allá del ACV isquémico agudo (que tiene alta madurez para identificación de oclusión de gran vaso y ASPECTS) sigue en curva inicial. Detección de pequeños infartos lacunares, microbleeds, hipersensaes de sustancia blanca por SVD — el rendimiento varía considerablemente entre proveedores.
Oncología hepática con LI-RADS es una de las fronteras: detección y clasificación automatizada tienen AUC prometedor en series seleccionadas, pero la complejidad del algoritmo (APHE, washout, cápsula, crecimiento umbral, exclusión de LR-M) hace que la generalización externa sea exigente.
Tipos de estudio — y qué vale cada uno.
Validación interna: entrenamiento y prueba en la misma institución. Útil para plausibilidad — escaso valor predictivo para uso fuera de allí. Muchos papers terminan ahí.
Validación externa: prueba en base de otra institución/país. Filtra parte del problema de generalización. Aún insuficiente por sí sola para garantizar rendimiento en producción.
Validación prospectiva: aplicación en flujo clínico real, con casos consecutivos. Cara, lenta, pero la más cercana a la realidad. MASAI y PI-CAI son ejemplos.
Ensayo clínico aleatorizado: raro en IA radiológica, pero el patrón oro para medir beneficio clínico (no solo rendimiento del modelo). Crece en mamografía y triaje de ACV.
Real-world evidence (RWE): datos poscomercialización de uso clínico. Es lo que va a consolidar (o desmoronar) la mayor parte de las promesas en los próximos cinco años.
Métricas que importan (y métricas que engañan).
AUC (área bajo la curva ROC) es la métrica más reportada y la más sobreutilizada. AUC alto no equivale a utilidad clínica — depende de la prevalencia, del punto de corte, del costo de cada tipo de error. Sensibilidad y especificidad en el punto de operación clínico importan más que el AUC global.
Métricas que realmente importan: tasa de detección en condiciones prospectivas, número necesario para detectar un caso (análogo a NND oncológico), falsos positivos por examen normal (genera re-call en cribado), reproducibilidad inter-lector con y sin IA, reducción del tiempo de lectura manteniendo la calidad, impacto en desenlace clínico cuando es mensurable.
Métricas que merecen sospecha: "precisión" sin disclaimer de prevalencia; "comparable a radiólogo" sin definir el lector de referencia y en qué condición; "mejora workflow" sin medir el tiempo real del médico.
Sesgos comunes en papers — cómo detectarlos.
- Leakage: datos del mismo paciente en entrenamiento y test — rendimiento artificialmente inflado. Busque mención explícita al split por paciente.
- Cherry-picking de casos: validación en subconjunto enriquecido (solo casos claros) sin informar la curación. Busque criterios de inclusión.
- Comparación contra radiólogo "genérico": lector sin experiencia específica, sin acceso a clínica, en condición artificial. Comparaciones fuertes involucran múltiples lectores experimentados en condición similar a producción.
- Generalización sin prueba externa: AUC reportado solo en la base de entrenamiento. Sin validación externa, presuma ~10–20% peor en otra institución.
- Métrica aislada: AUC alto sin curva de calibración, sensibilidad en el punto operativo, distribución de errores por subgrupo (edad, sexo, etnia, densidad).
- Conflicto de interés no declarado: autores empleados por la empresa que comercializa el software, sin revisión independiente.
- Tamaño de muestra inadecuado: papers con pocas decenas de casos en condición rara — significancia estadística frágil, intervalos de confianza amplios.
Lo que falta en la literatura brasileña.
La producción científica brasileña en IA radiológica creció pero sigue sub-dimensionada respecto al volumen de exámenes. Los vacíos más sentidos: validación en poblaciones brasileñas (densidad mamaria distinta, mezcla étnica distinta, perfiles de enfermedad distintos), estudios multicéntricos nacionales, real-world evidence en servicios de teleradiología (una de las mayores escalas operativas del mundo es brasileña), y literatura sobre integración PACS/RIS local — que afecta más a la adopción que la métrica aislada del modelo.
AUC 0,95 en un paper es interesante. AUC 0,90 en un servicio brasileño tras seis meses de uso es información.
Cómo evaluar una herramienta de IA radiológica antes de adoptar.
- Pida documentación técnica del modelo: datos de entrenamiento (origen, edad, sexo, densidad cuando aplique), arquitectura, rendimiento reportado con intervalos de confianza, limitaciones conocidas.
- Pregunte por validación externa publicada. Si solo hay interna, pida el paper. Si no hay paper, es bandera roja.
- Pregunte por validación en radiología brasileña. Si no la hay, planifique una fase de validación local como parte de la adopción.
- Realice un piloto retrospectivo: 200–500 exámenes consecutivos de su servicio, con ground truth de su radiólogo. Compare rendimiento real con el del paper.
- Realice un piloto prospectivo con supervisión completa: 4–8 semanas. Mida tiempo, retrabajo, concordancia, falsos positivos y falsos negativos clínicamente relevantes.
- Documente un plan de contingencia: qué hacer cuando la herramienta caiga, cambie de comportamiento o se descontinúe. Especialmente importante para sistemas de triaje.
Aplicaciones donde adoptar en 2026 tiene sentido.
Speech-to-report y estructuración de informe radiológico, con revisión humana antes de firma. CAD para mamografía en servicios con gobernanza y formación adecuadas. Triaje de ACV con oclusión de gran vaso en emergencia, integrado al flujo de neurorradiología intervencionista. Detección de neumotórax y derrame pleural en RX de tórax en urgencias y teleradiología. CAD de nódulo pulmonar en cribado por LDCT, integrado a Lung-RADS.
Aplicaciones donde aún no vale.
Triaje oncológico complejo sin supervisión experimentada (sistemas que prometen encontrar "cualquier cáncer en cualquier examen" — el rendimiento siempre cae en condición real). Diagnóstico autónomo en hallazgos sutiles sin segunda lectura humana. Aplicación cross-domain sin revalidación (modelo entrenado en adulto aplicado a pediatría, modelo entrenado en mama densa aplicado a mama adiposa). Sistemas sin trilla auditable — esos simplemente no pasan el filtro de CFM 2.454/2026.
La regla general en 2026 es la misma de siempre en medicina: evidencia primero, hype después. Quien adopta IA radiológica con gobernanza, validación local y revisión humana visible gana tiempo clínico. Quien adopta sin eso hereda pasivo regulatorio y riesgo asistencial. La literatura está más madura — pero el filtro sigue siendo el radiólogo entrenado en leer tanto la imagen como el paper.