Em 2026, a literatura sobre IA em radiologia ultrapassou 25 mil publicações indexadas. Esse volume não é sinônimo de qualidade — boa parte é validação interna em base única, sem teste externo, sem comparação contra radiologistas humanos em condição de produção, e sem follow-up clínico. Este artigo é uma revisão honesta do que a evidência sustenta em 2026, o que ainda não sustenta, e como ler um paper de IA em radiologia sem se deixar levar pelos headlines.
Áreas com evidência madura.
Mamografia é o domínio de IA radiológica com mais base. Sistemas de auxílio à detecção (CAD evoluíram para deep learning) e ferramentas de triagem (priorização da fila por probabilidade) acumulam validação prospectiva, incluindo o estudo MASAI (Suécia, ~80 mil mulheres, 2023) que mostrou aumento absoluto de detecção em ~20% sem aumento proporcional de re-call, e o INSIGHT MMG (Coreia do Sul). Nem todos os achados são generalizáveis para populações com prevalência diferente — densidade mamária, idade, etnia importam — mas a evidência é robusta o bastante para uso clínico com governança.
RX de tórax tem dezenas de validações para detecção de pneumotórax, derrame pleural, consolidação e nódulo. Os melhores sistemas têm AUC > 0,90 para os achados maiores, com performance que cai (mas continua útil) em achados sutis. CheXpert e similares estabeleceram benchmarks que ainda hoje são referência. O caso de uso mais maduro é triagem em pronto-atendimento e teleradiologia.
Nódulo pulmonar em TC: detecção automatizada é hoje aceita em rastreamento de câncer de pulmão por TC de baixa dose (LDCT), com benefício documentado em reprodutibilidade entre leitores e em redução de tempo de leitura. Sistemas como o usado em estudos NELSON, NLST e validações pós-comercialização mostram que CAD reduz miss rate sem inflar muito o número de falsos positivos quando bem calibrado para a população do serviço.
RM de próstata multiparamétrica com PI-RADS: ferramentas de detecção e classificação têm validação crescente, com melhor reprodutibilidade entre radiologistas quando IA é usada como segunda leitura. O estudo PI-CAI (2023) consolidou benchmarks e mostrou que algumas IAs igualam radiologistas experientes em condições ideais — com a ressalva de que condição ideal não é condição de produção.
Áreas em curva inicial.
Musculoesquelético (lesão meniscal, lesão ligamentar, fratura sutil) tem evidência crescente mas heterogênea — diferenças entre conjuntos de treino e populações de teste explicam parte da variabilidade. Achados sutis (fratura escafoide, lesão SLAP, edema medular) ainda são difíceis para a maior parte dos sistemas comerciais.
Neurorradiologia além do AVC isquêmico agudo (que tem maturidade alta para identificação de oclusão de grande vaso e ASPECTS) ainda navega curva inicial. Detecção de pequenos infartos lacunares, microbleeds, hipersinais de substância branca por SVD (small vessel disease) varia bastante entre fornecedores.
Oncologia hepática com LI-RADS é uma das fronteiras: detecção e classificação automatizada têm AUC promissor em séries selecionadas, mas a complexidade do algoritmo (APHE, washout, cápsula, crescimento limiar, exclusão de LR-M) faz com que a generalização externa seja exigente.
Tipos de estudo — e o que cada um vale.
Validação interna: treino e teste na mesma instituição. Útil para estabelecer plausibilidade — mas tem pouco valor preditivo para uso fora dali. Muito paper de IA radiológica para por aqui.
Validação externa: teste em base de outra instituição/país. Filtra parte dos problemas de generalização. Ainda é insuficiente sozinha para garantir performance em produção.
Validação prospectiva: aplicação em fluxo clínico real, com casos consecutivos. Cara, demorada, mas é o que mais se aproxima da realidade. Estudos MASAI e PI-CAI são exemplos.
Ensaio clínico randomizado: raro em IA radiológica, mas o padrão-ouro para medir benefício clínico (não apenas performance de modelo). Tem crescido em mamografia e em triagem de AVC.
Real-world evidence (RWE): coleção de dados pós-comercialização de uso clínico. É o que vai consolidar (ou demolir) a maior parte das promessas dos próximos cinco anos.
Métricas que importam (e as que enganam).
AUC (área sob a curva ROC) é a métrica mais reportada e a mais sobreutilizada. AUC alto não significa utilidade clínica — depende da prevalência da doença, do ponto de corte, do custo de cada tipo de erro. Sensibilidade e especificidade no ponto de operação clínico importam mais do que AUC global.
Métricas que realmente importam: detecção rate em condição prospectiva, número necessário para detectar um caso (similar a NND oncológico), número de falsos positivos por exame normal (chama re-call em rastreamento), reprodutibilidade entre leitores com e sem IA (intra e interobserver), redução de tempo de leitura mantida a qualidade, impacto em desfecho clínico quando mensurável.
Métricas que merecem suspeita: "acurácia" sem disclaimer de prevalência; "comparável a radiologista" sem definir quem é o radiologista de referência e em que condição; "melhora workflow" sem medir o tempo real do médico.
Vieses comuns nos papers — como detectar.
- Leakage: dados do mesmo paciente em treino e em teste — performance inflada artificialmente. Procure menção explícita a split por paciente.
- Cherry-picking de casos: validação em subconjunto enriquecido (apenas casos claros) sem informar a curadoria. Procure descrição do critério de inclusão.
- Comparação contra radiologista "genérico": leitor sem experiência específica, sem acesso a clínica, em condição artificial. Comparações fortes envolvem múltiplos leitores experientes em condição similar à produção.
- Generalização sem teste externo: AUC reportado apenas na base de treino. Sem validação externa, presuma performance ~10-20% inferior em outra instituição.
- Métrica isolada: AUC alto sem reportar curva de calibração, sensibilidade no ponto operacional, distribuição de erros por subgrupo (idade, sexo, etnia, densidade).
- Conflito de interesse não declarado: autores empregados pela empresa que comercializa o software, sem revisão independente.
- Tamanho de amostra inadequado: papers com poucas dezenas de casos em condição rara — significância estatística frágil, intervalos de confiança largos.
O que falta na literatura brasileira.
A produção científica brasileira em IA radiológica cresceu mas continua subdimensionada em relação ao número de exames. As lacunas mais sentidas: validação em populações brasileiras (densidade mamária diferente, mistura étnica diferente, perfis de doença diferentes), estudos multicêntricos nacionais, real-world evidence em serviços de telerradiologia (uma das maiores escalas operacionais do mundo é brasileira), e literatura sobre integração PACS/RIS local — que afeta mais a adoção do que a métrica isolada do modelo.
AUC 0,95 num paper é interessante. AUC 0,90 num serviço brasileiro depois de seis meses de uso é informação.
Como avaliar uma ferramenta de IA em radiologia antes de adotar.
- Peça a documentação técnica do modelo: dados de treino (origem, idade, sexo, densidade quando aplicável), arquitetura, performance reportada com intervalos de confiança, limitações conhecidas.
- Pergunte por validação externa publicada. Se a única evidência é interna, peça acesso ao paper. Se não há paper, é sinal vermelho.
- Pergunte por validação em radiologia brasileira. Se não houver, planeje uma fase de validação local como parte da adoção.
- Rode um piloto retrospectivo: 200-500 exames consecutivos do seu serviço, com gabarito do seu radiologista. Veja performance real, não a do paper.
- Rode um piloto prospectivo com supervisão completa: 4-8 semanas. Meça tempo, retrabalho, concordância, falsos positivos e falsos negativos clinicamente relevantes.
- Documente um plano de contingência: o que fazer quando a ferramenta cair, mudar comportamento ou for descontinuada. Especialmente importante para sistemas de triagem.
Aplicações onde adoção em 2026 faz sentido.
Speech-to-report e estruturação de laudo radiológico, com revisão humana antes da assinatura. CAD para mamografia em serviços com governança e treinamento adequado. Triagem de AVC com oclusão de grande vaso em emergência, integrada ao fluxo de neurorradiologia intervencionista. Detecção de pneumotórax e derrame pleural em RX de tórax em pronto-atendimento e teleradiologia. CAD de nódulo pulmonar em rastreamento por LDCT, integrado ao Lung-RADS.
Aplicações onde ainda não vale.
Triagem oncológica complexa sem supervisão experiente (sistemas que prometem encontrar "qualquer câncer em qualquer exame" — performance sempre cai em condição real). Diagnóstico autônomo em achados sutis sem segunda leitura humana. Aplicação cross-domain sem revalidação (modelo treinado em adulto aplicado a pediatria, modelo treinado em mama densa aplicado a mama adiposa). Sistemas sem trilha auditável — esses simplesmente não passam pelo crivo da CFM 2.454/2026.
A regra geral em 2026 é a mesma de sempre na medicina: evidência primeiro, hype depois. Quem adota IA radiológica com governança, validação local e revisão visível ganha tempo clínico. Quem adota sem isso herda passivo regulatório e risco assistencial. A literatura está mais madura — mas o filtro continua sendo o radiologista treinado em ler tanto a imagem quanto o paper.