Voltar ao blog
Evidência clínica·12 / FEV / 2026·20 min

IA em radiologia: revisão honesta da evidência clínica em 2026.

Uma revisão sem hype do estado da arte da IA radiológica em 2026: onde a evidência é forte (mamografia, RX de tórax, nódulo pulmonar em TC, RM de próstata), onde ainda é fraca, vieses comuns nos papers, métricas que importam e como avaliar criticamente uma ferramenta antes de adotar.

Natan Paraíso Ribeiro

Em 2026, a literatura sobre IA em radiologia ultrapassou 25 mil publicações indexadas. Esse volume não é sinônimo de qualidade — boa parte é validação interna em base única, sem teste externo, sem comparação contra radiologistas humanos em condição de produção, e sem follow-up clínico. Este artigo é uma revisão honesta do que a evidência sustenta em 2026, o que ainda não sustenta, e como ler um paper de IA em radiologia sem se deixar levar pelos headlines.

Áreas com evidência madura.

Mamografia é o domínio de IA radiológica com mais base. Sistemas de auxílio à detecção (CAD evoluíram para deep learning) e ferramentas de triagem (priorização da fila por probabilidade) acumulam validação prospectiva, incluindo o estudo MASAI (Suécia, ~80 mil mulheres, 2023) que mostrou aumento absoluto de detecção em ~20% sem aumento proporcional de re-call, e o INSIGHT MMG (Coreia do Sul). Nem todos os achados são generalizáveis para populações com prevalência diferente — densidade mamária, idade, etnia importam — mas a evidência é robusta o bastante para uso clínico com governança.

RX de tórax tem dezenas de validações para detecção de pneumotórax, derrame pleural, consolidação e nódulo. Os melhores sistemas têm AUC > 0,90 para os achados maiores, com performance que cai (mas continua útil) em achados sutis. CheXpert e similares estabeleceram benchmarks que ainda hoje são referência. O caso de uso mais maduro é triagem em pronto-atendimento e teleradiologia.

Nódulo pulmonar em TC: detecção automatizada é hoje aceita em rastreamento de câncer de pulmão por TC de baixa dose (LDCT), com benefício documentado em reprodutibilidade entre leitores e em redução de tempo de leitura. Sistemas como o usado em estudos NELSON, NLST e validações pós-comercialização mostram que CAD reduz miss rate sem inflar muito o número de falsos positivos quando bem calibrado para a população do serviço.

RM de próstata multiparamétrica com PI-RADS: ferramentas de detecção e classificação têm validação crescente, com melhor reprodutibilidade entre radiologistas quando IA é usada como segunda leitura. O estudo PI-CAI (2023) consolidou benchmarks e mostrou que algumas IAs igualam radiologistas experientes em condições ideais — com a ressalva de que condição ideal não é condição de produção.

Áreas em curva inicial.

Musculoesquelético (lesão meniscal, lesão ligamentar, fratura sutil) tem evidência crescente mas heterogênea — diferenças entre conjuntos de treino e populações de teste explicam parte da variabilidade. Achados sutis (fratura escafoide, lesão SLAP, edema medular) ainda são difíceis para a maior parte dos sistemas comerciais.

Neurorradiologia além do AVC isquêmico agudo (que tem maturidade alta para identificação de oclusão de grande vaso e ASPECTS) ainda navega curva inicial. Detecção de pequenos infartos lacunares, microbleeds, hipersinais de substância branca por SVD (small vessel disease) varia bastante entre fornecedores.

Oncologia hepática com LI-RADS é uma das fronteiras: detecção e classificação automatizada têm AUC promissor em séries selecionadas, mas a complexidade do algoritmo (APHE, washout, cápsula, crescimento limiar, exclusão de LR-M) faz com que a generalização externa seja exigente.

Tipos de estudo — e o que cada um vale.

Validação interna: treino e teste na mesma instituição. Útil para estabelecer plausibilidade — mas tem pouco valor preditivo para uso fora dali. Muito paper de IA radiológica para por aqui.

Validação externa: teste em base de outra instituição/país. Filtra parte dos problemas de generalização. Ainda é insuficiente sozinha para garantir performance em produção.

Validação prospectiva: aplicação em fluxo clínico real, com casos consecutivos. Cara, demorada, mas é o que mais se aproxima da realidade. Estudos MASAI e PI-CAI são exemplos.

Ensaio clínico randomizado: raro em IA radiológica, mas o padrão-ouro para medir benefício clínico (não apenas performance de modelo). Tem crescido em mamografia e em triagem de AVC.

Real-world evidence (RWE): coleção de dados pós-comercialização de uso clínico. É o que vai consolidar (ou demolir) a maior parte das promessas dos próximos cinco anos.

Métricas que importam (e as que enganam).

AUC (área sob a curva ROC) é a métrica mais reportada e a mais sobreutilizada. AUC alto não significa utilidade clínica — depende da prevalência da doença, do ponto de corte, do custo de cada tipo de erro. Sensibilidade e especificidade no ponto de operação clínico importam mais do que AUC global.

Métricas que realmente importam: detecção rate em condição prospectiva, número necessário para detectar um caso (similar a NND oncológico), número de falsos positivos por exame normal (chama re-call em rastreamento), reprodutibilidade entre leitores com e sem IA (intra e interobserver), redução de tempo de leitura mantida a qualidade, impacto em desfecho clínico quando mensurável.

Métricas que merecem suspeita: "acurácia" sem disclaimer de prevalência; "comparável a radiologista" sem definir quem é o radiologista de referência e em que condição; "melhora workflow" sem medir o tempo real do médico.

Vieses comuns nos papers — como detectar.

  • Leakage: dados do mesmo paciente em treino e em teste — performance inflada artificialmente. Procure menção explícita a split por paciente.
  • Cherry-picking de casos: validação em subconjunto enriquecido (apenas casos claros) sem informar a curadoria. Procure descrição do critério de inclusão.
  • Comparação contra radiologista "genérico": leitor sem experiência específica, sem acesso a clínica, em condição artificial. Comparações fortes envolvem múltiplos leitores experientes em condição similar à produção.
  • Generalização sem teste externo: AUC reportado apenas na base de treino. Sem validação externa, presuma performance ~10-20% inferior em outra instituição.
  • Métrica isolada: AUC alto sem reportar curva de calibração, sensibilidade no ponto operacional, distribuição de erros por subgrupo (idade, sexo, etnia, densidade).
  • Conflito de interesse não declarado: autores empregados pela empresa que comercializa o software, sem revisão independente.
  • Tamanho de amostra inadequado: papers com poucas dezenas de casos em condição rara — significância estatística frágil, intervalos de confiança largos.

O que falta na literatura brasileira.

A produção científica brasileira em IA radiológica cresceu mas continua subdimensionada em relação ao número de exames. As lacunas mais sentidas: validação em populações brasileiras (densidade mamária diferente, mistura étnica diferente, perfis de doença diferentes), estudos multicêntricos nacionais, real-world evidence em serviços de telerradiologia (uma das maiores escalas operacionais do mundo é brasileira), e literatura sobre integração PACS/RIS local — que afeta mais a adoção do que a métrica isolada do modelo.

AUC 0,95 num paper é interessante. AUC 0,90 num serviço brasileiro depois de seis meses de uso é informação.

Como avaliar uma ferramenta de IA em radiologia antes de adotar.

  • Peça a documentação técnica do modelo: dados de treino (origem, idade, sexo, densidade quando aplicável), arquitetura, performance reportada com intervalos de confiança, limitações conhecidas.
  • Pergunte por validação externa publicada. Se a única evidência é interna, peça acesso ao paper. Se não há paper, é sinal vermelho.
  • Pergunte por validação em radiologia brasileira. Se não houver, planeje uma fase de validação local como parte da adoção.
  • Rode um piloto retrospectivo: 200-500 exames consecutivos do seu serviço, com gabarito do seu radiologista. Veja performance real, não a do paper.
  • Rode um piloto prospectivo com supervisão completa: 4-8 semanas. Meça tempo, retrabalho, concordância, falsos positivos e falsos negativos clinicamente relevantes.
  • Documente um plano de contingência: o que fazer quando a ferramenta cair, mudar comportamento ou for descontinuada. Especialmente importante para sistemas de triagem.

Aplicações onde adoção em 2026 faz sentido.

Speech-to-report e estruturação de laudo radiológico, com revisão humana antes da assinatura. CAD para mamografia em serviços com governança e treinamento adequado. Triagem de AVC com oclusão de grande vaso em emergência, integrada ao fluxo de neurorradiologia intervencionista. Detecção de pneumotórax e derrame pleural em RX de tórax em pronto-atendimento e teleradiologia. CAD de nódulo pulmonar em rastreamento por LDCT, integrado ao Lung-RADS.

Aplicações onde ainda não vale.

Triagem oncológica complexa sem supervisão experiente (sistemas que prometem encontrar "qualquer câncer em qualquer exame" — performance sempre cai em condição real). Diagnóstico autônomo em achados sutis sem segunda leitura humana. Aplicação cross-domain sem revalidação (modelo treinado em adulto aplicado a pediatria, modelo treinado em mama densa aplicado a mama adiposa). Sistemas sem trilha auditável — esses simplesmente não passam pelo crivo da CFM 2.454/2026.

A regra geral em 2026 é a mesma de sempre na medicina: evidência primeiro, hype depois. Quem adota IA radiológica com governança, validação local e revisão visível ganha tempo clínico. Quem adota sem isso herda passivo regulatório e risco assistencial. A literatura está mais madura — mas o filtro continua sendo o radiologista treinado em ler tanto a imagem quanto o paper.

Continue lendo

Todos os artigos, em um só lugar.

Privacidade

Cookies essenciais mantêm o site funcionando; analytics só carrega com aceite.