Dados do Trabalho


Título

ChatGPT: até onde ele chegou ?

Descrição sucinta do(s) objetivo(s)

ChatGPT é um modelo de inteligência artificial (IA) treinado através de uma base de dados contendo linguagem humana, o que o torna capaz de entender e gerar frases complexas e produzir frase e parágrafos, inclusive sobre literatura médica.

Ao ser utilizado por profissionais da saúde, pode orientar diagnósticos corretos ou reforçar condutas equivocadas, por exemplo, impactando diretamente a saúde dos pacientes.

O objetivo deste estudo é analisar respostas do ChatGPT em questões sobre radiologia mamária, avaliando sua acurácia e reprodutibilidade.






Material(is) e método(s)

Foram formuladas 10 questões com base em dados do colégio brasileiro de radiologia (CBR) e auxílio de radiologistas mamários de nossa instituição, sobre diferentes modalidades de imagem (mamografia, ultrassonografia e ressonância magnética), assim como câncer de mama e seus diferentes subtipos.

Essas questões foram respondidas entre abril e maio de 2023 pelo ChatGPT-4 e por três grupos de médicos com diferentes níveis de experiência em imagem mamária: 12 residentes em radiologia com um ou dois anos de treinamento, 12 residentes no terceiro ou quarto ano de treinamento e 13 radiologistas especializados em imagem mamária.

Além de considerar o número de respostas corretas em cada grupo, nós também testamos a reprodutibilidade do ChatGPT perguntando cada questão 10 vezes em pelo menos 5 dispositivos e locais diferentes.

Resultados e discussão

A média de respostas corretas foi de 39% para os residentes no primeiro ou segundo ano, 48% no terceiro ou quarto ano, 70% para os especialistas em imagem mamária e 46% para o ChatGPT.

O único grupo com diferença média de acertos estatisticamente significante em relação ao ChatGPT foi o de radiologistas especializados em imagem mamária.

Nós analisamos se o ChatGPT teria um aumento ou redução no número dos acertos ao longo do tempo, o que poderia indicar que ele estaria aprendendo através das questões, porém não pudemos demonstrar variação significativa na média de acertos entre as tentativas.

Conclusões

Nossos resultados demonstraram que, embora o desempenho do ChatGPT tenha sido semelhante ao de residentes nos 4 primeiros anos, ele ainda é estatisticamente inferior a radiologistas especializados.

Além disso, ele não demonstrou melhora de desempenho ao responder as mesmas questões ao longo do tempo.

Palavras Chave

ChatGPT; INTELIGÊNCIA ARTIFICIAL; mama

Arquivos

Área

Ensino

Instituições

Hospital Israelita Albert Einstein - São Paulo - Brasil

Autores

MARCELA CAETANO VILELA LAUAR, RAFAEL FERREIRA DOCEMA, RODRIGO OLIVEIRA SELETI, RENATO LEME DE MOURA RIBEIRO, ERICA FRANÇOLIN FEDERICCI