Dados do Trabalho
Título
ChatGPT: até onde ele chegou ?
Descrição sucinta do(s) objetivo(s)
ChatGPT é um modelo de inteligência artificial (IA) treinado através de uma base de dados contendo linguagem humana, o que o torna capaz de entender e gerar frases complexas e produzir frase e parágrafos, inclusive sobre literatura médica.
Ao ser utilizado por profissionais da saúde, pode orientar diagnósticos corretos ou reforçar condutas equivocadas, por exemplo, impactando diretamente a saúde dos pacientes.
O objetivo deste estudo é analisar respostas do ChatGPT em questões sobre radiologia mamária, avaliando sua acurácia e reprodutibilidade.
Material(is) e método(s)
Foram formuladas 10 questões com base em dados do colégio brasileiro de radiologia (CBR) e auxílio de radiologistas mamários de nossa instituição, sobre diferentes modalidades de imagem (mamografia, ultrassonografia e ressonância magnética), assim como câncer de mama e seus diferentes subtipos.
Essas questões foram respondidas entre abril e maio de 2023 pelo ChatGPT-4 e por três grupos de médicos com diferentes níveis de experiência em imagem mamária: 12 residentes em radiologia com um ou dois anos de treinamento, 12 residentes no terceiro ou quarto ano de treinamento e 13 radiologistas especializados em imagem mamária.
Além de considerar o número de respostas corretas em cada grupo, nós também testamos a reprodutibilidade do ChatGPT perguntando cada questão 10 vezes em pelo menos 5 dispositivos e locais diferentes.
Resultados e discussão
A média de respostas corretas foi de 39% para os residentes no primeiro ou segundo ano, 48% no terceiro ou quarto ano, 70% para os especialistas em imagem mamária e 46% para o ChatGPT.
O único grupo com diferença média de acertos estatisticamente significante em relação ao ChatGPT foi o de radiologistas especializados em imagem mamária.
Nós analisamos se o ChatGPT teria um aumento ou redução no número dos acertos ao longo do tempo, o que poderia indicar que ele estaria aprendendo através das questões, porém não pudemos demonstrar variação significativa na média de acertos entre as tentativas.
Conclusões
Nossos resultados demonstraram que, embora o desempenho do ChatGPT tenha sido semelhante ao de residentes nos 4 primeiros anos, ele ainda é estatisticamente inferior a radiologistas especializados.
Além disso, ele não demonstrou melhora de desempenho ao responder as mesmas questões ao longo do tempo.
Palavras Chave
ChatGPT; INTELIGÊNCIA ARTIFICIAL; mama
Arquivos
Área
Ensino
Instituições
Hospital Israelita Albert Einstein - São Paulo - Brasil
Autores
MARCELA CAETANO VILELA LAUAR, RAFAEL FERREIRA DOCEMA, RODRIGO OLIVEIRA SELETI, RENATO LEME DE MOURA RIBEIRO, ERICA FRANÇOLIN FEDERICCI