Chatbots lutam para responder perguntas médicas em idiomas amplamente falados

Conectar sintomas médicos ao Google é tão comum que os médicos apelidaram o mecanismo de busca de “Doutor Google”. Mas um recém-chegado está rapidamente tomando seu lugar: “Doutor Chatbot”. Pessoas com dúvidas médicas são atraídas pela inteligência artificial generativa porque os chatbots podem responder a perguntas formuladas em conversação com resumos simplificados de informações técnicas complexas. Os usuários que direcionam perguntas médicas para, digamos, ChatGPT da OpenAI ou Gemini do Google também podem confiar mais nas respostas tagarelas da ferramenta de IA do que em uma lista de resultados de pesquisa.

Mas essa confiança nem sempre é sábia. Persistem preocupações sobre se estes modelos podem fornecer respostas seguras e precisas de forma consistente. Novas descobertas do estudo, que serão apresentadas na Web Conference da Association for Computing Machinery em Cingapura em maio deste ano, ressaltam esse ponto: o GPT-3.5 de uso geral da OpenAI e outro programa de IA chamado MedAlpaca, que é treinado em textos médicos, são ambos mais prováveis. produzir respostas incorretas a consultas sobre cuidados de saúde em mandarim, hindi e espanhol em comparação com o inglês.

Num mundo onde menos de 20% da população fala inglês, estas novas descobertas mostram a necessidade de uma supervisão humana mais próxima das respostas geradas pela IA em vários idiomas – especialmente no domínio médico, onde a compreensão errada de uma única palavra pode ser mortal. Cerca de 14 por cento da população da Terra fala mandarim, e o espanhol e o hindi são usados por cerca de 8 por cento cada, tornando estes as três línguas mais faladas depois do inglês.

Sobre apoiar o jornalismo científico

Se você está gostando deste artigo, considere apoiar nosso jornalismo premiado, assinando. Ao adquirir uma assinatura, você está ajudando a garantir o futuro de histórias impactantes sobre as descobertas e ideias que moldam nosso mundo hoje.

“A maioria dos pacientes no mundo não fala inglês e, portanto, o desenvolvimento de modelos que possam atendê-los deve ser uma prioridade importante”, diz o oftalmologista Arun Thirunavukarasu, especialista em saúde digital do Hospital John Radcliffe e da Universidade de Oxford, que não esteve envolvido no estudo. o estudo. É necessário mais trabalho antes que o desempenho destes modelos em línguas não inglesas corresponda ao que prometem ao mundo anglófono, acrescenta.

No novo estudo de pré-impressãopesquisadores do Instituto de Tecnologia da Geórgia fizeram aos dois chatbots mais de 2.000 perguntas semelhantes às normalmente feitas pelo público sobre doenças, procedimentos médicos, medicamentos e outros tópicos de saúde geral.* As perguntas do experimento, escolhidas entre três idiomas em inglês- conjuntos de dados médicos em idiomas, foram então traduzidos para mandarim, hindi e espanhol.

Para cada idioma, a equipe verificou se os chatbots respondiam às perguntas de maneira correta, abrangente e adequada – qualidades que seriam esperadas da resposta de um especialista humano. Os autores do estudo usaram uma ferramenta de IA (GPT-3.5) para comparar as respostas geradas com as respostas fornecidas nos três conjuntos de dados médicos. Finalmente, os avaliadores humanos verificaram novamente uma parte dessas avaliações para confirmar que o juiz da IA estava correto. Thirunavukarasu, porém, diz que se pergunta até que ponto a inteligência artificial e os avaliadores humanos concordam; afinal, as pessoas podem discordar sobre críticas à compreensão e outras características subjetivas. O estudo humano adicional das respostas geradas ajudaria a esclarecer as conclusões sobre a utilidade médica dos chatbots, acrescenta.

Os autores descobriram que, de acordo com a própria avaliação do GPT-3.5, o GPT-3.5 produziu mais respostas inaceitáveis em chinês (23 por cento das respostas) e espanhol (20 por cento), em comparação com o inglês (10 por cento). Seu desempenho foi pior em hindi, gerando respostas contraditórias, pouco abrangentes ou inadequadas em cerca de 45% das vezes. A qualidade das respostas foi muito pior para o MedAlpaca: mais de 67% das respostas geradas a perguntas em chinês, hindi e espanhol foram consideradas irrelevantes ou contraditórias. Como as pessoas podem usar chatbots para verificar informações sobre medicamentos e procedimentos médicos, a equipe também testou a capacidade da IA de distinguir entre declarações corretas e errôneas; os chatbots tiveram melhor desempenho quando as reivindicações eram em inglês ou espanhol, em comparação com chinês ou hindi.

Uma das razões pelas quais os grandes modelos de linguagem, ou LLMs (a tecnologia de geração de texto por trás destes chatbots), geraram respostas irrelevantes foi porque os modelos tiveram dificuldade em descobrir o contexto das perguntas, diz Mohit Chandra, co-autor principal do estudo. Americano científico pediu comentários à OpenAI e aos criadores do MedAlpaca, mas não recebeu resposta até o momento da publicação deste artigo.

MedAlpaca tendia a repetir palavras ao responder a perguntas em outros idiomas. Por exemplo, quando questionado em hindi sobre as perspectivas para a doença renal crónica, começou a gerar uma resposta geral sobre os problemas da doença, mas passou a repetir continuamente a frase “na última fase”. Os pesquisadores também notaram que o modelo ocasionalmente produzia respostas em inglês para perguntas em chinês ou hindi – ou não gerava nenhuma resposta. Esses resultados estranhos podem ter ocorrido porque “o modelo MedAlpaca é significativamente menor que o ChatGPT e seus dados de treinamento também são limitados”, diz o coautor principal do estudo, Yiqiao Jin, estudante de pós-graduação do Instituto de Tecnologia da Geórgia.

A equipe descobriu que as respostas em inglês e espanhol, em comparação com as em chinês e hindi, tinham melhor consistência em um parâmetro que os desenvolvedores de inteligência artificial chamam de “temperatura”. Esse é um valor que determina a criatividade do texto gerado: quanto maior a temperatura de uma IA, menos previsível ela se torna ao gerar uma resposta. Em temperaturas mais baixas, os modelos podem responder a cada pergunta sobre cuidados de saúde com: “Consulte o seu profissional de saúde para obter mais informações”. (Embora esta seja uma resposta segura, talvez nem sempre seja útil.) O desempenho comparável entre as temperaturas do modelo pode ser devido à semelhança entre as palavras e a sintaxe do inglês e do espanhol, diz Jin. “Talvez no funcionamento interno desses modelos o inglês e o espanhol estejam um pouco mais próximos”, acrescenta.

O pior desempenho global em línguas diferentes do inglês pode resultar da forma como estes modelos foram treinados, dizem os autores do estudo. Os LLMs aprendem como encadear palavras a partir de dados coletados on-line, onde a maior parte do texto está em inglês. E Chandra ressalta que mesmo em países onde o inglês não é a língua majoritária, é a língua da maior parte da educação médica. Os pesquisadores acreditam que uma maneira simples de resolver isso seria traduzir textos sobre cuidados de saúde do inglês para outros idiomas. Mas construir conjuntos de dados de texto multilíngues nas enormes quantidades necessárias para treinar LLMs é um grande desafio. Uma opção poderia ser aproveitar a capacidade dos próprios LLMs de traduzir entre idiomas, projetando modelos específicos que são treinados apenas em dados em inglês e geram respostas em um idioma diferente.

Mas esse truque pode não funcionar perfeitamente no domínio médico. “Um dos problemas que os tradutores humanos, assim como os modelos de tradução automática, enfrentam é que as principais palavras científicas são muito difíceis de traduzir. Você pode conhecer a versão em inglês de um termo científico específico, mas a versão em hindi ou chinês pode ser muito diferente”, diz Chandra, que também observa que erros na qualidade da tradução de textos em chinês e hindi podem contribuir para os erros de LLM encontrados em o estudo.

Além disso, diz Chandra, pode ser sensato incluir mais especialistas médicos e médicos, especialmente do Sul Global, ao treinar e avaliar esses LLMs em uso não-inglês. “A maioria das avaliações para LLMs em saúde, ainda hoje, é feita com um conjunto homogêneo de especialistas, o que leva à disparidade linguística que vemos neste estudo”, acrescenta. “Precisamos de uma abordagem mais responsável.”

*Nota do Editor (01/04/24): Esta frase foi editada após a postagem para refletir o status atual do estudo.

Sobre apoiar o jornalismo científico

O melhor mouse para trabalho e lazer

Os planos da ACA estão sendo alterados sem a aprovação dos inscritos

Leave a Comment Cancel reply