Estudo revela sérios riscos éticos em terapia com ChatGPT

Estudo revela sérios riscos éticos em terapia com ChatGPT


À medida que mais pessoas buscam orientação em saúde mental através do ChatGPT e outros modelos de linguagem grandes (LLMs), novas pesquisas indicam que esses chatbots de IA podem não estar prontos para esse papel. O estudo revelou que, mesmo quando instruídos a utilizar abordagens psicoterapêuticas consolidadas, os sistemas frequentemente falham em atender aos padrões éticos profissionais estabelecidos por organizações como a Associação Americana de Psicologia.

Pesquisadores da Universidade Brown, em colaboração com profissionais de saúde mental, identificaram padrões recorrentes de comportamentos problemáticos. Nos testes, os chatbots lidaram inadequadamente com situações de crise, forneceram respostas que reforçavam crenças prejudiciais sobre os usuários ou outros e usaram linguagem que parecia empática, mas sem compreensão genuína.

“Neste trabalho, apresentamos uma estrutura informada por profissionais de 15 riscos éticos para demonstrar como os conselheiros LLM violam os padrões éticos na prática de saúde mental, mapeando o comportamento do modelo para violações éticas específicas,” escreveram os pesquisadores em seu estudo. “Pedimos para que trabalhos futuros criem padrões éticos, educacionais e legais para conselheiros LLM — padrões que reflitam a qualidade e o rigor no cuidado exigido para a psicoterapia facilitada por humanos.”

Os resultados foram apresentados na Conferência AAAI/ACM sobre Inteligência Artificial, Ética e Sociedade. A equipe de pesquisa está afiliada ao Centro de Responsabilidade Tecnológica, Reimaginacão e Redesign da Brown.

Como os Prompts Influenciam as Respostas em Terapia da IA

Zainab Iftikhar, uma candidata a Ph.D. em ciência da computação na Brown que liderou o estudo, buscou investigar se prompts cuidadosamente elaborados poderiam guiar os sistemas de IA a se comportarem de maneira mais ética em contextos de saúde mental. Prompts são instruções escritas projetadas para direcionar a saída de um modelo sem retrainá-lo ou adicionar novos dados.

“Prompts são instruções que são dadas ao modelo para guiar seu comportamento em realizar uma tarefa específica,” disse Iftikhar. “Você não altera o modelo subjacente ou fornece novos dados, mas o prompt ajuda a guiar a saída do modelo com base em seu conhecimento e padrões aprendidos anteriormente.”

“Por exemplo, um usuário pode incentivar o modelo com: ‘Atue como um terapeuta cognitivo comportamental para me ajudar a reestruturar meus pensamentos,’ ou ‘Utilize princípios da terapia comportamental dialética para me ajudar a entender e administrar minhas emoções.’ Embora esses modelos não realizem, de fato, essas técnicas terapêuticas como um humano faria, eles utilizam seus padrões aprendidos para gerar respostas que se alinham com os conceitos de TCC ou DBT com base no prompt fornecido.”

Pessoas compartilham regularmente essas estratégias de prompt em plataformas como TikTok, Instagram e Reddit. Além da experimentação individual, muitos chatbots de saúde mental voltados ao consumidor são desenvolvidos aplicando prompts relacionados a terapia em LLMs de finalidade geral. Isso torna especialmente importante entender se apenas o prompting pode tornar o aconselhamento de IA mais seguro.

Avaliação de Chatbots de IA em Aconselhamento Simulado

Para avaliar os sistemas, os pesquisadores observaram sete conselheiros pares treinados que tinham experiência com terapia cognitivo-comportamental. Esses conselheiros conduziram sessões de autoatendimento com modelos de IA incentivados a agir como terapeutas de TCC. Os modelos testados incluíram versões da série GPT da OpenAI, Claude da Anthropic e Llama da Meta.

A equipe então selecionou chats simulados baseados em conversas de aconselhamento humano reais. Três psicólogos clínicos licenciados revisaram esses transcritos para sinalizar possíveis violações éticas.

A análise revelou 15 riscos distintos agrupados em cinco categorias amplas:

  • Falta de adaptação contextual: Ignorar o histórico único de uma pessoa e oferecer conselhos genéricos.
  • Pobre colaboração terapêutica: Conduzir a conversa de forma muito forçada e, em certos momentos, reforçar crenças incorretas ou prejudiciais.
  • Empatia enganosa: Usar frases como “Eu vejo você” ou “Eu entendo” para sugerir conexão emocional sem verdadeira compreensão.
  • Discriminação injusta: Exibir preconceitos relacionados a gênero, cultura ou religião.
  • Falta de segurança e gerenciamento de crises: Recusar-se a abordar questões sensíveis, falhar em direcionar usuários para ajuda adequada ou responder de forma inadequada a crises, incluindo pensamentos suicidas.

A Lacuna de Responsabilidade na Saúde Mental por IA

Iftikhar observou que terapeutas humanos também podem cometer erros. A principal diferença está na supervisão.

“Para terapeutas humanos, existem conselhos regulatórios e mecanismos para que os profissionais possam ser responsabilizados por maus-tratos e imperícia,” afirmou Iftikhar. “Mas quando conselheiros LLM cometem essas violações, não existem estruturas regulatórias estabelecidas.”

Os pesquisadores enfatizam que suas descobertas não sugerem que a IA não tenha lugar nos cuidados de saúde mental. Ferramentas alimentadas por inteligência artificial poderiam ajudar a expandir o acesso, especialmente para pessoas que enfrentam altos custos ou disponibilidade limitada de profissionais licenciados. No entanto, o estudo destaca a necessidade de salvaguardas claras, implantação responsável e estruturas regulatórias mais robustas antes de confiar nesses sistemas em situações de alto risco.

No momento, Iftikhar espera que o trabalho incentive a cautela.

“Se você estiver conversando com um chatbot sobre saúde mental, estas são algumas coisas que as pessoas devem observar,” disse ela.

A Importância de Avaliações Rigorosas

Ellie Pavlick, professora de ciência da computação na Brown que não participou da pesquisa, afirmou que o estudo ressalta a importância de examinar cuidadosamente os sistemas de IA usados em áreas sensíveis como a saúde mental. Pavlick lidera o ARIA, um instituto de pesquisa em IA da Fundação Nacional de Ciência na Brown, focado em construir assistentes de IA confiáveis.

“A realidade da IA hoje é que é muito mais fácil construir e implantar sistemas do que avaliá-los e compreendê-los,” disse Pavlick. “Este artigo exigiu uma equipe de especialistas clínicos e um estudo que durou mais de um ano para demonstrar esses riscos. Grande parte do trabalho em IA hoje é avaliada usando métricas automáticas que, por definição, são estáticas e carecem de um humano no processo.”

Ela acrescentou que o estudo poderia servir como um modelo para futuras pesquisas voltadas a melhorar a segurança nas ferramentas de saúde mental baseadas em IA.

“Há uma verdadeira oportunidade para a IA desempenhar um papel no combate à crise de saúde mental que nossa sociedade enfrenta, mas é de extrema importância que dediquemos tempo para realmente criticar e avaliar nossos sistemas em cada passo do caminho para evitar causar mais danos do que benefícios,” disse Pavlick. “Este trabalho oferece um bom exemplo de como isso pode ser feito.”

Leave a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *