Anthropic reavalia limites de capacidade covert no Claude Fable 5, após ser acusado de sabotagem secreta

A Anthropic retractou uma política que limitava, de maneira encoberta, a utilização de seu novo modelo da camada Mythos, Claude Fable 5, para pesquisas em inteligência artificial.

No dia anterior, quando a Anthropic disponibilizou seu primeiro modelo da camada Mythos ao público, a Fortune reportou que se tratava de “um passo considerável” para o laboratório, vindo apenas uma semana depois que a empresa protocolou em sigilo documentação para um IPO. Inicialmente, a Anthropic considerava que os modelos da classe Mythos eram muito perigosos para serem lançados, citando sua capacidade significativamente aprimorada de identificar vulnerabilidades de software, mas declarou que agora se sentia confiante de que as novas salvaguardas no Claude Fable 5 eram suficientes para garantir que essas habilidades perigosas não caíssem em mãos erradas.

Logo após o lançamento do modelo, no entanto, uma forte reação negativa começou a surgir nas redes sociais, vinda de pesquisadores, desenvolvedores e especialistas em políticas de IA. A crítica se centrava em um parágrafo escondido no extenso documento de 319 páginas conhecido como cartão do sistema—um documento que oferece divulgações detalhadas sobre segurança—que revelava que o Fable diminuiria discretamente suas próprias respostas ao detectar solicitações relacionadas ao desenvolvimento de IA de ponta, como a construção da infraestrutura utilizada para treinar grandes modelos de IA.

Na prática, isso significa que um usuário poderia solicitar ajuda ao Fable, receber uma resposta intencionalmente enfraquecida, mas não saber que o modelo estava segurando informações. Os críticos deixaram claro que isso minava uma expectativa básica de que uma ferramenta ou atenderia ao pedido ou informaria ao usuário que não o faria.

Diferente das outras restrições do Fable, que envolvem cibersegurança e biologia e que redirecionam abertamente os usuários para um modelo menos potente com uma notificação visível, o cartão do sistema ressaltava que essa circunstância “não é visível para o usuário.” O modelo ainda responde, mas utiliza “intervenções para limitar a eficácia do Claude” sem informar ao usuário que está fazendo isso.

A Anthropic estimou que as restrições afetariam cerca de 0,03% do tráfego. No entanto, a empresa também se defendeu ao afirmar que “impor esta restrição através de nossas salvaguardas evita acelerar os atores mais dispostos a violar esses termos.”

Mais tarde, a empresa informou à Fortune que decidira alterar as salvaguardas do Fable 5 para o desenvolvimento de LLM (Modelos de Linguagem de Grande Escala) para torná-las visíveis.

“Fizemos uma escolha errada, e pedimos desculpas por não termos acertado o equilíbrio,” disse um porta-voz da Anthropic. “Construir essas salvaguardas é um desafio técnico complexo: os usuários podem enfrentar mais falsos positivos enquanto refinamos esses classificadores para responder a novas ameaças. Estamos trabalhando para reduzir isso o mais rápido possível.”

Não é a primeira vez que os usuários acusam a Anthropic de falta de transparência. No início deste ano, a empresa enfrentou uma série de reclamações após implementações silenciosas em seu instrumento Claude Code que, segundo desenvolvedores, degradaram o desempenho da ferramenta.

Reação da comunidade de IA

Uma ampla gama da comunidade de IA reagiu de forma veemente—incluindo pesquisadores de código aberto críticos das políticas fechadas da Anthropic, assim como especialistas em segurança de IA que normalmente estão alinhados com a Anthropic.

“Ter meu acesso aos modelos de ponta para meu trabalho retirado de forma sigilosa é absolutamente inaceitável,” escreveu Nathan Lambert, um pesquisador de modelos abertos que recentemente liderou projetos no AI2. “Para mim, isso pinta a Anthropic claramente como anti-ciência, e portanto anti-progresso e anti-segurança.”

Dean Ball, um associado sênior da Foundation for American Innovation que anteriormente atuou como assessor de políticas na Casa Branca, declarou que a política de “sabotagem secreta” da Anthropic “eleva massivamente e profundamente o argumento de que a segurança em IA foi exagerada para justificar um comportamento monopolista por parte dos laboratórios.”

E Jeremy Howard, chefe do grupo de pesquisa sem fins lucrativos Fast AI, afirmou que “a Anthropic escolheu o oposto do caminho seguro: eles estão permitindo que, enquanto o laboratório atual é o topo, seu modelo superior seja utilizado para pesquisa de IA de ponta. Eles disseram que vão sabotar outros que tentarem. Isso significa que a fronteira da IA avança, e o desequilíbrio de poder aumenta.”

Até mesmo ex-colaboradores da Anthropic se manifestaram. Behnam Neyshabur, que anteriormente co-liderou a iniciativa da Anthropic para desenvolver um cientista de IA, publicou no X afirmando: “Trabalhando em IA para o câncer? Desculpe, não posso ajudá-lo. Trabalhando em IA para a Doença de Alzheimer? Desculpe, estou ficando um pouco menos inteligente quando se trata da parte de IA.” Em outro post, ele acrescentou: “Argumentei nos últimos oito meses que essa seria a direção das coisas. Na minha visão, concentrar essas capacidades fundamentalmente desacelera o progresso científico e tecnológico e é um impacto negativo para a humanidade.”

Não obstante, nem todas as vozes proeminentes de IA se concentraram em criticar. Ethan Mollick, professor associado de Wharton que estuda IA, inovação e empreendedorismo, não focou nas restrições, escrevendo em um post no blog que o Claude Fable 5 “superou basicamente todos os outros modelos públicos que utilizei por uma margem considerável.”

Andrej Karpathy, ex-cofundador da OpenAI e diretor de IA da Tesla, que anunciou que havia se juntado à Anthropic no mês passado, chamou o Claude Fable 5 de uma “liberação super empolgante” no X e disse que é uma “mudança significativa para a frente.” Entretanto, ele apontou que o modelo “ainda tem peculiaridades que as pessoas irão encontrar e as salvaguardas estão configuradas para ser um pouco excessivas para o lançamento, o que pode ser ajustado ao longo do tempo.”

Anthropic deseja tornar modelos acessíveis e seguros

Antes do lançamento, a Anthropic parecia se preparar para a reação, embora não tenha abordado especificamente a possível backlash relacionada às restrições de pesquisa. Em uma entrevista à Fortune no dia anterior, Dianne Na Penn, chefe de gerenciamento de produtos, pesquisa e laboratórios da Anthropic, disse que o novo modelo era capaz de produzir um desempenho de ponta que era de 10 a 20 pontos superior ao seu modelo anterior, Opus 4.8, ou a outros modelos de ponta.

“Acredito que, de modo geral, ser capaz de fazer isso, ao mesmo tempo em que se têm as salvaguardas corretas em vigor para torná-lo acessível e geralmente de uma maneira segura, é provavelmente a principal mensagem que quero que as pessoas tirem,” afirmou ela. “Estamos elevando o nível da inteligência dos modelos e, ao mesmo tempo, estamos avançando a fronteira de uma maneira segura.”

Ela acrescentou que a Anthropic reconheceu que algumas solicitações benignas seriam inicialmente bloqueadas. “Estamos trabalhando ativamente para melhorar essas salvaguardas após o lançamento, mas queríamos tornar o modelo acessível de maneira geral, mas de forma segura, assim que pudéssemos.”

Anthropic reavalia limites de capacidade covert no Claude Fable 5, após ser acusado de sabotagem secreta

Reação da comunidade de IA

Anthropic deseja tornar modelos acessíveis e seguros

Leave a Comment Cancel Reply

Categorias

Reação da comunidade de IA

Anthropic deseja tornar modelos acessíveis e seguros

Must Read

Leave a Comment Cancel Reply