Anthropic lança Fable 5 com restrições em cibersegurança

Anthropic lança Fable 5 com restrições em cibersegurança

Anthropic apresenta o Fable 5 e suas inovações

A empresa americana Anthropic, desenvolvedora dos modelos de inteligência artificial (IA) Claude, disponibilizou ao público nesta terça-feira uma versão do Mythos, embora com limitações em áreas sensíveis como segurança cibernética e risco de ataques biológicos, meses após alertar que o poderoso modelo de inteligência artificial poderia identificar e explorar vulnerabilidades em softwares críticos.

Batizado de Fable 5, este modelo é o primeiro da classe Mythos — a linha mais avançada da Anthropic, apresentada em abril, mas com acesso restrito por motivos de segurança — a ser lançado ao público. O novo modelo começará a ser disponibilizado com mecanismos de proteção que o impedem de responder a determinados tipos de consultas, incluindo aquelas relacionadas à cibersegurança e à biologia.

Nesses casos, a Anthropic informou que seu chatbot Claude encaminhará as respostas para um modelo diferente chamado Opus 4.8. A empresa também está lançando o mesmo modelo, sem algumas dessas salvaguardas, como uma nova versão do Mythos chamada Mythos 5. Ele estará disponível para os grupos que podem utilizar o modelo com capacidades cibernéticas por meio de uma iniciativa chamada Project Glasswing.

Na semana passada, a Anthropic adicionou mais 150 organizações à lista de empresas com acesso ao Mythos, elevando o total para cerca de 200. O Mythos tornou-se um ponto central para a empresa sediada em São Francisco nos últimos meses, à medida que ela avança em direção a uma oferta pública inicial de ações (IPO).

A empresa tomou a decisão incomum de restringir o acesso ao modelo a parceiros selecionados, citando preocupações de que ele possa identificar e explorar vulnerabilidades "em todos os principais sistemas operacionais e em todos os principais navegadores da web quando instruído por um usuário a fazê-lo".

“Queríamos garantir que, para casos de uso não relacionados à cibersegurança, realmente priorizássemos o lançamento seguro do Fable o mais rápido possível”, disse Dianne Penn, chefe de gerenciamento de projetos da divisão de pesquisa e laboratórios da Anthropic. “É por isso que estamos lançando primeiro esta parte do Fable, enquanto continuamos trabalhando nos casos de uso gerais de cibersegurança.”

O Fable 5 foi projetado para ser melhor em programação e em outras tarefas profissionais, especialmente na resolução de problemas complexos ao longo de períodos mais longos do que os modelos anteriores, informou a empresa.

Para testar se as salvaguardas do Fable 5 resistiriam a tentativas de contorno, a Anthropic informou que realizou internamente um programa de recompensa por descoberta de falhas (bug bounty) para encontrar maneiras de fazer jailbreak no modelo, ou seja, contornar suas proteções.

Em mais de 1.000 horas de testes, as equipes de red teaming não encontraram nenhum método universal de jailbreak, processo de exploração de falhas de um dispositivo eletrônico bloqueado para instalar outro software que não o disponibilizado pelo fabricante para uso. Penn afirmou que a Anthropic continuará ampliando o número de grupos com acesso à versão do Mythos com capacidades cibernéticas por meio do Project Glasswing e adotará “outras abordagens para permitir que parceiros confiáveis tenham acesso para fins de segurança cibernética”.