Hackers expõem vulnerabilidades em modelos de IA, revelando falhas de segurança

Hackers expõem vulnerabilidades em modelos de IA, revelando falhas de segurança

Hackers estão expondo vulnerabilidades em modelos de inteligência artificial, revelando a facilidade com que essas tecnologias podem ser manipuladas.

Em San Francisco, o Financial Times relatou que um hacker anônimo, conhecido como Pliny the Prompter, consegue quebrar os modelos de IA mais avançados em cerca de 30 minutos. Pliny manipulou o Llama 3, da Meta, para compartilhar instruções sobre como fazer napalm e fez o Grok, de Elon Musk, elogiar Adolf Hitler. Ele também criou uma versão hackeada do GPT-4o, da OpenAI, chamada Godmode GPT, que foi banida após aconselhar atividades ilegais.

Segundo Pliny, suas ações não têm intenção maliciosa, mas fazem parte de um esforço global para destacar as deficiências dos grandes modelos de linguagem (LLMs) lançados por empresas de tecnologia em busca de lucro.

O Papel dos Hackers na Segurança dos Modelos de IA

Pliny não está sozinho em sua missão. Ele é apenas um dos vários hackers, pesquisadores acadêmicos e especialistas em segurança cibernética que correm para encontrar vulnerabilidades em LLMs emergentes. Esses hackers éticos, conhecidos como white hat, frequentemente encontram maneiras de fazer com que os modelos de IA criem conteúdo perigoso, espalhem desinformação, compartilhem dados privados ou gerem código malicioso.

Empresas como OpenAI, Meta e Google já usam equipes vermelhas de hackers para testar seus modelos antes de serem amplamente lançados. No entanto, as vulnerabilidades da tecnologia criaram um mercado em expansão de startups de segurança dos LLM que constroem ferramentas para proteger empresas que planejam usar modelos de IA. As startups de segurança de aprendizado de máquina arrecadaram US$ 213 milhões em 23 acordos em 2023, acima dos US$ 70 milhões do ano anterior, de acordo com o provedor de dados CB Insights.

O cenário de jailbreaking, ou quebra de travas, começou cerca de um ano atrás, e os ataques até agora têm evoluído constantemente. Eran Shimony, pesquisador de vulnerabilidades da CyberArk, um grupo de segurança cibernética que agora oferece segurança em LLM, descreve a situação como um jogo constante de gato e rato, com fornecedores melhorando a segurança de seus LLMs, mas também com ofensivas tornando seus prompts mais sofisticados.

Regulamentação e Medidas de Segurança

Esses esforços ocorrem à medida que os reguladores globais buscam intervir para conter os perigos potenciais em torno dos modelos de IA. A União Europeia aprovou sua Lei de IA, que cria novas responsabilidades para os donos dos modelos, enquanto o Reino Unido e Singapura estão entre os países que estudam novas leis para regular o setor. A Califórnia votará em agosto um projeto de lei que exigiria que os grupos de IA do estado — que incluem Meta, Google e OpenAI — garantam que não desenvolvam modelos com uma capacidade perigosa.

Enquanto isso, LLMs manipulados com nomes como WormGPT e FraudGPT foram criados por hackers maliciosos para serem vendidos na dark web por até US$ 90 (R$ 488) para ajudar em ataques cibernéticos, programando malwares ou ajudando golpistas a criar campanhas de phishing automatizadas. Outras variações surgiram, como EscapeGPT, BadGPT, DarkGPT e Black Hat GPT, de acordo com o grupo de segurança de IA SlashNext.

Alguns hackers usam modelos de código aberto não censurados. Para outros, os ataques de jailbreaking representam uma nova arte, com os perpetradores frequentemente compartilhando dicas em comunidades em plataformas como Reddit ou Discord. As abordagens variam, desde hackers individuais usando sinônimos para palavras que foram bloqueadas para contornar os filtros até os ataques mais sofisticados, que usam IA para automatizar.

O Futuro da Segurança em Modelos de IA

No ano passado, pesquisadores da Universidade Carnegie Mellon e do US Center for AI Safety disseram ter encontrado uma maneira de quebrar sistematicamente LLMs como o ChatGPT da OpenAI, o Gemini do Google e uma versão mais antiga do Claude da Anthropic — modelos proprietários fechados que supostamente eram menos vulneráveis a ataques. Os pesquisadores acrescentaram que não está claro se tal comportamento pode ser totalmente corrigido pelos donos de LLM.

A Anthropic publicou uma pesquisa em abril sobre uma técnica chamada many-shot jailbreaking, em que hackers podem preparar um LLM mostrando a ele uma lista de perguntas e respostas, encorajando-o a responder a uma pergunta prejudicial modelando o mesmo estilo. O ataque foi possibilitado pelo fato de que modelos como os desenvolvidos pela Anthropic agora têm uma janela de contexto maior, ou espaço para adicionar texto.

Embora os LLMs de última geração sejam poderosos, não acreditamos que ainda representem riscos verdadeiramente catastróficos. Modelos futuros podem chegar a esse ponto, escreveu a Anthropic. Isso significa que agora é o momento de trabalhar para mitigar possíveis quebras de LLMs antes que possam ser usadas em modelos que poderiam causar danos sérios.

Conclusão

Embora muitos dos ataques permaneçam relativamente benignos, especialistas alertam que certos tipos de ataques poderiam começar a levar a vazamentos de dados e agentes mal-intencionados poderiam encontrar maneiras de extrair informações sensíveis, como dados nos quais um modelo foi treinado. A DeepKeep, um grupo de segurança de LLM israelense, encontrou maneiras de fazer o Llama 2, o modelo de IA anterior da Meta e de código aberto, a vazar informações identificáveis dos usuários. Rony Ohayon, CEO da DeepKeep, disse que sua empresa está desenvolvendo ferramentas específicas de segurança de LLM, como firewalls, para proteger os usuários.

Disponibilizar modelos open source distribui os benefícios da IA e permite que mais pesquisadores identifiquem e ajudem a corrigir vulnerabilidades, para que as empresas possam tornar os modelos mais seguros, disse a Meta em um comunicado. A empresa acrescentou que conduziu testes de segurança com especialistas internos e externos em seu último modelo Llama 3 e seu chatbot Meta AI.

OpenAI e Google disseram que estão continuamente treinando modelos para se defenderem melhor contra esses tipos de ataques. A Anthropic, que especialistas dizem ter feito os esforços mais avançados em segurança, disse que são necessárias mais pesquisas sobre esses tipos de ataques. No entanto, a necessidade de medidas de segurança robustas e regulamentações eficazes é clara, à medida que a tecnologia de IA continua a evoluir e se integrar em nossas vidas diárias.


Créditos: publicai.com.br

Leave a Reply

Your email address will not be published. Required fields are marked *