O realismo do gerador de vídeo Sora da OpenAI levanta preocupações de segurança

O programa de IA Sora gerou um vídeo apresentando esta mulher artificial com base em um prompt de texto

Sora/OpenAI

A OpenAI revelou seu mais recente sistema de inteligência artificial, um programa chamado Sora que pode transformar descrições de texto em vídeos fotorrealistas. O modelo de geração de vídeo está despertando entusiasmo sobre o avanço da tecnologia de IA, juntamente com preocupações crescentes sobre como os vídeos falsos artificiais pioram a desinformação e a desinformação durante um ano eleitoral crucial em todo o mundo.

Atualmente, o modelo Sora AI pode criar vídeos de até 60 segundos usando apenas instruções de texto ou texto combinado com uma imagem. Um vídeo de demonstração começa com um texto que descreve como “uma mulher estilosa caminha por uma rua de Tóquio repleta de neon brilhante e sinalização animada da cidade”. Outros exemplos incluem um cachorro brincando na neve, veículos circulando pelas estradas e cenários mais fantásticos, como tubarões nadando no ar entre os arranha-céus da cidade.

“Tal como acontece com outras técnicas de IA generativa, não há razão para acreditar que a conversão de texto em vídeo não continuará a melhorar rapidamente – aproximando-nos cada vez mais de um momento em que será difícil distinguir o falso do real”, diz Hany Farid na Universidade da Califórnia, Berkeley. “Esta tecnologia, se combinada com a clonagem de voz alimentada por IA, poderia abrir uma frente totalmente nova quando se trata de criar deepfakes de pessoas dizendo e fazendo coisas que nunca fizeram.”

Sora é baseado em parte nas tecnologias pré-existentes da OpenAI, como o gerador de imagens DALL-E e os grandes modelos de linguagem GPT. Os modelos de IA de texto para vídeo ficaram um pouco atrás das outras tecnologias em termos de realismo e acessibilidade, mas a demonstração de Sora é uma “ordem de magnitude mais verossímil e menos caricatural” do que o que veio antes, diz Rachel Tobaccofundador da SocialProof Security, uma organização de hackers de chapéu branco focada em engenharia social.

Para atingir este nível mais elevado de realismo, Sora combina duas abordagens diferentes de IA. O primeiro é um modelo de difusão semelhante aos usados em geradores de imagens de IA como o DALL-E. Esses modelos aprendem a converter gradualmente pixels de imagem aleatórios em uma imagem coerente. A segunda técnica de IA é chamada de “arquitetura de transformador” e é usada para contextualizar e reunir dados sequenciais. Por exemplo, grandes modelos de linguagem usam arquitetura transformadora para reunir palavras em sentenças geralmente compreensíveis. Nesse caso, a OpenAI dividiu os videoclipes em “remendos de espaço-tempo” visuais que a arquitetura do transformador de Sora poderia processar.

Os vídeos de Sora ainda contêm muitos erros, como as pernas esquerda e direita de um humano andando trocando de lugar, uma cadeira flutuando aleatoriamente no ar ou um biscoito mordido magicamente sem marca de mordida. Ainda, Jim Fãum cientista pesquisador sênior da NVIDIA, acessou a plataforma de mídia social X para elogiar Sora como um “mecanismo de física baseado em dados” que pode simular mundos.

O fato de os vídeos de Sora ainda exibirem algumas falhas estranhas ao retratar cenas complexas com muito movimento sugere que esses vídeos deepfake serão detectáveis por enquanto, diz Arvind Narayanan na Universidade de Princeton. Mas também alertou que, a longo prazo, “precisaremos de encontrar outras formas de adaptação como sociedade”.

A OpenAI adiou a disponibilização pública do Sora enquanto realiza exercícios de “equipe vermelha”, onde especialistas tentam quebrar as salvaguardas do modelo de IA, a fim de avaliar seu potencial de uso indevido. O seleto grupo de pessoas que atualmente testam o Sora são “especialistas em áreas como desinformação, conteúdo de ódio e preconceito”, disse um porta-voz da OpenAI.

Este teste é vital porque os vídeos artificiais podem permitir que maus atores gerem imagens falsas para, por exemplo, assediar alguém ou influenciar uma eleição política. A desinformação e a desinformação alimentadas por deepfakes gerados por IA são uma grande preocupação para líderes na academia, nas empresas, no governo e em outros setores, bem como para especialistas em IA.

“Sora é absolutamente capaz de criar vídeos que podem enganar as pessoas comuns”, diz Tobac. “O vídeo não precisa ser perfeito para ser verossímil, pois muitas pessoas ainda não percebem que o vídeo pode ser manipulado tão facilmente quanto as imagens.”

As empresas de IA precisarão colaborar com as redes de mídia social e os governos para lidar com a escala de desinformação e desinformação que provavelmente ocorrerá quando Sora se tornar aberto ao público, diz Tobac. As defesas podem incluir a implementação de identificadores únicos, ou “marcas d’água”, para conteúdo gerado por IA.

Quando questionado se a OpenAI tem planos de tornar o Sora mais amplamente disponível em 2024, o porta-voz da OpenAI descreveu a empresa como “tomando várias medidas de segurança importantes antes de disponibilizar o Sora nos produtos da OpenAI”. Por exemplo, a empresa já utiliza processos automatizados destinados a impedir que os seus modelos comerciais de IA gerem representações de violência extrema, conteúdo sexual, imagens de ódio e políticos ou celebridades reais. Com mais pessoas do que nunca participando das eleições deste anoessas medidas de segurança serão cruciais.

Tópicos: