O mais recente gerador de vídeo de IA da Runway dá vida a monstros gigantes de algodão doce

Photo of author

By Sohaib


Prolongar / Captura de tela de um vídeo Runway Gen-3 Alpha gerado com o prompt “Um humanóide gigante, feito de algodão doce azul fofo, pisando no chão e rugindo para o céu, com céu azul claro atrás deles.”

No domingo, a Runway anunciou um novo modelo de síntese de vídeo AI chamado Geração 3 Alfa ainda está em desenvolvimento, mas parece criar vídeo de qualidade semelhante ao Sora da OpenAI, que estreou no início deste ano (e também ainda não foi lançado). Ele pode gerar vídeos novos e de alta definição a partir de prompts de texto que variam de humanos realistas a monstros surrealistas pisoteando o campo.

Ao contrário da Runway melhor modelo anterior a partir de junho de 2023, que só poderia criar clipes de dois segundos de duração, o Gen-3 Alpha pode supostamente criar segmentos de vídeo de 10 segundos de pessoas, lugares e coisas que têm uma consistência e coerência que facilmente ultrapassa o Gen-2. Se 10 segundos parecem curtos em comparação com o minuto completo de vídeo de Sora, considere que a empresa está trabalhando com um orçamento de computação apertado em comparação com o OpenAI, mais generosamente financiado – e na verdade tem um histórico de envio de capacidade de geração de vídeo para usuários comerciais.

Gen-3 Alpha não gera áudio para acompanhar os videoclipes, e é altamente provável que gerações temporalmente coerentes (aquelas que mantêm um personagem consistente ao longo do tempo) dependam de material de treinamento semelhante de alta qualidade. Mas a melhoria da fidelidade visual da Runway no ano passado é difícil de ignorar.

O vídeo AI esquenta

Foram algumas semanas ocupadas para a síntese de vídeo de IA na comunidade de pesquisa de IA, incluindo o lançamento do modelo chinês Kling, criado pela Kuaishou Technology, com sede em Pequim (às vezes chamada de “Kwai”). Kling pode gerar dois minutos de vídeo HD 1080p a 30 quadros por segundo com um nível de detalhe e coerência que supostamente corresponde a Sora.

Prompt Gen-3 Alpha: “Reflexos sutis de uma mulher na janela de um trem movendo-se em hipervelocidade em uma cidade japonesa.”

Não muito depois da estreia de Kling, as pessoas nas redes sociais começaram a criar vídeos surreais de IA usando Luma AI Máquina de Sonhos Luma. Esses vídeos eram novos e estranhos, mas geralmente faltou coerência; testamos o Dream Machine e não ficamos impressionados com nada que vimos.

Enquanto isso, um dos pioneiros originais da conversão de texto em vídeo, a Runway, com sede em Nova York – fundada em 2018 – recentemente se viu alvo de memes que mostravam sua tecnologia Gen-2 caindo em desuso em comparação com os modelos de síntese de vídeo mais recentes. Isso pode ter estimulado o anúncio do Gen-3 Alpha.

Alerta Gen-3 Alpha: “Um astronauta correndo por um beco no Rio de Janeiro.”

Gerar humanos realistas sempre foi complicado para modelos de síntese de vídeo, então Runway mostra especificamente a capacidade do Gen-3 Alpha de criar o que seus desenvolvedores chamam de personagens humanos “expressivos” com uma variedade de ações, gestos e emoções. No entanto, a empresa exemplos fornecidos não eram particularmente expressivos – a maioria das pessoas apenas olhavam e piscavam lentamente – mas pareciam realistas.

Exemplos humanos fornecidos incluem vídeos gerados de uma mulher em um trem, um astronauta correndo pela rua, um homem com o rosto iluminado pelo brilho de um aparelho de TV, uma mulher dirigindo um carro e uma mulher correndo, entre outros.

Prompt Gen-3 Alpha: “Um close-up de uma jovem dirigindo um carro, parecendo pensativa, uma floresta verde borrada visível através da janela chuvosa do carro.”

Os vídeos de demonstração gerados também incluem exemplos de síntese de vídeo mais surreais, incluindo uma criatura gigante caminhando em uma cidade degradada, um homem feito de pedras caminhando em uma floresta e o monstro gigante de algodão doce visto abaixo, que é provavelmente o melhor vídeo de todo página.

Alerta Gen-3 Alpha: “Um humanóide gigante, feito de algodão doce azul fofo, pisando no chão e rugindo para o céu, com o céu azul claro atrás deles.”

Gen-3 irá alimentar várias ferramentas de edição Runway AI (uma das reivindicações de fama mais notáveis ​​da empresa), incluindo Pincel multimovimento, Controles avançados de câmerae Modo Diretor. Ele pode criar vídeos a partir de prompts de texto ou imagem.

Runway afirma que o Gen-3 Alpha é o primeiro de uma série de modelos treinados em uma nova infraestrutura projetada para treinamento multimodal em larga escala, dando um passo em direção ao desenvolvimento do que chama de “Modelos Mundiais Gerais,” que são sistemas hipotéticos de IA que constroem representações internas de ambientes e as utilizam para simular eventos futuros dentro desses ambientes.

Leave a Comment