Modelos de IA atualizados agora podem fazer coisas incríveis com vídeo ou textolongo.
Em fevereiro passado,o Google DeepMind lançou seu poderoso modelo de inteligência artificial Gemini de próximageraçãocommelhorescapacidadespara trabalhar com grandes quantidades de vídeo, texto e imagens.
É um avanço em relação ao Gemini 1.0, que o Google anunciou em dezembro e veio em três versões, do Nano ao Pro e Ultra. (Na primeira metade do mês, a empresa apresentou o Gemini 1.0 Pro e o 1.0 Ultra em muitos de seus produtos.) O Google está lançando agora uma prévia do Gemini 1.5 Pro para desenvolvedores selecionados e clientes corporativos. A empresa afirma que o Gemini 1.5 Pro de gama médias e iguala ao modelo topo de linha anterior, o Gemini 1.0 Ultra, em termos de desempenho, mas usa menos poder de computação .É importante ressaltar que o modelo 1.5 Pro pode lidar com grandes quantidades de dados do usuário, incluindo solicitações maiores. Embora cada modelo de IA seja limitado na quantidade de dados que pode digerir, a nova versão padrão do Gemini 1.5 Pro pode processar até 128.000 entradas de token, que são palavras ou partes de palavras que o modelo de IA de compõe. É semelhante à melhor versão do GPT-4 (GPT-4 Turbo).
No entanto, um grupo limitado de desenvolvedores pode enviar até 1 milhão de tokens para o Gemini 1.5 Pro. Isso equivale a aproximadamente 1 hora de vídeo, 11 horas de áudio ou 700.000 palavras de texto. Este é um grande salto em frente, permitindo-lhe fazer coisas que outros modelos atualmente não conseguem.
Em um vídeo de demonstração mostrado pelo Google usando a versão de um milhão de tokens, os pesquisadores alimentaram o modelo com 402 páginas de transcrições das missões Apollo de pouso na Lua. Eles então mostraram aos gêmeos um esboço feito à mão da bota e pediram que identificassem o momento de decodificação que o desenho simbolizava.
“Foi quando Neil Armstrong pousou na lua. ”O chatbot respondeu corretamente. “Ele disse: ‘É um pequeno passo para um, um salto gigante para outro’.
A modelo também consegue reconhecer momentos de humor. Quando os pesquisadores lhe pediram para encontrar um momento engraçado nos registros da Apollo, ele escolheu a parte em que o astronauta Mike Collins se referia a Armstrong como “o czar”.(Talvez não seja a melhor frase, mas você entendeu).
Em outra demonstração, a equipe carregou um filme mudo de 44 minutos estrela do por Buster Keaton e pediu à IA que identificasse informações em um pedaço de papel retirado do bolso do personagem em determinado momento do filme. Em menos de um minuto, a modelo descobriu a cena e lembrou com precisão o texto escrito no papel. Os pesquisadores também replicaram a mesma tarefa do experimento Apollo, pedindo ao modelo que encontrasse uma cena de um filme baseada em uma imagem. Ele também cumpriu esta missão.
O Google disse que executou um conjunto típico de testes no Gemini 1.5 Pro, que usa para desenvolver modelos de linguagem em larga escala, incluindo avaliações combinadas de texto, código, imagens, áudio e vídeo. A empresa descobriu que o 1.5 Pro superou o 1.0 Pro em 87% dos benchmarks e se aproximou do 1.0 Ultra em todos os benchmarks, usando menos poder de computação.
Segundo o Google ,a capacidade de lidar com entradas maiores é o resultado de um avanço conhecido como arquitetura de combinação especializada. A IA que usa esse design divide a rede neural em múltiplas partes, ativando apenas as partes relevantes para a tarefa atual, em vez de ativar toda a rede de uma só vez. (O Google não está sozinho no uso dessa arquitetura: a empresa francesa de IA Mistral lançou um modelo que a utiliza, e há rumores de que o GPT-4 também usa essa tecnologia.)
“De certa forma, funciona como o nosso próprio cérebro, onde nem todos os cérebros estão ativos o tempo todo”, disse Oriol Vinyals, chefe de aprendizagem profunda da DeepMind. Essa divisão pode economizar o poder de computação da IA e produzir respostas mais rápidas.
“Este tipo de instabilidade, indo e voltando entre diferentes modalidades e usando-as para estudá-las e compreendê-las, é incrível”, disse Oren Etzioni, ex-diretor técnico do Instituto Allen de Inteligência Artificial que não esteve envolvido no trabalho. “É algo que nunca vi antes.”
AIA, que pode se comportar de diversas maneiras, se tornará mais semelhante ao comportamento humano. “Os humanos são multi modais por natureza”, diz Etzioni. Podemos alternar facilmente entre falar, escrever e desenhar imagens ou gráficos para transmitir ideias.
Mas Etcioni alertou que o incidente não deve ser levado muito a sério. “Há um ditado famoso”, disse ele. “Nunca confie em demonstrações de IA.”
Primeiro, não está claro quantos vídeos de demonstração foram lançados ou selecionados de várias tarefas (na verdade, o Google foi criticado pelo lançamento original do Gemini por não divulgar que os vídeos foram acelerados).O modelo pode não conseguir repetir algumas demonstrações se o texto de entrada mudar ligeiramente. Etzioni diz que os modelos de IA em geral são fracos.
Aversão Gemini 1.5 Pro está disponível apenas para desenvolvedores e clientes corporativos. O Google não disse quando será implementado de forma mais ampla.
E ai o que você achou? Ajude-nos a crescer. Compartilhe essa matéria e nos sigam no instagram , facebook e no pinterest. Até a próxima.