Adição de Entrada Multimodal Aprimora o Chatbot Grok da xAI

Voltar para Blog

A Evolução do Chatbot Grok da xAI: Adicionando Entrada Multimodal

A empresa de inteligência artificial (IA) de Elon Musk, a xAI, está fazendo progressos na adição de entradas multimodais ao seu chatbot Grok, de acordo com documentos públicos de desenvolvedores. Isso significa que, em breve, os usuários poderão enviar fotos para o Grok e receber respostas baseadas em texto.

Grok 1.5V: Modelos Multimodais em Diversos Domínios

Essa novidade foi antecipada em um post no blog da xAI no mês passado, que mencionou que o Grok-1.5V oferecerá “modelos multimodais em diversos domínios”. Os documentos mais recentes dos desenvolvedores parecem mostrar progresso no lançamento de um novo modelo.

Um script de exemplo em Python demonstra como os desenvolvedores podem usar a biblioteca do kit de desenvolvimento de software (SDK) da xAI para gerar uma resposta com base em texto e imagens. Esse script lê um arquivo de imagem, configura um prompt de texto e usa o SDK da xAI para gerar uma resposta.

Evolução do Chatbot Grok

Essa é uma grande atualização para o Grok, que a xAI lançou pela primeira vez em novembro de 2023 e está disponível para usuários que pagam pela assinatura X Premium Plus. A última atualização foi o Grok 1.5 em março, que trouxe melhorias nas capacidades de raciocínio.

De acordo com um post no blog da X, o modelo do Grok é treinado “em uma variedade de dados de texto de fontes públicas disponíveis na Internet até o terceiro trimestre de 2023 e conjuntos de dados revisados e curados por… revisores humanos”. O Grok-1 não foi treinado em dados da X (incluindo postagens públicas da X), mas tem “conhecimento em tempo real do mundo”, incluindo postagens na X.

Comparação com Concorrentes

A xAI, fundada por Elon Musk em março de 2023, é relativamente nova no campo da IA e fica atrás de concorrentes como o ChatGPT da OpenAI. No entanto, de acordo com um post no blog da xAI, o modelo Grok 1.5 está fechando a lacuna com o GPT-4 em vários benchmarks que abrangem uma ampla gama de problemas de competição do ensino fundamental ao ensino médio.

É importante observar que os benchmarks para grandes modelos de linguagem são frequentemente criticados, pois os modelos podem se sair bem nesses testes se os dados de treinamento incluírem os próprios benchmarks. Isso é semelhante a decorar as respostas dos testes, em vez de realmente aprender o conteúdo.

Conclusão

Os chatbots conversacionais multimodais parecem ser a próxima fronteira para a IA, com vários avanços anunciados no Google I/O e a OpenAI lançando o GPT-4. Portanto, a falta de capacidades multimodais do Grok o colocava atrás da curva – até agora.

Com a adição de entrada de imagem e a melhoria contínua de suas capacidades, o Grok da xAI está se posicionando para competir com os principais chatbots de IA do mercado.

Referências

ROBISON, Kylie. Elon Musk’s AI company, xAI, is making progress on adding multimodal inputs to its Grok chatbot. The Verge, 21 de maio de 2024.

Compartilhe esta postagem

Voltar para Blog
💬 Precisa de ajuda?