Evolução Do Chatbot Grok Da xAI: Adicionando Capacidades Multimodais
A Evolução do Chatbot Grok da xAI: Adicionando Capacidades Multimodais
A empresa de inteligência artificial (IA) de Elon Musk, a xAI, está fazendo progressos na adição de entradas multimodais ao seu chatbot Grok, de acordo com documentos públicos de desenvolvedores. Isso significa que, em breve, os usuários poderão enviar fotos para o Grok e receber respostas baseadas em texto.
Grok-1.5V: Modelos Multimodais em Diversos Domínios
Essa novidade foi antecipada em um post no blog da xAI no mês passado, que mencionou que a versão Grok-1.5V oferecerá “modelos multimodais em diversos domínios”. Os últimos atualizações nos documentos dos desenvolvedores parecem mostrar progresso no lançamento de um novo modelo.
Demonstrando a Funcionalidade Multimodal
Nos documentos dos desenvolvedores, um script de exemplo em Python demonstra como os desenvolvedores podem usar a biblioteca do kit de desenvolvimento de software (SDK) da xAI para gerar uma resposta com base em texto e imagens. Esse script lê um arquivo de imagem, configura um prompt de texto e usa o SDK da xAI para gerar uma resposta.
Evolução do Chatbot Grok
Essa é uma grande atualização para o Grok, que a xAI lançou pela primeira vez em novembro de 2023 e está disponível para usuários que pagam pela assinatura X Premium Plus. A última atualização foi o Grok 1.5, em março, que veio com capacidades de raciocínio aprimoradas.
Treinamento do Modelo Grok
De acordo com um post no blog da X, o modelo Grok é treinado “em uma variedade de dados de texto de fontes públicas disponíveis na Internet até o terceiro trimestre de 2023 e conjuntos de dados revisados e curados por … revisores humanos”. O Grok-1 não foi treinado em dados da X (incluindo postagens públicas da X), mas tem “conhecimento em tempo real do mundo”, incluindo postagens na X.
Comparação com Concorrentes
A xAI, fundada por Elon Musk em março de 2023, é relativamente nova no campo da IA e fica atrás de concorrentes como o ChatGPT da OpenAI. No entanto, de acordo com um post no blog da xAI, o modelo Grok 1.5 está fechando a lacuna com o GPT-4 em vários benchmarks que abrangem uma ampla gama de problemas de competição do ensino fundamental ao ensino médio.
Importância dos Chatbots Multimodais
Os chatbots conversacionais multimodais parecem ser a próxima fronteira para a IA, com vários avanços anunciados no Google I/O e a OpenAI lançando o GPT-4. Portanto, a falta de capacidades multimodais do Grok o colocava atrás da curva – até agora.
Referências
Robison, K. (2024). Elon Musk’s AI company, xAI, is making progress on adding multimodal inputs to its Grok chatbot. The Verge.