Revolução Dos Modelos De IA Compactos: Desbravando Novas Fronteiras
A Revolução dos Modelos de IA Compactos: Desbravando Novas Fronteiras Computacionais
Quando o ChatGPT foi lançado em novembro de 2023, sua enorme complexidade exigia que fosse acessado apenas pela nuvem. Hoje, é possível executar um programa de IA com capacidades semelhantes em um Macbook Air, sem nem mesmo esquentar o dispositivo. Essa redução dramática no tamanho dos modelos de IA revela o ritmo acelerado com que os pesquisadores estão refinando esses sistemas, demonstrando que o caminho para torná-los significativamente mais inteligentes não passa necessariamente por aumentar sua escala indefinidamente.
Modelos de IA Menores, Mais Eficientes
O modelo que agora infunde meu laptop com a sagacidade e sabedoria semelhantes ao ChatGPT é chamado de Phi-3-mini. Ele faz parte de uma família de modelos de IA menores recentemente lançados pelos pesquisadores da Microsoft. Apesar de ser compacto o suficiente para rodar em um smartphone, testei o Phi-3-mini em um laptop e acessei-o por meio de um aplicativo chamado Enchanted, que fornece uma interface de bate-papo similar à do aplicativo oficial do ChatGPT.
De acordo com um artigo que descreve a família de modelos Phi-3, os pesquisadores da Microsoft afirmam que o modelo que utilizei se compara favoravelmente ao GPT-3.5, o modelo da OpenAI que está por trás do primeiro lançamento do ChatGPT. Essa afirmação se baseia na medição de seu desempenho em vários benchmarks de IA padrão, projetados para avaliar o senso comum e o raciocínio. Em meus próprios testes, ele parece tão capaz quanto o modelo da OpenAI.
Multimodalidade e Aplicações Locais
Nesta semana, durante a conferência anual de desenvolvedores da Microsoft, a Build, a empresa anunciou um novo modelo Phi-3 “multimodal”, capaz de lidar com áudio, vídeo e texto. Essa novidade surge apenas alguns dias após a OpenAI e a Google terem apresentado novos assistentes de IA radicais, construídos sobre modelos multimodais acessados pela nuvem.
A família Lilliputiana de modelos de IA da Microsoft sugere que é possível construir todo tipo de aplicativos de IA práticos que não dependem da nuvem. Isso pode abrir novos casos de uso, permitindo que eles sejam mais responsivos ou privados. Algoritmos offline são uma peça-chave do recurso Recall, anunciado pela Microsoft, que usa IA para tornar pesquisável tudo o que você já fez em seu PC.
Aprimorando a Inteligência Artificial
Os modelos Phi também revelam algo sobre a natureza da IA moderna e, talvez, sobre como ela pode ser aprimorada. Sébastien Bubeck, pesquisador da Microsoft envolvido no projeto, afirma que os modelos foram construídos para testar se ser mais seletivo sobre o que um sistema de IA é treinado poderia fornecer uma maneira de ajustar suas habilidades.
Os grandes modelos de linguagem, como o GPT-4 da OpenAI ou o Gemini da Google, que alimentam chatbots e outros serviços, geralmente são alimentados com grandes quantidades de texto provenientes de livros, sites e praticamente qualquer outra fonte acessível. Embora isso tenha levantado questões legais, a OpenAI e outros descobriram que aumentar a quantidade de texto fornecida a esses modelos, bem como a quantidade de poder computacional usada para treiná-los, pode desbloquear novas capacidades.
Educando Modelos de IA com Dados Cuidadosamente Selecionados
Bubeck, interessado na natureza da “inteligência” exibida pelos modelos de linguagem, decidiu ver se selecionar cuidadosamente os dados fornecidos a um modelo poderia melhorar suas habilidades, sem precisar aumentar indefinidamente seus dados de treinamento. Em setembro passado, sua equipe pegou um modelo aproximadamente 1/17 do tamanho do GPT-3.5 da OpenAI, treinando-o em dados sintéticos de “qualidade de livro didático”, incluindo fatos de domínios específicos, como programação.
O modelo resultante exibiu habilidades surpreendentes para seu tamanho. “Para nossa surpresa, observamos que conseguimos superar o GPT-3.5 em programação usando essa técnica”, diz Bubeck. Sua equipe na Microsoft fez outras descobertas usando essa abordagem, como mostrar que alimentar um modelo extra pequeno com histórias infantis permitia que ele produzisse saída consistentemente coerente, algo incomum em programas de IA desse porte treinados de maneira convencional.
O Futuro da Computação com IA Local
Esses resultados sugerem que tornar os futuros sistemas de IA mais inteligentes não dependerá apenas de escalá-los ainda mais. É provável que modelos reduzidos como o Phi-3 sejam uma característica importante do futuro da computação. Executar modelos de IA localmente em um smartphone, laptop ou PC reduz a latência ou interrupções que podem ocorrer quando as consultas precisam ser enviadas para a nuvem. Isso também garante que seus dados permaneçam em seu dispositivo e pode desbloquear novos casos de uso para a IA, impossíveis no modelo centrado na nuvem.
A Apple, por exemplo, deve apresentar sua estratégia de IA de longa data na conferência WWDC no próximo mês, tendo se gabado anteriormente de que seu hardware e software personalizados permitem que o aprendizado de máquina aconteça localmente em seus dispositivos. Em vez de competir diretamente com a OpenAI e a Google na construção de modelos de IA de nuvem cada vez maiores, a Apple pode optar por focar em encolher a IA para caber nos bolsos de seus clientes.
Referências
KNIGHT, Will. Pocket-Sized AI Models Unlock a New Era of Computing. Wired, 2024.