Modelos de IA Compactos Revolucionam a Computação
A Revolução dos Modelos de IA Compactos: Desbravando Novas Fronteiras da Computação
Quando o ChatGPT foi lançado em novembro de 2023, ele só podia ser acessado pela nuvem, pois o modelo por trás dele era simplesmente enorme. Hoje, é possível executar um programa de IA com capacidades semelhantes em um Macbook Air, sem que o computador sequer esquente. Essa redução de tamanho mostra o quão rapidamente os pesquisadores estão refinando os modelos de IA para torná-los mais enxutos e eficientes. Isso também demonstra que aumentar a escala não é a única maneira de tornar as máquinas significativamente mais inteligentes.
Phi-3-mini: A IA Compacta que Impressiona
O modelo que está infundindo meu laptop com a perspicácia e sabedoria semelhantes ao ChatGPT é chamado de Phi-3-mini. Ele faz parte de uma família de modelos de IA menores recentemente lançados pelos pesquisadores da Microsoft. Apesar de ser compacto o suficiente para rodar em um smartphone, eu o testei executando-o em um laptop e acessando-o por meio de um aplicativo chamado Enchanted, que fornece uma interface de bate-papo semelhante à do aplicativo oficial do ChatGPT.
Desempenho Impressionante em Benchmarks
De acordo com um artigo descrevendo a família de modelos Phi-3, os pesquisadores da Microsoft afirmam que o modelo que eu usei se compara favoravelmente ao GPT-3.5, o modelo da OpenAI por trás do primeiro lançamento do ChatGPT. Essa afirmação é baseada na medição de seu desempenho em vários benchmarks de IA padrão, projetados para medir o senso comum e o raciocínio. Em meus próprios testes, ele parece tão capaz quanto o ChatGPT.
Modelos Multimodais da Microsoft
A Microsoft anunciou um novo modelo Phi-3 “multimodal”, capaz de lidar com áudio, vídeo e texto, em sua conferência anual de desenvolvedores, a Build, esta semana. Isso aconteceu apenas alguns dias depois que a OpenAI e a Google anunciaram novos assistentes de IA radicais, construídos sobre modelos multimodais acessados pela nuvem.
A Ascensão dos Modelos de IA Locais
A família Lilliputiana de modelos de IA da Microsoft sugere que é possível construir todo tipo de aplicativos de IA práticos que não dependem da nuvem. Isso poderia abrir novos casos de uso, permitindo que eles sejam mais responsivos ou privados. (Os algoritmos offline são uma peça-chave do recurso Recall, anunciado pela Microsoft, que usa IA para tornar pesquisável tudo o que você já fez em seu PC.)
Treinamento Seletivo: A Chave para Modelos de IA Mais Inteligentes
A família Phi também revela algo sobre a natureza da IA moderna e, talvez, sobre como ela pode ser aprimorada. Sébastien Bubeck, um pesquisador da Microsoft envolvido no projeto, me diz que os modelos foram construídos para testar se ser mais seletivo sobre o que um sistema de IA é treinado poderia fornecer uma maneira de ajustar suas habilidades.
Curadoria de Dados: Um Caminho para a Melhoria da IA
Os grandes modelos de linguagem, como o GPT-4 da OpenAI ou o Gemini da Google, que alimentam chatbots e outros serviços, geralmente são alimentados com grandes quantidades de texto provenientes de livros, sites e praticamente qualquer outra fonte acessível. Embora isso tenha levantado questões legais, a OpenAI e outros descobriram que aumentar a quantidade de texto fornecida a esses modelos e a quantidade de poder computacional usada para treiná-los pode desbloquear novas capacidades.
Treinamento Focado: Um Caminho Surpreendente
Bubeck, interessado na natureza da “inteligência” exibida pelos modelos de linguagem, decidiu ver se a curadoria cuidadosa dos dados fornecidos a um modelo poderia melhorar suas habilidades, sem precisar aumentar drasticamente seus dados de treinamento. Em setembro passado, sua equipe pegou um modelo aproximadamente 1/17 do tamanho do GPT-3.5 da OpenAI, treinando-o em dados sintéticos de “qualidade de livro didático”, incluindo fatos de domínios específicos, como programação. O modelo resultante exibiu habilidades surpreendentes para seu tamanho, superando o GPT-3.5 em tarefas de codificação.
O Futuro da Computação com IA Local
Modelos de IA compactos, como o Phi-3, provavelmente serão uma característica importante do futuro da computação. Executar modelos de IA “localmente” em um smartphone, laptop ou PC reduz a latência ou interrupções que podem ocorrer quando as consultas precisam ser enviadas para a nuvem. Isso também garante que seus dados permaneçam em seu dispositivo e pode desbloquear novos casos de uso para a IA, que não seriam possíveis no modelo centrado na nuvem.
Referências
Referência: Pocket-Sized AI Models Unlock a New Era of Computing