Microsoft Lança Novo Modelo De Linguagem Phi-3 Com Análise Visual
Microsoft lança nova versão do modelo de linguagem Phi-3 com capacidade de análise visual
A Microsoft anunciou uma nova versão de seu modelo de linguagem de pequeno porte, o Phi-3, que agora possui a capacidade de analisar imagens e informar sobre seu conteúdo. O Phi-3-vision é um modelo multimodal, ou seja, pode processar tanto texto quanto imagens, e é especialmente útil em dispositivos móveis.
Phi-3-vision: um modelo visual de IA compacto
O Phi-3-vision é um modelo de 4,2 bilhões de parâmetros, o que o torna significativamente menor do que outros modelos de IA focados em imagens, como o DALL-E da OpenAI e o Stable Diffusion da Stability AI. Ao contrário desses modelos, o Phi-3-vision não gera imagens, mas pode entender e analisar o conteúdo de uma imagem para o usuário.
Família de modelos Phi-3
O Phi-3-vision é o membro mais recente da família de modelos Phi-3 da Microsoft. Essa família inclui também o Phi-3-mini (3,8 bilhões de parâmetros), o Phi-3-small (7 bilhões de parâmetros) e o Phi-3-medium (14 bilhões de parâmetros). Esses modelos menores e mais leves são uma tendência entre os desenvolvedores de IA, à medida que a demanda por serviços de IA mais econômicos e menos intensivos em computação cresce.
Aplicações dos modelos Phi-3
Além do Phi-3-vision, a Microsoft também lançou outros modelos de IA de pequeno porte, como o Orca-Math, que supostamente resolve problemas de matemática melhor do que modelos maiores, como o Gemini Pro da Google. Esses modelos compactos podem ser usados para alimentar recursos de IA em dispositivos como smartphones e laptops, sem exigir muita memória computacional.
Conclusão
A Microsoft está investindo no desenvolvimento de modelos de IA menores e mais eficientes, como o Phi-3-vision, para atender à crescente demanda por soluções de IA mais acessíveis e fáceis de implantar em dispositivos móveis e outros sistemas. Essa abordagem pode impulsionar a adoção de recursos de IA em uma ampla gama de aplicativos e dispositivos.
Referências
DAVID, Emilia. Microsoft announces new version of its small language model Phi-3 that can look at images. The Verge, 21 de maio de 2024.