Microsoft Lança Phi-3-Vision: Modelo de IA Leve com Visão Computacional
Microsoft anuncia nova versão do modelo de linguagem Phi-3 com capacidade de visão computacional
A Microsoft anunciou uma nova versão de seu modelo de linguagem de pequeno porte, o Phi-3, que agora possui a capacidade de analisar imagens e informar sobre seu conteúdo. O Phi-3-vision é um modelo multimodal, ou seja, pode processar tanto texto quanto imagens, e é especialmente útil em dispositivos móveis.
Um modelo de IA mais leve e eficiente
O Phi-3-vision é um modelo de 4,2 bilhões de parâmetros, o que o torna significativamente menor do que outros modelos de IA focados em imagens, como o DALL-E da OpenAI e o Stable Diffusion da Stability AI. Ao contrário desses modelos, o Phi-3-vision não gera imagens, mas pode entender e analisar o conteúdo de uma imagem para o usuário.
A Microsoft lançou o Phi-3 em abril com a versão Phi-3-mini, o menor modelo da família Phi-3, com 3,8 bilhões de parâmetros. Além do Phi-3-mini, a família Phi-3 também inclui o Phi-3-small (7 bilhões de parâmetros) e o Phi-3-medium (14 bilhões de parâmetros).
Demanda por modelos de IA menores e mais eficientes
Os desenvolvedores de modelos de IA têm lançado modelos menores e mais leves, como o Phi-3, em resposta à crescente demanda por serviços de IA mais econômicos e menos intensivos em recursos computacionais. Esses modelos menores podem ser usados para alimentar recursos de IA em dispositivos como smartphones e laptops, sem a necessidade de ocupar muita memória do computador.
Além do Phi-3 e de seu predecessor, o Phi-2, a Microsoft também lançou outros modelos pequenos, como o Orca-Math, que supostamente resolve problemas de matemática melhor do que seus modelos maiores, como o Gemini Pro da Google.
Disponibilidade e próximos passos
O Phi-3-vision já está disponível em versão de visualização. Os outros membros da família Phi-3 – Phi-3-mini, Phi-3-small e Phi-3-medium – também estão disponíveis na biblioteca de modelos do Azure da Microsoft.
Essa nova versão do modelo Phi-3 com capacidades de visão computacional representa um passo importante da Microsoft em direção a modelos de IA mais leves e eficientes, capazes de serem implantados em uma ampla gama de dispositivos e aplicações.
Referências
Notícia original: Microsoft anuncia nova versão do modelo de linguagem Phi-3 com capacidade de visão computacional