Microsoft Apresenta O Phi-3-Vision, Modelo IA Multimodal Para Análise De Imagens

Voltar para Blog

Microsoft apresenta o Phi-3-vision, um modelo de IA multimodal para análise de imagens

A Microsoft anunciou recentemente uma nova versão de seu modelo de linguagem de pequeno porte, o Phi-3, que agora possui a capacidade de analisar imagens e fornecer informações sobre o que elas contêm. O Phi-3-vision é um modelo multimodal, ou seja, pode processar tanto texto quanto imagens, e é especialmente útil em dispositivos móveis.

Um modelo de IA compacto e versátil

O Phi-3-vision é um modelo de 4,2 bilhões de parâmetros, o que o torna muito menor do que outros modelos de IA focados em imagens, como o DALL-E da OpenAI e o Stable Diffusion da Stability AI. Ao contrário desses modelos, o Phi-3-vision não gera imagens, mas pode entender e analisar o conteúdo de uma imagem para o usuário.

Parte da família Phi-3

O Phi-3-vision é o membro mais recente da família Phi-3 da Microsoft. Essa família inclui outros modelos como o Phi-3-mini (3,8 bilhões de parâmetros), o Phi-3-small (7 bilhões de parâmetros) e o Phi-3-medium (14 bilhões de parâmetros).

Tendência em modelos de IA leves

A demanda por serviços de IA mais econômicos e menos intensivos em recursos computacionais tem levado os desenvolvedores de modelos de IA a criar versões menores e mais leves, como o Phi-3 e seus derivados. Esses modelos compactos podem ser usados para alimentar recursos de IA em dispositivos como smartphones e laptops, sem exigir muita memória do computador.

Outros modelos de IA leves da Microsoft

Além do Phi-3, a Microsoft também lançou outros modelos de IA leves, como o Orca-Math, que supostamente resolve problemas de matemática melhor do que modelos maiores, como o Gemini Pro da Google.

Conclusão

O Phi-3-vision da Microsoft representa um avanço significativo no campo da IA multimodal, oferecendo uma solução compacta e eficiente para a análise de imagens em dispositivos móveis. Essa tendência de modelos de IA leves e versáteis deve continuar a se desenvolver, à medida que a demanda por serviços de IA mais acessíveis e sustentáveis aumenta.

Referências

Referência: Microsoft anuncia o Phi-3-vision, um modelo de IA multimodal para análise de imagens

Compartilhe esta postagem

Voltar para Blog
💬 Precisa de ajuda?