LLaVA 1.5 : Une alternative open source à GPT-4 Vision
Le domaine de l’intelligence artificielle générative est en effervescence avec l’émergence des grands modèles multimodaux (LMM), tels que GPT-4 Vision d’OpenAI. Ces modèles révolutionnent notre interaction avec les systèmes d’IA en intégrant des textes et des images.
Cependant, la nature fermée et commerciale de certaines de ces technologies peut entraver leur adoption universelle. C’est ici que la communauté open source entre en jeu, en propulsant le modèle LLaVA 1.5 comme une alternative prometteuse à GPT-4 Vision.
La mécanique des LMM
Les LMM fonctionnent grâce à une architecture multicouche. Ils associent un modèle pré-entraîné pour coder les éléments visuels, un grand modèle de langage (LLM) pour décrypter et répondre aux instructions de l’utilisateur, et un connecteur multimodal pour établir le lien entre la vision et le langage.
Leur formation se déroule en deux étapes : une première phase d’alignement vision-langage, suivie d’un ajustement fin pour répondre aux requêtes visuelles. Ce processus, bien qu’efficace, nécessite souvent des ressources computationnelles importantes et une base de données riche et précise.
Les atouts de LLaVA 1.5
LLaVA 1.5 s’appuie sur le modèle CLIP pour l’encodage visuel et Vicuna pour le langage. Contrairement au modèle original LLaVA, qui utilisait les versions textuelles de ChatGPT et GPT-4 pour l’ajustement visuel, LLaVA 1.5 va plus loin en connectant le modèle de langage et l’encodeur visuel via un perceptron multicouche (MLP). Cette mise à jour a permis d’enrichir la base de données d’entraînement avec des questions-réponses visuelles, totalisant environ 600 000 exemples. LLaVA 1.5 dépasse ainsi d’autres LMM open source sur 11 des 12 benchmarks multimodaux.
L’avenir des LMM open source
La démonstration en ligne de LLaVA 1.5, accessible à tous, présente des résultats prometteurs, même avec un budget limité. Cependant, il convient de souligner que l’utilisation des données générées par ChatGPT est limitée à des fins non commerciales.
Malgré cette restriction, LLaVA 1.5 ouvre une porte sur l’avenir des LMM open source. Sa rentabilité, sa capacité à générer des données d’entraînement évolutives et son efficacité dans l’ajustement des instructions visuelles font de lui un prélude aux innovations à venir.
LLaVA 1.5 n’est que le premier pas d’une mélodie qui résonnera au rythme des avancées de la communauté open source. En anticipant des modèles plus performants et accessibles, nous pouvons envisager un avenir où la technologie de l’IA générative sera à la portée de tous, dévoilant ainsi le potentiel illimité de l’intelligence artificielle.