VLA (Vision-Language-Action)
Modèle IA qui traduit images et langage en commandes motrices pour un robot.
Architecture de modèle d’IA qui fusionne la compréhension visuelle (images, flux vidéo), la compréhension du langage naturel et la génération d’actions motrices dans un seul réseau neuronal de fondation. Un VLA reçoit en entrée des images de caméras et des instructions verbales, et produit en sortie des commandes de mouvement pour un robot. CLOiD de LG en est un exemple : entraîné sur des dizaines de milliers d’heures de données de tâches ménagères, il traduit la vision et la parole en gestes physiques.
Articles qui parlent de « VLA (Vision-Language-Action) »
Termes liés
On en discute Bientôt
Une question, un désaccord, un retour de terrain sur ce terme ? Le forum de la communauté Botoide arrive bientôt.
