Technique

VLA (Vision-Language-Action)

Modèle IA qui traduit images et langage en commandes motrices pour un robot.

Architecture de modèle d’IA qui fusionne la compréhension visuelle (images, flux vidéo), la compréhension du langage naturel et la génération d’actions motrices dans un seul réseau neuronal de fondation. Un VLA reçoit en entrée des images de caméras et des instructions verbales, et produit en sortie des commandes de mouvement pour un robot. CLOiD de LG en est un exemple : entraîné sur des dizaines de milliers d’heures de données de tâches ménagères, il traduit la vision et la parole en gestes physiques.

Articles qui parlent de « VLA (Vision-Language-Action) »

Au CES 2026, les robots dansaient pour vous collecterIntelligence & autonomie9 janv. 2026

Termes liés

Imitation learning (apprentissage par imitation)Sim-to-real (simulation vers réel)

On en discute Bientôt

Une question, un désaccord, un retour de terrain sur ce terme ? Le forum de la communauté Botoide arrive bientôt.

← Tout le lexique