jeudi 2 juillet 2026
botoïdes.com
Le guide indépendant des robots à la maison
Technique

VLA (Vision-Language-Action)

Modèle IA qui traduit images et langage en commandes motrices pour un robot.

Architecture de modèle d’IA qui fusionne la compréhension visuelle (images, flux vidéo), la compréhension du langage naturel et la génération d’actions motrices dans un seul réseau neuronal de fondation. Un VLA reçoit en entrée des images de caméras et des instructions verbales, et produit en sortie des commandes de mouvement pour un robot. CLOiD de LG en est un exemple : entraîné sur des dizaines de milliers d’heures de données de tâches ménagères, il traduit la vision et la parole en gestes physiques.

Articles qui parlent de « VLA (Vision-Language-Action) »

Termes liés

On en discute Bientôt

Une question, un désaccord, un retour de terrain sur ce terme ? Le forum de la communauté Botoide arrive bientôt.

← Tout le lexique