A
AIverse
Vidéo

Wan

4.5/5Open source / formules hébergées gratuites et payantes
Visiter le site

La famille de modèles vidéo IA open source d'Alibaba, qui génère des clips jusqu'à 15 secondes avec synchronisation audio-vidéo native, cohérence de personnage par image de référence et narration multi-plans.

Notre verdict

Wan is the standout open-source choice for developers and studios that want full control over an AI video model, including weights and code. It rivals closed tools on audio sync and character consistency while staying free to self-host.

👍 Points forts

  • +Fully open-source (Apache 2.0)
  • +Native audio with accurate lip-sync
  • +Reference-to-video character consistency
  • +Up to 15-second clips in one run
  • +Text-to-video and image-to-video

👎 Points faibles

  • Self-hosting needs strong GPUs
  • Setup more technical than closed tools
  • Hosted compute costs for heavy use

🎯 Cas d'usage

Open-source video pipelinesCharacter-consistent short videosSocial & marketing clipsResearch & fine-tuning

ℹ️ Infos clés

Éditeur
Alibaba (Tongyi Lab)
Fondé
2025
API
Oui

Mis à jour: Jun 2026

4.5
Note
13.0k
Vues
Freemium
Tarification

Essayer Wan maintenant

La famille de modèles vidéo IA open source d'Alibaba, qui génère des clips jusqu'à 15 secondes avec synchronisation audio-vidéo native, cohérence de personnage par image de référence et narration multi-plans.

Questions fréquentes

Wan est-il vraiment open source ?

Oui. Wan est une famille de modèles vidéo open source du Tongyi Lab d'Alibaba, publiée avec les poids, le code d'entraînement et les scripts d'inférence sous licence Apache 2.0. Vous pouvez l'héberger gratuitement avec des GPU adaptés, ou utiliser les formules hébergées sur wan.video sans gérer l'infrastructure.

Que peut générer Wan ?

Wan prend en charge le texte-vers-vidéo et l'image-vers-vidéo, en générant des clips jusqu'à environ 15 secondes avec synchronisation audio-vidéo native, voix avec synchronisation labiale et effets sonores inclus. Sa fonction image de référence maintient l'apparence d'un personnage cohérente sur plusieurs clips pour une narration multi-plans.