Google lance Nano Banana 2 Lite et Gemini Omni Flash : images de 4 secondes et vidéos modifiables avec du texte
Par Nic007
Google vient de lancer deux nouveaux modèles d'IA pour les développeurs et les particuliers : Nano Banana 2 Lite , le modèle de génération d'images le plus rapide et le plus abordable de la gamme Nano Banana, et Gemini Omni Flash , conçu pour la création et le montage vidéo. Disponibles dès aujourd'hui dans Google AI Studio et via l'API Gemini, ils seront également bientôt disponibles sur des plateformes grand public comme la Recherche Google , l'application Gemini et d'autres produits Google. Nano Banana 2 Lite (nom de code interne : gemini-3.1-flash-lite-image ) est conçue pour les utilisateurs ayant besoin de générer des images en grande quantité et avec une latence minimale. Sa principale caractéristique est sa rapidité : elle produit une image à partir d’un texte en seulement 4 secondes , ce qui la rend idéale pour le prototypage rapide et les flux de travail à haute vitesse. Côté prix, le tarif est de 0,034 $ pour 1 000 images en résolution 1K : un tarif idéal pour les entreprises gérant des budgets opérationnels ou des volumes importants. Malgré la priorité donnée à la rapidité, Google affirme que le modèle garantit un bon respect des prompteurs , une cohérence des caractères et une lisibilité optimale du texte dans les images. Nano Banana 2 Lite est le remplacement recommandé pour les utilisateurs de la première version de Nano Banana (gemini-2.5-flash-image) : selon Google, le remplacement direct offre des avantages immédiats en termes de qualité, de vitesse et de coût. Pour information, la gamme est structurée comme suit :- Nano Banana 2 Lite : Vitesse maximale, faible latence, volume élevé
- Nano Banana 2 : équilibre entre qualité et coût, usage général
- Nano Banana Pro : usage professionnel complexe, précision maximale
- Nano Banana (ancienne version) : Nécessite une mise à jour, n'est plus recommandée
Gemini Omni Flash ( gemini-omni-flash-preview ) a été annoncé lors de la conférence Google I/O et est désormais disponible pour les développeurs via une API. Ce modèle permet de générer des vidéos à partir de texte, d'images et de vidéos , et offre la possibilité de les éditer à l'aide d'instructions en langage naturel, une fonctionnalité particulièrement intéressante pour les professionnels du contenu multimédia. Les principales capacités comprennent :
-Montage conversationnel : vous modifiez la vidéo en décrivant avec des mots ce que vous souhaitez changer.
- Référencement multimodal : images, texte et vidéo sont combinés pour maintenir la cohérence visuelle.
- Connaissances du monde réel : Le modèle s'appuie sur les connaissances de Gemini pour construire des récits crédibles.
- Synchronisation texte-action : le texte et les graphiques sont directement liés aux actions de la vidéo.
Le prix est de 0,10 $ par seconde de vidéo générée , conformément à Veo 3.1 Fast. Cependant, il existe certaines limitations importantes à prendre en compte : la durée des générations est actuellement limitée à 10 secondes , le chargement de références audio n’est pas encore pris en charge, les vidéos de référence d’une durée maximale de 3 secondes sont acceptées par le schéma de l’API mais ne sont pas traitées correctement, et la cohérence des personnages lors des transitions de scène reste imprécise. Google indique travailler à la résolution de ces problèmes.
L'atout majeur que Google souhaite mettre en avant réside dans le lien entre les deux modèles : vous générez une image avec la Nano Banana 2 Lite (rapide et abordable), puis vous la transmettez à Omni Flash pour l'animer en vidéo. Grâce à l'API Interactions, vous pouvez conserver l'historique des sessions et effectuer jusqu'à trois modifications successives . Google a déjà publié plusieurs applications de démonstration pour illustrer ce processus : une pour se téléporter vers des lieux emblématiques à partir d'un selfie, une pour la décoration d'intérieur et une pour la création de vidéos produits de type e-commerce. Les deux modèles utilisent le système de marquage numérique SynthID de Google , et le contenu généré est vérifiable via l'application Gemini, Gemini dans Chrome ou la recherche. C’est une bonne nouvelle en matière de transparence, même s’il reste à voir dans quelle mesure ce système sera réellement adopté en pratique.