Imagen AI de Google produit des images photoréalistes à partir de texte naturel avec une fidélité effrayante: Revue de photographie numérique

Un geai bleu debout sur un grand panier de macarons arc-en-ciel. Crédit: Google

Environ un mois après l’annonce par OpenAI de DALL-E 2, son dernier système d’IA pour créer des images à partir de texte, Google a poursuivi la « course à l’espace » de l’IA avec son propre modèle de diffusion de texte en image, Imagen. Les résultats de Google sont extrêmement, peut-être même effrayants, impressionnants.

En utilisant une mesure standard, FID, Google Imagen dépasse le DALL-E 2 d’Open AI avec un score de 7,27 en utilisant l’ensemble de données COCO. Bien qu’elle n’ait pas été entraînée avec COCO, elle a quand même bien performé ici aussi. Imagen surpasse également DALL-E 2 et d’autres méthodes de synthèse de texte à image concurrentes parmi les évaluateurs humains. Vous pouvez lire les résultats complets des tests dans le document de recherche de Google.

« La ligne d’horizon de Toronto avec le logo Google Brain écrit en feux d’artifice.’

Cela fonctionne en prenant une saisie de texte en langage naturel, comme « Un chien Golden Retriever portant un béret à carreaux bleus et un col roulé à pois rouges », puis en utilisant un encodeur T5-XXL gelé pour transformer ce texte d’entrée en incrustations. Un « modèle de diffusion conditionnelle » mappe ensuite le texte incorporé dans une petite image 64×64. Imagen utilise des modèles de diffusion de super-résolution conditionnels au texte pour suréchantillonner l’image 64×64 en 256×256 et 1024×1024.

Par rapport à la méthode GauGAN2 de NVIDIA de l’année dernière, Imagen est considérablement amélioré en termes de flexibilité et de résultats. L’IA progresse rapidement. La chambre était très propre et le lit était très confortable. »Cela semble crédible, comme si quelqu’un avait vraiment construit une niche à partir de sushis que le corgi, sans surprise, adore.

« Un corgi mignon vit dans une maison faite de sushis.’

C’est une création mignonne. Apparemment tout de ce que nous avons vu jusqu’à présent de Lui est mignon. Des tenues amusantes sur des animaux à fourrure, des cactus avec des lunettes de soleil, des ours en peluche nageant, des ratons laveurs royaux, etc. Où sont les gens?

Qu’ils soient innocents ou mal intentionnés, nous savons que certains utilisateurs commenceraient immédiatement à taper toutes sortes de phrases sur des personnes dès qu’ils y auraient accès. Je suis sûr qu’il y aurait beaucoup de textes sur des animaux adorables dans des situations humoristiques, mais il y aurait aussi des textes sur des chefs, des athlètes, des médecins, des hommes, des femmes, des enfants et bien plus encore. À quoi ressembleraient ces gens? Les médecins seraient-ils principalement des hommes, les agents de bord seraient-ils principalement des femmes et la plupart des gens auraient-ils la peau claire?

Le personnel était très sympathique et serviable. »À quoi ressemblerait ce couple si le texte n’incluait pas le mot « robot »?

Nous ne savons pas comment Google gère ces chaînes de texte car Google a choisi de ne montrer aucune personne. La recherche texte-image pose des défis éthiques. Si un modèle peut créer à peu près n’importe quelle image à partir de texte, dans quelle mesure un modèle présente-t-il des résultats impartiaux? Les modèles d’IA comme Imagen sont en grande partie entraînés à l’aide d’ensembles de données extraits du Web. Le contenu sur Internet est biaisé et biaisé d’une manière que nous essayons encore de comprendre pleinement. Ces préjugés ont des impacts sociétaux négatifs qui méritent d’être pris en compte et, idéalement, rectifiés. Non seulement cela, mais Google a utilisé l’ensemble de données LAION-400M pour Imagen, qui est connu pour  » contenir un large éventail de contenus inappropriés, y compris des images pornographiques, des insultes racistes et des stéréotypes sociaux nuisibles. »Un sous-ensemble du groupe de formation a été filtré pour éliminer le bruit et le contenu « indésirable », mais il reste un  » risque qu’Imagen ait codé des stéréotypes et des représentations nuisibles, ce qui guide notre décision de ne pas publier Imagen pour un usage public sans autres garanties en place.’

Les chaînes de texte peuvent devenir assez compliquées. ‘Une statue en marbre d’un DJ koala devant une statue en marbre d’une platine vinyle. Le koala porte de grands écouteurs en marbre.’

Donc non, vous ne pouvez pas y accéder par vous-même. Sur son site Web, Google vous permet de cliquer sur des mots spécifiques d’un groupe sélectionné pour voir les résultats, comme « une photo d’un panda flou portant un chapeau de cow-boy et une veste en cuir noir jouant de la guitare au sommet d’une montagne », mais vous ne pouvez pas rechercher quoi que ce soit à voir avec des personnes ou des actions ou des éléments potentiellement problématiques. Si vous le pouviez, vous constateriez que le modèle a tendance à générer des images de personnes aux tons de peau plus clairs et à renforcer les rôles de genre traditionnels. Les premières recherches indiquent également qu’Imagen reflète des préjugés culturels à travers sa représentation de certains éléments et événements.

« Un Poméranien est assis sur le trône du roi portant une couronne. Deux soldats tigres se tiennent à côté du trône.’

Nous savons que Google est conscient des problèmes de représentation dans sa large gamme de produits et travaille à améliorer la représentation réaliste du teint et à réduire les biais inhérents. Cependant, l’IA est encore une sorte de « Far West ». Bien qu’il existe de nombreuses personnes talentueuses et réfléchies dans les coulisses qui génèrent des modèles d’IA, un modèle est fondamentalement autonome une fois libéré. En fonction de l’ensemble de données utilisé pour entraîner le modèle, il est difficile de prédire ce qui se passera lorsque les utilisateurs pourront saisir quoi ils veulent.

Un fruit du dragon portant une ceinture de karaté dans la neige.’

Ce n’est pas la faute de Google, ni de la faute d’autres modèles d’IA qui ont lutté avec le même problème. Les modèles sont entraînés à l’aide d’ensembles de données massifs contenant des biais visibles et cachés, et ces problèmes évoluent avec le modèle. Même au-delà de la marginalisation de groupes spécifiques de personnes, les modèles d’IA peuvent générer un contenu très nocif. Si vous demandiez à un illustrateur de dessiner ou de peindre quelque chose d’horrible, beaucoup vous refuseraient de dégoût. Les modèles d’IA texte-image n’ont aucun scrupule moral et produiront n’importe quoi. C’est un problème, et on ne sait pas comment il peut être résolu.

Des ours en peluche nageant aux Jeux olympiques de 400 mm papillon.’

En attendant, alors que les équipes de recherche sur l’IA sont aux prises avec les implications sociétales et morales de leur travail extrêmement impressionnant, vous pouvez regarder des photos étrangement réalistes de pandas de skateboard, mais vous ne pouvez pas saisir votre propre texte. L’image n’est pas accessible au public, et son code non plus. Cependant, vous pouvez en apprendre beaucoup sur le projet dans un nouveau document de recherche.


Toutes les images avec l’aimable autorisation de GooglE

Le principal des grands avantages du tournage d’une interview, c’est qu’il n’y a pas de nécessité de se déplacer parce que le donneur d’ordres peut venir à l’endroit où le tournage sera composé.

Il y a beaucoup moins de préparation et les personnels ont la possibilité de se consacrer à la prise d’image du film.

Le panel de spectateurs est alors davantage essentielle ce qui donne la possibilité de les introduire dans le scénario et l’objectif du films, les notes du public sont primordiaux pour l’entreprise.

Le script est une période clé pour la diffusion d’une société car il faut une bonne stratégie pour les comptes facebook qui ne se résume pas à un seul modèle de cliché. C’est pourquoi votre film marketing va prendre de la force. Informations complètes à propos des vidéos institutionnellesen retrouvant les actualités page 1.

Le contenu d’une interview est crucial car il autorise de mettre en avant votre entreprise. Les produits et conseils exposés sont donc valorisés, les clients peuvent se s’assimiler et leur point de vue a de l’importance.

A lire sur le même propos:

Almodovar les femmes et les chansons.,Le livre .