Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Pour développer idées, projets de jeux, univers, règles et scénarios
Répondre
Avatar de l’utilisateur
Altay
Ascendant
Messages : 1518
Inscription : sam. mai 07, 2016 12:04 pm

Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Altay »

Sylvestre a écrit : dim. août 28, 2022 11:10 am (Je remarque en passant que les toutes les illustrations sont faites par l’IA Midjourney, ça risque de devenir de plus en plus fréquent à mon avis : plutôt que d’utiliser des images de stock tu écris littéralement l’illustration que tu souhaites et hop tu as une image chelou mais évocatrice -en tous cas ici ça fonctionne bien)
Cryoban a écrit : dim. août 28, 2022 12:12 pm Les illustrations de ce genre sont une révolution pour les petits auteurs qui n'ont pas de trésorerie ou même pour les jdra ou il est impossible d'investir dans des illustrations pro à moins d'être très à l'aise. Entre les IA et les images de stock-art, ca devient possible de sortir quelque chose qui retiendra l'attention d'un lecteur pendant plus de 30s
vivien a écrit : dim. août 28, 2022 1:32 pm J'ai du mal à me rejouir de voir encore une fois l'être humain remplacé par la machine, à fortiori dans le domaine artistique.
Saladdin a écrit : dim. août 28, 2022 1:36 pm Les problèmes de droit sont importants, en effet, et les personnes utilisant l'IA n'en sont pas encore conscientes. Aux États-Unis, l'art généré par des IA ne peut pas être utilisé commercialement car il ne peut pas être protégé par copyright, ce que méconnaissent beaucoup de gens qui pensent que cela va leur permettre d'illustrer sans frais leurs produits. En France, je ne sais pas légalement ce que cela implique, mais j'imagine que c'est similaire, même si la notion de copyright n'existe pas chez nous...
Macbesse a écrit : dim. août 28, 2022 3:01 pm Pour l'avoir un peu testé, j'ai repéré tout de suite que c'était de l'image générée de manière procédurale. Les formes étirés, les mélanges d'objets, les artefacts un peu étranges... on est ici sur une image brute de décoffrage de Midjourney. Quand on n'y prend pas garde, elles se ressemblent toutes et c'est un peu lassant pour le regardeur.
Yusei a écrit : dim. août 28, 2022 9:15 pm Pas vraiment, c'est de l'apprentissage automatique à partir d'une base de données, mais il n'y a pas un programmeur derrière qui décide d'émuler le style de tel ou tel artiste. Si aujourd'hui il y a encore des humains dans la boucle, c'est pour déterminer comment se fait cet apprentissage, mais ça nécessite de moins en moins d'avoir des connaissances sur le domaine concerné.
Arma a écrit : lun. août 29, 2022 2:13 am Le choix des données que l'on donne a l'IA ne se fait pas au hasard et a une forte influence sur l'apprentissage de la machine. Ce n'est pas du développement au sens propre, mais il y a bien une composante humaine.
nerghull a écrit : dim. août 28, 2022 9:24 pm Ça mérite son propre sujet non ?

Du coup, un petit sujet pour parler outil de génération d'images. Je vais essayer d'être concis et de ne pas trop jargonner, tout en restant précis et factuel. N'hésitez pas à poser vos questions, j'y répondrai du mieux que je peux (l'IA pour l'image est une grande partie de mon travail).

(note aux modos : j'ai mis ce fil ici, je ne suis pas sûr que ce soit le meilleur endroit !)

De quoi parle-t-on ?

Image

La génération automatique d'images ou synthèse d'image consiste à créer des… images, sans intervention humaine ou avec une intervention minimale. La plupart du temps, les images produites sont numériques.

C'est un domaine qui existe de façon formelle depuis les années 1980. Ses premiers usages étaient notamment la synthèse de textures, par exemple pour l'eau ou les nuages. Typiquement, un pionnier du domaine est Ken Perlin qui travaillait sur le film Tron en 1982.

Initialement, le procédé de génération est purement algorithmique : on créé une image en suivant une suite de règles permettant d'obtenir le style recherché.

Pourquoi on en parle maintenant ?

Parce que l'utilisation de l'apprentissage automatique (machine learning) a permis des avancées notables en synthèse d'image. Jusqu'au milieu des années 2000, les outils permettant de générer des images étaient très spécialisés et conceptuellement complexes. Par exemple, un synthétiseur allait se concentrer seulement sur la synthèse des visages, ce qui nécessitait de l'expertise de la part des équipes de développement pour concevoir un algorithme capable de simuler une peau réaliste, des yeux, une structure faciale plausible, une pilosité cohérente, etc.

L'utilisation de réseaux de neurones profonds et de grandes bases de données d'images a permis de se passer de cette expertise, en permettant à la machine d'automatiquement trouver « comment » générer une image plausible pour l'œil humain. Les premiers succès grand public sont http://thispersondoesnotexist.com, puis Dall-E de OpenAI. Jusqu'à 2020, ces outils étaient encore de niche et utilisés soit dans le monde universitaire pour la recherche, soit par quelques grosses entreprises (typiquement, les GAFAM mais aussi Adobe, des studios de VFX et d'autres).

Comment fonctionne la génération d'images ?

On entre ici dans des détails un peu techniques. La génération d'image moderne se base sur des modèles génératifs, c'est-à-dire des modèles statistiques (généralement des réseaux de neurones artificiels) qui apprennent à reproduire des grandes quantité d'images. Le principe est toujours le même : on cherche les paramètres d'un modèle (~ les poids des synapses d'un réseau de neurones artificiels) qui permettent de minimiser une certaine fonction (la « fonction de coût ») que l'on peut calculer sur les exemples d'un jeu de données, par exemple provenant du web.

Il y a grosso modo trois approches :
  1. les auto-encodeurs : un double réseau de neurones : un Encodeur et un Décodeur. L'Encodeur transforme une image en texte (on suppose que l'on a une caption en plus de l'image du web). Le Décodeur reconstruit l'image à partir du texte. En production, on garde seulement le Décodeur.
  2. les réseaux de neurones adversaires (VQGAN+CLIP, Artflow) : on optimise alternativement deux réseaux de neurones : le Générateur et le Discriminateur. Le Générateur produit une image à partir d'un texte. Le Discriminateur apprend à distinguer les images fausses (du Générateur) des images réelles (qui viennent du web). Le Générateur apprend à tromper le Discriminateur. Plus le Discriminateur est bon, plus le Générateur doit produire des images qui ressemblent aux véritables images. Il suffit ensuite de donner un nouveau texte au Générateur pour produire l'image que l'on veut.
  3. les modèles de diffusion (DALL-E 2, Imagen, Midjourney, StableDiffusion) : compliqué à résumer. En bref, on dégrade volontairement une image du web en lui ajoutant du bruit aléatoire. Le Diffuseur apprend à inverser cette transformation. En production, on part d'une image constituée à 100% de bruit aléatoire et on applique plusieurs fois le Diffuseur, jusqu'à obtenir une image. Il faut utiliser des astuces pour pouvoir exploiter le texte.

Historiquement, l'approche 1 est connue depuis les années 70 mais n'a jamais vraiment rencontré le succès (pour des raisons mathématiques que je me garde d'évoquer ici). L'approche 2 était considérée comme la plus prometteuse depuis son introduction en 2014 mais a été récemment enfoncée par les succès de l'approche 3 en 2021/2022.

Est-ce que l'IA est créative ?

C'est la question qui revient le plus souvent. Elle fait débat parmi les spécialistes mais à mon avis la réponse est non pour trois raisons.
  1. Notre compréhension actuelle des réseaux de neurones pour la génération d'images est que l'on est en mesure de faire de l'interpolation sur la variété des images. Autrement dit, le modèle peut, dans des conditions favorables, créer de nouvelles images en mélanger des concepts mais pas d'en inventer de nouveaux. En corollaire, nos outils de synthèse excellent dans l'imitation.
  2. Le modèle reste un outil, au même titre qu'un appareil photo, et n'a aucune « intention ». La personne qui créé (qui imagine le prompt, c'est-à-dire le texte utilisé pour générer l'image) reste humaine.
  3. Il est préférable de ne pas anthropomorphiser les modèles obtenus par machine learning. In fine, il s'agit d'une fonction mathématique (certes compliquée) mais comparable en aucun point avec une personne.

La raison 1 permet d'ailleurs assez bien de comprendre que la principale limitation de ces outils de synthèse d'image n'est pas vraiment la partie technique, mais bien le corpus d'apprentissage. Un modèle ne créera jamais de visages de personnes noires s'il n'y en a aucune dans le jeu de données, ni un dessin de chat si vous n'utilisez que des photos DSLR 4k comme exemples. La curation de ce jeu de données est une problématique centrale pour les systèmes en production.

Est-ce que cela pose des problèmes éthiques ?

Il y a des tas de problèmes qui ont été largement discutés dans la presse : deep fakes, propagande, usurpation d'identité, etc. La façon dont ces problèmes sont traités à l'heure actuelle est assez mauvaise : les entreprises qui proposent ces services bloquent certains prompts ou analysent les images a posteriori pour rejeter celles qui ne respectent pas leur conditions d'utilisation.

C'est légal tout ça ?

Section à prendre avec un grain de sel puisque je ne suis ni avocat, ni juriste, ni magistrat.

Tout dépend de quoi on parle.

Pour générer des images de qualité quel que soit le prompt proposé, il faut avoir entraîné son modèle de synthèse d'images sur de très, très grands jeux de données (plusieurs centaines de millions d'images, voire plusieurs milliards). En général, il s'agit d'images (et de légendes) récupérées sur le web : DeviantArt, Reddit, Wikipédia, Flickr, etc. En théorie, seules les images sous licence permettant leur réutilisation le sont, néanmoins il est sûr et certain que de nombreuses images dans ces jeux de données ne respectent pas la licence (par exemple parce qu'elles sont été repostées par un tiers). Il y a aussi la question de savoir si les personnes photographiées auraient accepté de donner leur consentement à un tel usage de leur image.

Concernant les images générées en elles-mêmes, la législation est floue et varie grandement selon les pays. Les entreprises US semblent considérer que les images produites par leurs systèmes sont leur propriété. OpenAI accorde néanmoins une licence aux « artistes » (c'est-à-dire les personnes qui utilisent Dall-E 2) pour l'usage des images, y compris commercial. C'est également le cas de Midjourney. La question est épineuse pour un système open source comme Stable Diffusion, que n'importe qui (sous réserve d'avoir un bon PC) peut faire tourner sur sa machine. A priori, le consensus semble tout de même que les images générées sont au pire des œuvres dérivées suffisamment différentes pour être considérées comme nouvelles. Le droit d'auteur irait donc à la personne qui utilise le système.
Dernière modification par Altay le mer. sept. 07, 2022 8:49 pm, modifié 1 fois.
Avatar de l’utilisateur
Pyth
Ascendant
Messages : 1601
Inscription : ven. mars 23, 2018 9:12 am

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Pyth »

Merci pour les infos, c'est fascinant franchement.
All things are true. God's an Astronaut. Oz is Over the Rainbow, and Midian is where the monsters live.
Avatar de l’utilisateur
Sylvestre
Banni
Messages : 1426
Inscription : mar. mars 10, 2009 10:29 pm

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Sylvestre »

Merci @Altay, c'est très intéressant !
Mes recherches JDR sont là :)

"Tragedy tomorrow ! Comedy tonight !"
Yusei
Dieu en cavale
Messages : 9699
Inscription : jeu. janv. 30, 2014 9:47 am
Contact :

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Yusei »

Altay a écrit : lun. sept. 05, 2022 11:40 pm Est-ce que l'IA est créative ?

Je voudrais commenter là dessus, par rapport au fait que je lis beaucoup ces derniers temps: c'est juste une base de données et du plagiarisme. Ce qui est remarquable dans les réseaux de neurones utilisés par ces outils, c'est que l'information est compressée d'une manière qui a du "sens". L'IA ne fait pas que mémoriser des millions d'images avec leurs descriptions, elle apprend (par nécessité) à représenter tout ça d'une manière condensée, qui lui permet de (re)créer des images à partir de peu d'informations. Ça l'oblige à représenter ses connaissances des images sous une forme logique, et c'est de plus en plus proche de ce qu'on appelle intuitivement apprentissage.

Quand on demande à l'IA "dessine moi Cthuhu qui mange un sandwich"
Spoiler:
Image

On pourrait se dire qu'elle prend une image de Cthulhu, une image de sandwich, et qu'elle colle les deux ensemble comme elle peut. Mais si on lui demande "un ours avec un imperméable, image tirée d'un film noir" ou "un portrait d'Elrond dans le style de Van Gogh", ça demande un certain niveau de compréhension de ce qu'est le style de Van Gogh ou l'esthétique d'un film noir.
Spoiler:
Image
Spoiler:
Image

Je suis souvent surpris par ce qui sort, et c'est difficile de se dire que ce n'est pas "créatif" d'une manière assez proche de ce que ferait un humain qui aurait lui aussi appris à partir d'exemples.

(images générées avec Stable Diffusion)

Altay a écrit : lun. sept. 05, 2022 11:40 pm Il est préférable de ne pas anthropomorphiser les modèles obtenus par machine learning. In fine, il s'agit d'une fonction mathématique (certes compliquée) mais comparable en aucun point avec une personne.
C'est une vieille question philosophico-mathématique: somme-nous, nous-même, différents d'une fonction mathématique très compliquée ?
Avatar de l’utilisateur
Cryoban
Dieu de la carbonite
Messages : 13619
Inscription : mar. mars 29, 2011 9:25 pm
Localisation : Angers

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Cryoban »

Yusei a écrit : mar. sept. 06, 2022 10:23 am C'est une vieille question philosophico-mathématique: somme-nous, nous-même, différents d'une fonction mathématique très compliquée ?

Et c'est une très bonne question, car quand on va à la base de choses, notre pensée n'est qu'un flux d'ions et du stockage d'énergie sous une forme contrôlée.
Cthulhu Invictus: Limes Obscurus. Certaines forêts sont plus sombres que d'autres
Dark Operators, un hack du BRP pour Delta Green avec sa feuille de PJ. Du poulpe et des Forces Spéciales.
Un cadavre encombrant Un prologue alternatif à La Ville en Jaune
Yusei
Dieu en cavale
Messages : 9699
Inscription : jeu. janv. 30, 2014 9:47 am
Contact :

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Yusei »

Altay a écrit : lun. sept. 05, 2022 11:40 pm Stable Diffusion, que n'importe qui (sous réserve d'avoir un bon PC) peut faire tourner sur sa machine.
Petite précision si vous avez envie d'essayer : c'est simple à installer si vous savez installer des packages python. Il faut ensuite récupérer les "poids" du réseau, c'est-à-dire le résultat du pré-entraînement (c'est la partie qui prend super longtemps et coûte très cher, mais les poids ont été diffusés gratuitement). Pour générer vos images quand on a déjà les poids pré-entraînés, c'est assez rapide, mais le critère déterminant, c'est la mémoire vive de votre carte graphique (nVidia). Plus la mémoire vive est grande et plus vous pourrez faire de grandes images.

On peut aussi avoir recours à des ressources extérieures pour faire les calculs, mais je ne m'y connais pas trop.

Ce qui est important, c'est de noter que c'est à la portée de tout le monde d'utiliser ces outils, et que s'il y a encore quelques limitations techniques, tout ça évolue à une vitesse incroyable. C'est à la fois enthousiasmant et inquiétant pour l'avenir de métiers comme celui d'illustrateur.
Avatar de l’utilisateur
Altay
Ascendant
Messages : 1518
Inscription : sam. mai 07, 2016 12:04 pm

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Altay »

Yusei a écrit : mar. sept. 06, 2022 10:23 am Ça l'oblige à représenter ses connaissances des images sous une forme logique, et c'est de plus en plus proche de ce qu'on appelle intuitivement apprentissage.

Tout à fait, d'ailleurs quand on fait de la recherche on parle souvent d'apprentissage de représentation pour désigner les approches basées deep learning. Par contre, je ne dirais pas que ces représentations sont sous forme logique. Ce sont des vecteurs numériques qui sont extraits par ce qui est concrètement une machine à corrélation. Quand on demande « un soleil à gauche d'un ours », c'est la corrélation dans le jeu de données qui fait émerger la composition géométrique. Ce n'est pas forcément très grave mais il y a une guerre de chapelles dans le monde de l'IA entre les machine learners et les adeptes de la logique, parce que la relation entre le texte et l'image n'est pas causale.

Yusei a écrit : mar. sept. 06, 2022 10:23 am Je suis souvent surpris par ce qui sort, et c'est difficile de se dire que ce n'est pas "créatif" d'une manière assez proche de ce que ferait un humain qui aurait lui aussi appris à partir d'exemples.

C'est créatif dans le sens où les humains aussi mélangent des concepts (il n'y a qu'à voir le nombre de t-shirts crossover de références pop-culture sur les sites spécialisés). Mais, sauf preuve du contraire, cette approche ne permet pas l'extrapolation. C'est créatif dans la mesure où c'est un outil qui peut être utilisé pour créer du neuf, mais pas du nouveau.

Yusei a écrit : mar. sept. 06, 2022 10:23 am C'est une vieille question philosophico-mathématique: somme-nous, nous-même, différents d'une fonction mathématique très compliquée ?

Probablement que si mais le point que je veux amener est que les réseaux de neurones artificiels actuels, si compliqués soient-ils, ne sont aucunement assimilable à des personnes. Ni en autonomie, ni en fonctionnement, ni en raisonnement, ni en mémoire. Il ne faut donc pas prêter d'intention à ce qui n'est pas bien différent d'une calculatrice graphique.
Yusei
Dieu en cavale
Messages : 9699
Inscription : jeu. janv. 30, 2014 9:47 am
Contact :

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Yusei »

Altay a écrit : mar. sept. 06, 2022 11:51 am c'est la corrélation dans le jeu de données qui fait émerger la composition géométrique.
Oui, au niveau le plus bas il n'y a pas de sens et de logique, mais à un niveau supérieur une logique apparaît de manière émergente. Le truc, c'est que nos cerveaux aussi, au niveau le plus bas, ne comprennent rien, la conscience émerge à un niveau au dessus.

Je ne dis pas que DALL-E est conscient, hein, mais que (selon moi) pour toute définition utile du mot "comprendre", il comprend des choses.

Altay a écrit : mar. sept. 06, 2022 11:51 am C'est créatif dans la mesure où c'est un outil qui peut être utilisé pour créer du neuf, mais pas du nouveau.
Je ne suis pas sûr de comprendre la différence entre ces deux idées. En tout cas, je ne suis pas sûr, moi, de pouvoir créer quelque chose de nouveau.

Je ne suis pas sûr de ce que tu veux dire par "extrapolation". Par exemple, je peux demander une photo de JFK qui marche sur Mars, d'un croisement entre un chat et un chien, d'un humain avec plus de deux bras (ah non, lui je n'y arrive pas), donc cette forme d'extrapolation fonctionne. Qu'est-ce qui serait hors de portée ?
Avatar de l’utilisateur
Anubis Vlad Tepas
Zelateur
Messages : 81
Inscription : mer. déc. 22, 2010 12:27 pm
Localisation : Helvétie
Contact :

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Anubis Vlad Tepas »

Merci d'avoir ouvert ce thread sur une très belle description de la problématique, @Altay. Tu as mentionné ce qui semble le plus important : les réseaux de neurones ne créent rien, ils ne font que la synthèse de contenu préexistant, dûment analysé. La "créativité" de certaines réalisations ne tient qu'à la fusion inattendue de plusieurs concepts, là aussi préexistants. En conséquence, ces outils génèrent et renforcent des clichés tenaces. Essayez de créer le portrait d'un personnage féminin qui ne ressemble pas à une Barbie sur MidJourney. Il vous faudra persévérer pendant un moment avant d'y arriver.

Dans le cadre de mes parties, j'utilise ArtBreeder, Dall-E, Midjourney et une installation locale de Stable Diffusion pour illustrer personnages et lieux. C'est top pour nous, dans le sens où disposer d'une image améliore grandement l'immersion (surtout pour les tables distancielles). C'est également l'occasion de "renouveler" du vieux matériel (notre campagne de la Cité des Mensonges pour L5A bénéficie d'une refonte couleur "à la Luis Royo" de tous les PNJ, par exemple). Par contre, éthiquement, publier et utiliser commercialement du contenu généré ainsi est plus que questionnable : les œuvres des artistes à l'origine des données utilisées pour entraîner les modèles ont probablement été soit pillées à la sauvage (les grands noms, comme Royo...), soit récupérées sur des plateformes en ligne qui vendent l'accès à ces images (alors que les artistes, eux, se servent surtout de ces plateformes "gratuites" pour leur portfolio). Au bout du compte, les artistes ne gagnent rien, alors que les plateformes et les auteurs des outils de synthèse si. Quand on voit en plus que des petits margoulins se servent d'images générées sur MidJourney pour vendre des packs d'illustrations sur DriveThruRPG, il y a de quoi s'offusquer...
Les Archives d'Anubis - Blog essentiellement centré sur le jeu de rôle
Forums de l'OTS - Ruines du forum consacré à notre méta-groupe helvétique
premDAT - Plateforme de comparaison de PJ, pour les amoureux de l'archivage
Avatar de l’utilisateur
Cryoban
Dieu de la carbonite
Messages : 13619
Inscription : mar. mars 29, 2011 9:25 pm
Localisation : Angers

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Cryoban »

Anubis Vlad Tepas a écrit : mar. sept. 06, 2022 12:43 pm Par contre, éthiquement, publier et utiliser commercialement du contenu généré ainsi est plus que questionnable : les œuvres des artistes à l'origine des données utilisées pour entraîner les modèles ont probablement été soit pillées à la sauvage

Le "pillage" existe déjà largement bien avant l'arrivée de l'IA...il y'a pleins d'illustrateurs qui s'inspirent du travail des autres, probablement tous en fait. Ca varie plus ou moin de l'un à l'autre, mais le plagiat des idées est partie intégrante du processus créatif. Le tout c'est de déterminer si une oeuvre est suffisamment différente de l'original pour être considérée elle-même comme un original.
C'est plus sur le long terme que ça me pose question, car une fois que les IA seront devenus mainstream, il va y avoir une forme d'homogéneisation des designs car tout le monde va travailler avec des bases d'apprentissages plus ou moins similaires. Et c'est probablement là que la patte artistique de l'humain devra venir s'exprimer en surcouche de la production de l'IA
Cthulhu Invictus: Limes Obscurus. Certaines forêts sont plus sombres que d'autres
Dark Operators, un hack du BRP pour Delta Green avec sa feuille de PJ. Du poulpe et des Forces Spéciales.
Un cadavre encombrant Un prologue alternatif à La Ville en Jaune
Yusei
Dieu en cavale
Messages : 9699
Inscription : jeu. janv. 30, 2014 9:47 am
Contact :

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Yusei »

Cryoban a écrit : mar. sept. 06, 2022 12:57 pm C'est plus sur le long terme que ça me pose question, car une fois que les IA seront devenus mainstream, il va y avoir une forme d'homogéneisation des designs car tout le monde va travailler avec des bases d'apprentissages plus ou moins similaires.
Ça a déjà eu un peu lieu, parce que pendant quelques mois Midjourney était la seule IA facilement accessible et donnant de bons résultats. Et Midjourney a un style très reconnaissable, sombre, crade, organique à la HR Giger. Des trucs comme Stable Diffusion ou DALL-E se veulent plus génériques, et donc potentiellement devraient permettre de générer plein de propositions, choisir un style, puis faire plein d'illustrations dans ce style. Quand je dis potentiellement, c'est que ça demande encore un peu de travail manuel, mais c'est une affaire de mois, pas d'années.


Sinon, un usage moins controversé (j'espère): j'utilise Stable Diffusion pour faire des "photos d'époque" 1930, et ça marche plutôt bien pour placer des célébrités là où elles n'étaient pas. Pratique pour les aides de jeu. Mais ça sera mieux quand il saura compter et arrêtera de me mettre trois picassos au même endroit.
Avatar de l’utilisateur
Cryoban
Dieu de la carbonite
Messages : 13619
Inscription : mar. mars 29, 2011 9:25 pm
Localisation : Angers

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Cryoban »

Yusei a écrit : mar. sept. 06, 2022 1:02 pm choisir un style, puis faire plein d'illustrations dans ce style

Aujourd'hui c'est ce qui manque effectivement. C'est presque impossible d'avoir une homogéneité graphique entre différentes images générées avec des Seeds et prompts différents, donc ca conserve un côté très patchwork.
Cthulhu Invictus: Limes Obscurus. Certaines forêts sont plus sombres que d'autres
Dark Operators, un hack du BRP pour Delta Green avec sa feuille de PJ. Du poulpe et des Forces Spéciales.
Un cadavre encombrant Un prologue alternatif à La Ville en Jaune
Avatar de l’utilisateur
Pyth
Ascendant
Messages : 1601
Inscription : ven. mars 23, 2018 9:12 am

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Pyth »

Cryoban a écrit : mar. sept. 06, 2022 12:57 pm
Anubis Vlad Tepas a écrit : mar. sept. 06, 2022 12:43 pm Par contre, éthiquement, publier et utiliser commercialement du contenu généré ainsi est plus que questionnable : les œuvres des artistes à l'origine des données utilisées pour entraîner les modèles ont probablement été soit pillées à la sauvage

Le "pillage" existe déjà largement bien avant l'arrivée de l'IA...il y'a pleins d'illustrateurs qui s'inspirent du travail des autres, probablement tous en fait. Ca varie plus ou moin de l'un à l'autre, mais le plagiat des idées est partie intégrante du processus créatif. Le tout c'est de déterminer si une oeuvre est suffisamment différente de l'original pour être considérée elle-même comme un original.
Ok, mais ça c'est sans prendre en compte la rapidité de reproduction et l'automatisation de la procédure. Car une oeuvre, ce n'est pas qu'une idée, c'est aussi un savoir-faire découlant d'un apprentissage doublé d'un entrainement. Un dessinateur va peut-être mettre X années à apprendre à dessiner "à la Moebius" par exemple, avant de peut-être passer X années de plus à s'en éloigner jusqu'à définir un style qui s'en sera inspiré mais qui lui sera propre. Sur ce plan là, l'IA, autrement plus efficace que l'humain, vient pas mal fausser la donne.
 
All things are true. God's an Astronaut. Oz is Over the Rainbow, and Midian is where the monsters live.
Avatar de l’utilisateur
Cryoban
Dieu de la carbonite
Messages : 13619
Inscription : mar. mars 29, 2011 9:25 pm
Localisation : Angers

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Cryoban »

Pyth a écrit : mar. sept. 06, 2022 1:23 pm Un dessinateur va peut-être mettre X années à apprendre à dessiner "à la Moebius" par exemple, avant de peut-être passer X années de plus à s'en éloigner jusqu'à définir un style qui s'en sera inspiré mais qui lui sera propre. Sur ce plan là, l'IA, autrement plus efficace que l'humain, vient pas mal fausser la donne.

Il y' a pleins d'autres métiers auxquel cela est déjà arrivé depuis bien longtemps. Il faut aller visiter les musées du compagnonage pour réaliser tout ce qui a disparu depuis plus d'un siècle et en plus c'est super beau à voir . Là ce qui choque c'est qu'on touche au domaine créatif qu'on croyait réservé aux humains et ça fait peur.
Cthulhu Invictus: Limes Obscurus. Certaines forêts sont plus sombres que d'autres
Dark Operators, un hack du BRP pour Delta Green avec sa feuille de PJ. Du poulpe et des Forces Spéciales.
Un cadavre encombrant Un prologue alternatif à La Ville en Jaune
Yusei
Dieu en cavale
Messages : 9699
Inscription : jeu. janv. 30, 2014 9:47 am
Contact :

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Message par Yusei »

Pyth a écrit : mar. sept. 06, 2022 1:23 pm Ok, mais ça c'est sans prendre en compte la rapidité de reproduction et l'automatisation de la procédure.
C'est vrai, mais (malheureusement ?) c'est vrai aussi hors de la question du plagiat. Même si on définit une "distance" minimum entre deux styles et qu'on interdit aux IA de se rapprocher trop du style d'un artiste humain, elles resteront plus efficaces et plus rapides. Je ne sais pas si c'est un problème qui peut se régler en légiférant.
Répondre