Co to jest Dall-E? – Funkcja, podpowiedzi i przykładowe obrazy

obraz dall-e-post

Wyobraź sobie, że możesz w ciągu kilku sekund stworzyć dowolny obraz, który przyjdzie Ci do głowy, używając zaledwie kilku słów. Właśnie to umożliwia Dall-E (Odwiedź stronę internetową firmy Dall-E), generatywną sztuczną inteligencję obrazu z OpenAI. Ta technologia oparta na uczeniu maszynowym wywróciła w ciągu ostatnich kilku miesięcy do góry nogami świat cyfrowej sztuki i projektowania i podejrzewam, że tak będzie nadal w nadchodzących latach.

W czasach, gdy sztuczna inteligencja dotyka coraz większej liczby obszarów naszego życia, Dall-E  i inne AI obrazu stoją na czele tego rozwoju i pokazują nam, jak daleko można już przesunąć granice kreatywności.

dall-e-3

Rozwój i funkcja Dall-E

Dall-E został opracowany przez OpenAI, ten sam zespół, który stoi za dobrze znanym modelem językowym GPT-4 i chatbotem ChatGPT. Ta sztuczna inteligencja wykorzystuje zaawansowane algorytmy do generowania wizualnych dzieł sztuki na podstawie opisów tekstowych. Wyjątkowość Dall-E polega na tym, że nie tylko łączy istniejące obrazy, ale tworzy zupełnie nowe obrazy na podstawie wprowadzonego tekstu. Dotyczy to zarówno prostych obiektów, jak i złożonych scen i postaci.

Szeroki zakres i wszechstronność Dall-E sprawiają, że jest to potężne narzędzie dla projektantów, artystów i każdego, kto chce wizualnie tłumaczyć kreatywne pomysły. Ta umiejętność tworzenia obrazów ze słów nie tylko otwiera nowe możliwości twórcze, ale także stanowi imponujące osiągnięcie technologiczne.

Tutaj możecie zobaczyć fragment prac, które można znaleźć na stronie Dall-E.
Tutaj możecie zobaczyć fragment prac, które można znaleźć na stronie Dall-E.

Wersje Dall-E

Oto lista różnych wersji Dall-E wraz z datami ich wydania:

  • Dall-E (pierwsza wersja): Opublikowano 5 stycznia 2021 r. Ta początkowa wersja Dall-E stanowiła znaczący postęp w generowaniu obrazów wykorzystującym sztuczną inteligencję.
  • Dall E 2: Ogłoszono 6 kwietnia 2022 r. Dall-E 2 wszedł do wersji beta 20 lipca 2022 r. i został udostępniony wszystkim użytkownikom 28 września 2022 r. Ta wersja została zaprojektowana w celu generowania bardziej realistycznych obrazów w wyższych rozdzielczościach.
  • Dall E 3: Opublikowano 10 sierpnia 2023 r. Dall-E 3 został zaprezentowany jako dalszy rozwój, który może zrozumieć „znacznie więcej niuansów i szczegółów” niż poprzednie wersje.

Dane te stanowią przegląd rozwoju i ulepszeń firmy Dall-E na przestrzeni czasu.

Ten przykład pokazuje, jak poprawiło się generowanie obrazu w przypadku Dall-E 2 i Dall-E 3.
Ten przykład pokazuje, jak poprawiło się generowanie obrazu w przypadku Dall-E 2 i Dall-E 3.

Porównanie z innymi narzędziami AI obrazu

Chociaż Dall-E ma imponujące możliwości generowania kreatywnych i często surrealistycznych obrazów, istnieją również inne godne uwagi narzędzia do generowania obrazów oparte na sztucznej inteligencji, każde z własnymi mocnymi stronami.

  • W połowie drogi: Znany z fotorealistycznych obrazów oraz doskonałej kompozycji i estetyki obrazu.
  • Artsmart.ai: Umożliwia tworzenie obrazów o wysokiej jakości przy różnych zaawansowanych ustawieniach.
  • Leonardo.ai: Specjalizuje się w treściach związanych z grami i oferuje szeroką gamę funkcji.
  • Studio marzeń Stability.ai: Wykorzystuje najnowsze modele stabilnej dyfuzji i jest idealny do kreacji eksperymentalnych.
  • Adobe Firefly'a: Zapewnia intuicyjny interfejs i jest zoptymalizowany dla użytkowników Adobe.
  • Stockimg.ai i Supermachine: Idealny do szybkiego generowania obrazów stockowych.
  • BlueWillow firmy LimeWire: Oferuje unikalne style i przyjazną dla użytkownika platformę.
  • DALL E 2 (Laboratoria OpenAI): Starsza wersja Dall-E z własnymi funkcjami.
  • Generator obrazów Neuroflash AI, Jasper Art, Canva Create, Craiyon, Photosonic, Nightcafé, Runway, ArtSpace.ai, Mindverse: Więcej opcji, każda z własnymi specyficznymi cechami i mocnymi stronami.

Narzędzia te różnią się od Dall-E pod względem jakości obrazu, obszarów zastosowań, łatwości obsługi i specyficznych funkcji. Podczas gdy Dall-E jest idealny do kreatywnych i pomysłowych obrazów, inne narzędzia oferują zalety w tworzeniu fotorealistycznych obrazów, szybkości przetwarzania lub w określonych obszarach zastosowań, takich jak zawartość gier lub zdjęcia stockowe.

Dall-E kontra Midjourney

W przeszłości mogłem używać zarówno Dall-E, jak i Midjourney i mam następujące doświadczenia: Midjourney jest zawsze na czele, jeśli chodzi o osiąganie fotorealistycznych wyników. Ilekroć chcę stworzyć coś, co wygląda realistycznie, używam Midjourney.

Moim zdaniem Dall-E ma swoje mocne strony w dwóch punktach:

  1. Bardzo dobrze „rozumie” zachętę i z łatwością można tworzyć miniatury na YouTube lub obrazy do wpisów na blogu. Dall-E jest szczególnie dobry, jeśli chcesz, aby tekst był zawarty w obrazie. Midjourney podniosło stawkę w wersji 6, ale często polegam na Dall-E, jeśli chodzi o tekst w obrazach.
  2. Jeśli chcesz stopniowo rozwijać swój wizerunek we współpracy z ChatGPT, to ChatGPT Plus i Dall-E sprawdzają się wyjątkowo dobrze. Mówię ChatGPT, jakiego obrazu potrzebuję, a on tworzy dla mnie obraz. Następnie wyjaśniam mu, co powinno być inne, a on dostosowuje podpowiedzi w tle. W ten sposób stopniowo zbliżam się coraz bardziej do upragnionego rezultatu i nie muszę samodzielnie pracować nad podpowiedzią obrazkową. ChatGPT wykonuje swoją pracę.

Ale zawsze zależy od indywidualnego przypadku, które narzędzie jest bardziej odpowiednie. Nie miałem jak dotąd dużego doświadczenia z Leonardo.ai, ale nie powaliło mnie to na kolana tak jak Midjourney pod względem wyników.

Ale oto przykład fotorealistycznego obrazu w Dall-E i Midjourney. Podpowiedź brzmi:

Fotorealistyczny portret cyborga, łączący ludzkie cechy z subtelnymi elementami mechanicznymi, podkreślony świetlistym, inteligentnym spojrzeniem.

A oto wynik Dall-E 3:

Cyborg – wygenerowany przez Dall-E 3.
Cyborg – wygenerowany przez Dall-E 3.

I wynik Midjourney (V 6.0 alfa):

Cyborg – wygenerowany przez Midjourney V 6.0 alfa.
Cyborg – wygenerowany przez Midjourney V 6.0 alfa.

Obszary zastosowania Dall-E

Dall-E oferuje szeroką gamę możliwych zastosowań w różnych obszarach:

  • Architektura i projektowanie wnętrz: Szybka wizualizacja budynków i wnętrz.
  • Reklama i marketing: Tworzenie unikalnych i kreatywnych obrazów kampanii.
  • Edukacja i nauczanie: Tworzenie przejrzystych materiałów edukacyjnych i ilustracji.
  • Sztuka i projektowanie: Tworzenie unikalnych dzieł sztuki i elementów projektu.
  • Rozrywka: Opracowywanie projektów postaci i scenariuszy do gier wideo i filmów.
  • Projekt logo i marki: Tworzenie logo i wizerunku marki.
  • Modelowanie i symulacja: Wsparcie w tworzeniu modeli i środowisk 3D.

Te przykłady pokazują, jak Dall-E może zrewolucjonizować kreatywność i wydajność w różnych dziedzinach, od sztuki po technologię.

Dall-E 3 – Najnowsza wersja

Dall-E 3 to najnowsza i najbardziej zaawansowana wersja tej technologii generowania obrazu opartej na sztucznej inteligencji. Ta wersja oferuje ulepszone funkcje i większą precyzję generowania obrazu. Nowe funkcje obejmują zwiększoną możliwość tworzenia bardziej szczegółowych i złożonych obrazów, a także ulepszone algorytmy, które umożliwiają jeszcze dokładniejsze tłumaczenie opisów tekstowych na treść wizualną.

Dall-E 3 wyznacza nowe standardy w generowaniu obrazu w oparciu o sztuczną inteligencję i przesuwa granice tego, co jest możliwe w cyfrowej kreatywności. Informacje o dostępności i kosztach są szczególnie istotne dla zainteresowanych.

Jedną z mocnych stron Dall-E 3 jest zrozumienie podpowiedzi, dzięki czemu można bardziej szczegółowo opisać także poszczególne elementy obrazu.
Jedną z mocnych stron Dall-E 3 jest zrozumienie podpowiedzi, dzięki czemu można bardziej szczegółowo opisać także poszczególne elementy obrazu.

Niestety, wydaje się, że Dall-E nie od razu rozumie, co masz na myśli, wypowiadając ten monit:

Fotorealistyczny portret cyborga, łączący ludzkie cechy z subtelnymi elementami mechanicznymi, podkreślony świetlistym, inteligentnym spojrzeniem.

Wynik wygląda tak w Dall-E 3:

Niestety nie udało się: mała czerwona kulka obok dużej niebieskiej piramidy na większej zielonej kostce.
Niestety nie udało się: mała czerwona kulka obok dużej niebieskiej piramidy na większej zielonej kostce.

Oto co wyszło z Midjourney:

W Midjourney tylko lewy dolny róg z 4 obrazów jest poprawny. Tyle że wynalazł do niej niebieską kulkę.
W Midjourney tylko lewy dolny róg z 4 obrazów jest poprawny. Tyle że wynalazł do niej niebieską kulkę.

Korzystanie z Dall-E poprzez ChatGPT

Najłatwiejszym i najskuteczniejszym sposobem współpracy z Dall-E jest obecnie ChatGPT. Ta metoda ma tę zaletę, że ChatGPT nie tylko pomaga w formułowaniu opisów tekstowych (podpowiedzi) dla Dall-E, ale także przekazuje je bezpośrednio do Dall-E. To zintegrowane podejście sprawia, że ​​proces generowania obrazu jest szczególnie przyjazny dla użytkownika i wydajny.

Użytkownicy muszą zalogować się do OpenAI, a następnie uzyskać dostęp do Dall-E za pośrednictwem interfejsu ChatGPT, a jakość wyników w dużym stopniu zależy od dokładności i kreatywności wprowadzanych podpowiedzi.

Wskazówka: jeśli chcesz zobaczyć, który monit jest aktualnie wysyłany do Dall-E, po prostu zapytaj w ChatGPT: „Jak dokładnie wygląda monit aktualnie wysłany do Dall-E?”

Tutaj możesz zobaczyć komunikację z Dall-E za pośrednictwem ChatGPT w celu utworzenia obrazu.
Tutaj możesz zobaczyć komunikację z Dall-E za pośrednictwem ChatGPT w celu utworzenia obrazu.

Przykłady obrazów i podpowiedzi z Dall-E

Stworzyłem następujące obrazy, prosząc ChatGPT o kilka pomysłów, które pokazują, jak wszechstronna jest sztuczna inteligencja obrazu. Następnie ChatGPT wykorzystał swoje pomysły do ​​stworzenia podpowiedzi, które posłużyły do ​​wygenerowania obrazów. A co z tego wynikło, możecie teraz znaleźć tutaj.

Obraz 1 – Portret

zapyta:

Szczegółowy, realistyczny portret osoby w fotorealistycznym stylu. Portret jest zbliżeniem, ukazującym zawiłości tekstury skóry, odbicia światła i cieniowanie, aby podkreślić możliwość realistycznego przedstawienia. Wyraz twarzy jest spokojny i zamyślony, z naciskiem na oczy i subtelne szczegóły, takie jak rzęsy i faktura ust. Oświetlenie powinno być miękkie i naturalne, zwiększające realizm portretu.

A oto wynik Dall-E 3:

obraz-dalle-1

Obraz 2 – Sztuka abstrakcyjna

zapyta:

Abstrakcyjna grafika wykorzystująca żywe kolory i niezwykłe kształty, aby stworzyć nierealistyczną ekspresję artystyczną. Kompozycja skupia się na dynamicznej grze kolorów i geometrycznych wzorach, tworząc wizualnie wciągający i dający do myślenia utwór. Układ elementów jest zrównoważony, ale dynamiczny i obejmuje mieszankę ostrych kątów i płynnych krzywizn, pokazując wszechstronność twórczości sztuki abstrakcyjnej.

A oto wynik Dall-E 3:

obraz-dalle-2

Obraz 3 – Komiks

zapyta:

Ilustracja w stylu komiksu przedstawiająca scenę pełną humoru lub akcji. Obraz powinien przedstawiać charakterystyczne, mocne i stylizowane postacie, odpowiednie do powieści graficznej lub książki dla dzieci. Nacisk na odważne linie, żywe kolory i wyraziste postacie, aby uchwycić istotę sztuki komiksowej.

A oto wynik Dall-E 3:

obraz-dalle-3

Obraz 4 – Surrealistyczny krajobraz

zapyta:

Surrealistyczny krajobraz przedstawiający światy ze snów lub niemożliwe scenariusze, takie jak pływające wyspy lub krajobrazy o nietypowych kombinacjach kolorystycznych. Scena powinna ilustrować umiejętność tworzenia scen pomysłowych i przekraczających granice, zawierających elementy zaprzeczające konwencjonalnej rzeczywistości.

A oto wynik Dall-E 3:

obraz-dalle-4

Obraz 5 – Malarstwo

zapyta:

Obraz w stylu dawnych mistrzów, takich jak Rembrandt czy Leonardo da Vinci. Może to być scena historyczna lub klasyczny portret ukazujący umiejętność naśladowania tradycyjnych stylów artystycznych. Grafika powinna oddawać istotę sztuki renesansu lub baroku, z dbałością o szczegóły, dramatycznym oświetleniem i bogatymi fakturami.

A oto wynik Dall-E 3:

obraz-dalle-5

Ograniczenia i wyzwania firmy Dall-E

Chociaż Dall-E jest imponującym narzędziem do generowania obrazów, ma swoje ograniczenia w niektórych obszarach. Na przykład mogą wystąpić trudności w tworzeniu liter lub dokładnym przedstawieniu anatomicznie prawidłowych kończyn. Ograniczenia te mogą mieć wpływ na użyteczność w niektórych przypadkach użycia.

Ponadto podczas korzystania z Dall-E należy wziąć pod uwagę również aspekty etyczne, takie jak unikanie materiałów chronionych prawem autorskim lub tworzenie obraźliwych treści.

Wszystkie AI obrazu mają obecnie trudności z rękami, ale w szczególności Dall-E.
Wszystkie AI obrazu mają obecnie trudności z rękami, ale w szczególności Dall-E.

Mój wniosek

Dall-E może nie jest najlepszym narzędziem AI obrazu na rynku, ale niewątpliwie jest imponującym i wszechstronnym instrumentem. Jego integracja z ChatGPT jest jedną z najbardziej praktycznych funkcji, ponieważ upraszcza i usprawnia tworzenie obrazów bezpośrednio z opisów tekstowych.

Implementacja długich podpowiedzi, w których Midjourney często coś pomija podczas implementacji, również nie stanowi dla Dall-E większego problemu. Jeśli więc nie szukasz fotorealizmu, Dall-E będzie dobrym wyborem.

Podobał Ci się artykuł i czy instrukcje na blogu Ci pomogły? Wtedy byłbym szczęśliwy, gdybyś bloga poprzez stałe członkostwo będzie wspierać.

2 komentarze na temat „Co to jest Dall-E? – Funkcja, podpowiedzi i przykładowe obrazy”

  1. Witaj Jens, piszesz, że Dall-e jest dobry do tekstu w obrazach. Jak powiedzieć Dall-e, że nie powinien tłumaczyć tekstu na angielski, że powinien brać tekst dosłownie tak, jak go piszę? Czy są do tego komendy? Ignoruje słowa „dosłownie”, „dosłownie”, „nie tłumacz tekstu” itp. Dall-e zamienia „Moją pierwszą książkę do przeczytania” w „Min 1. Lesebouk”. :) Albo przetłumacz na angielski!

    Dziękujemy!

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone * oznakowane

Na blogu Sir Apfelot znajdziesz porady, instrukcje i recenzje produktów Apple, takich jak iPhone, iPad, Apple Watch, AirPods, iMac, Mac Pro, Mac Mini i Mac Studio.

Promocje
Zakupy
  •  
  •