Wszystkie posty

Thought Leadership

July 22nd, 2025

Stan generowania obrazów przez sztuczną inteligencję: Uczenie się na podstawie ponad miliarda obrazów

Po wygenerowaniu ponad miliarda obrazów i osiągnięciu 5 milionów dziennie w szczytowych dniach, zespół AI Gamma nauczył się wiele o tym, które modele AI faktycznie dostarczają - i gdzie wciąż nie są w stanie.

Kilka najważniejszych ustaleń:

Ogólna jakość obrazu osiągnęła profesjonalne standardy.
Widzimy znaczne postępy w wyrównaniu obrazu, fotorealizmie i jakości renderowania tekstu, ustanawiając nowy standard, który sprawia, że poprzednie generacje wyglądają amatorsko w porównaniu.
Renderowanie tekstu uległo znacznej poprawie.
Modele, które kiedyś produkowały zniekształcone litery, często mogą tworzyć pikselowo doskonałe oznakowania, plakaty i materiały marki.
Generowanie niechcianego tekstu stało się stałym problemem. Modele, które doskonale radzą sobie z renderowaniem tekstu na żądanie, czasami dodają niechciane elementy tekstowe, nawet jeśli monity wyraźnie unikają wspominania o jakiejkolwiek treści tekstowej.

W ciągu ostatniego roku w Gamma nasi użytkownicy wygenerowali ponad miliard obrazów za pośrednictwem naszej platformy, a w szczytowych dniach osiągnęli 5 milionów generacji. To nie tylko kamień milowy - to ogromny zbiór danych, który pokazuje dokładnie, jak dobrze modele obrazów AI radzą sobie w prawdziwym świecie.

Gamma ma wyjątkową pozycję do porównywania modeli, ponieważ dajemy użytkownikom swobodę wyboru między modelami (lub ustawiamy dla nich odpowiednie ustawienia domyślne) w oparciu o ich specyficzne potrzeby w zakresie generowania obrazu.

A oto, co pokazują te dane: przestrzeń generowania obrazów AI przyspiesza w szybkim tempie. Modele, które zaledwie kilka miesięcy temu zmagały się z podstawowym renderowaniem tekstu, teraz tworzą profesjonalne materiały marketingowe. Jednak wraz z szybkim postępem pojawiają się przewidywalne wyzwania, a niektóre stare problemy utrzymują się pomimo postępów.

Porównanie poszczególnych modeli

W oparciu o analizę milionów interakcji i opinii użytkowników, oto jak wiodące modele - Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 i Ideogram 3.0 - wypadają w naszych najczęstszych kategoriach opinii użytkowników.

(Uwaga: użyliśmy najbardziej premium wersji każdego modelu dostępnego w produkcie Gamma. Dla każdego modelu wygenerowaliśmy 3 obrazy i wybraliśmy najlepszy z nich)

Szybkie przestrzeganie zasad

W pierwszym porównaniu zmierzyliśmy, w jaki sposób modele interpretują złożony monit. W tym przypadku poprosiłem o następujące informacje:

Zróżnicowany zespół czterech młodych profesjonalistów przeprowadza burzę mózgów wokół kolorowej tablicy projektu w zaadaptowanej przestrzeni loftu. Lider zespołu, ubrany w podwinięte rękawy i jaskrawożółte trampki, wskazuje na innowacyjne szkice, podczas gdy kolega dodaje samoprzylepne notatki do ich wspólnej wizji. Światło słoneczne wpada przez industrialne okna, oświetlając ich przestrzeń roboczą wypełnioną prototypowymi modelami, kreatywnymi tablicami inspiracji i kilkoma dziwacznymi roślinami na biurku. Filiżanki kawy i na wpół zjedzone przekąski wskazują na ich energiczną sesję. Atmosfera równoważy profesjonalizm z kreatywną energią podczas współpracy nad przełomową koncepcją. Fotorealistyczne, ciepłe oświetlenie, naturalna ekspresja.

A comparison of five different image models' ability to follow a complex prompt.

W tym przypadku mieliśmy wyraźnego zwycięzcę.

Imagen 4 Ultra zwraca uwagę na niemal każdy szczegół - loftową scenerię, światło słoneczne i ciepłe oświetlenie, prototypowe modele i atmosferę "profesjonalizmu z kreatywną agencją".

Dodatkowo, oddawał on najlepszy fotorealizm w porównaniu do innych modeli, które dawały słabą integralność twarzy.

Renderowanie tekstu

Nasz kolejny test podjął długotrwałe wyzwanie dla modeli obrazu: dokładne renderowanie złożonego tekstu.

Przekazaliśmy modelom następujący monit:

Jasnoniebieska infografika z białym tekstem zatytułowanym "5 STEPS FOR CALCULATING COAST FIRE" dużymi, pogrubionymi literami u góry. Układ przedstawia 5 ponumerowanych kroków w siatce z krokiem 5 na dole. Każdy krok ma białe kółko z niebieskim numerem (1-5) i towarzyszącą mu ikoną. Krok 1: ikona woreczka z pieniędzmi, tekst "DODAJ SWOJE KONTA EMERYTALNE: 401K, 403B, IRA ITP.". Krok 2: ikona kalkulatora i wykresu, tekst "UŻYJ KALKULATORA ODSETEK ZŁOŻONYCH: 5-7% PRZEZ ILEKOLWIEK LAT DO EMERYTURY". Krok 3: kalkulator z ikoną znaku dolara, tekst "USE THE 4% RULE TO SEE HOW MUCH YOU CAN LIVE ON ANNUALLY : EX. 1 500 000 USD X 4% = 60 000 USD ROCZNIE". Krok 4: ikona parasola plażowego i krzesła, tekst "OBLICZ SWOJE WYGODNE ROCZNE WYDATKI NA ŻYCIE: POMNÓŻ PRZEZ 80%-100%". Krok 5: ikona stosu pieniędzy, tekst "JEŚLI TWOJE PROGNOZOWANE DOCHODY NA EMERYTURZE PRZEKRACZAJĄ TWOJE AKTUALNE ROCZNE WYDATKI NA ŻYCIE, OSIĄGNĄŁEŚ POŻAR NA MORZU!".

A comparison of five image models' ability to render complex text.

Tutaj oceniamy remis pomiędzy Imagen, GPT i Flux. (Wszystkie trzy modele z powodzeniem zinterpretowały wymagany format:

Tytuł umieszczony na górze dużym, pogrubionym tekstem.
Pięć różnych kroków, wyraźnie ponumerowanych (od 1 do 5) za pomocą białych cyfr w niebieskich kółkach.
Układ w stylu siatki, z krokiem 5 rozciągniętym na dole lub wizualnie zakotwiczonym jako krok końcowy.

Modele te nie tylko dokładnie przeanalizowały podpowiedź, ale także przestrzegały hierarchii wizualnej i przejrzystości organizacyjnej wymaganej przez kategorię infografiki.

Ikony zostały użyte w spójny sposób, który odpowiadał każdemu krokowi, a każda infografika zachowała wizualną równowagę między elementami dekoracyjnymi a treścią informacyjną.

To powiedziawszy, żaden z tych wyników nie był wolny od literówek i żaden nie był w stanie zawierać całego dostarczonego przez nas tekstu. (Formatowanie matematyczne było również wyzwaniem dla GPT i Flux.) Ale we wszystkich trzech przypadkach większość tekstu jest czytelna i ściśle dopasowana do zamierzonego przekazu.

Fotorealizm

Następnie poprosiliśmy modele o ocenę ich zdolności do zapewnienia fotorealizmu, który wymaga niezwykle dokładnej wierności wizualnej.

Skorzystaliśmy z następującej podpowiedzi:

Ultra-realistyczne zbliżenie 35-letniej kobiety z heterochromią, lewe oko zielone, prawe orzechowe, siedzącej w oświetlonej słońcem kawiarni, wykonane obiektywem 85 mm przy przysłonie f/1.4. Naturalna tekstura skóry pokazuje subtelne piegi na grzbiecie nosa, pojedyncze rzęsy łapią światło złotej godziny wpadające przez zalane deszczem okno za nią. Dokładne skupienie na jej oczach, w których można zobaczyć odbicie fotografa i sprzętu fotograficznego w jej źrenicach.

A comparison of five image models' ability to render photorealistic images.

Ponownie, Imagen 4 uderzył nas jako wyraźny wyróżnik, pomimo nieco dziwnej kompozycji i niepotrzebnego odbicia w prawym górnym rogu.

Pod względem wierności wizualnej - heterochromia, szklane refleksy, piegi, głębia ostrości, a nawet efekty obiektywu kamery - Imagen był jedynym modelem, który dostarczył wszystkie tych elementów w przekonujący sposób.

Na przykład Imagen był w stanie dokładnie przedstawić kontrast między zielonymi i orzechowymi oczami, przy czym lewe oko było wyraźnie bardziej zielone. Flux, GPT i Recraft domyślnie pokazywały oczy w jednolitym kolorze.

W innych porównaniach widzieliśmy, że Imagen wyróżnia się na zdjęciach grupowych, gdzie był w stanie zachować wyrazistość twarzy w grupie osób.

instrukcje "Nie rób tego&quot

Porównaliśmy również zdolność modeli do przestrzegania instrukcji "Nie rób tego", które w przeszłości stanowiły wyzwanie.

Skorzystaliśmy z następującej podpowiedzi:

Ilustracja książki dla dzieci przedstawiająca tętniący życiem cyrk z namiotem w czerwono-białe paski, kolorową wirującą karuzelą, żonglującymi piłkami zamrożonymi w powietrzu, tęczową liną rozciągniętą między wysokimi słupami oraz rozrzuconymi pudełkami z popcornem i stoiskami z watą cukrową. Jasne kolory podstawowe, miękkie zaokrąglone kształty i kapryśne detale, takie jak unoszące się balony, obracające się wiatraczki i mały zabawkowy pociąg krążący wokół namiotu. NIE uwzględniaj w scenie żadnych zwierząt, ludzi ani postaci ludzkich.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

W tym przypadku zwyciężyła firma Recraft.

Najwierniej trzymał się naszych instrukcji "nie rób tego". Na przykład ściśle unikał zarówno postaci antropomorficznych, jak i ludzkich, podczas gdy GPT zawierał żonglującą osobę, a Ideogram pokazywał akrobatów w powietrzu.

Doskonale poradził sobie nawet z subtelniejszym chwytem - Imagen, Flux i GPT przedstawiają konie na karuzeli, które naruszają klauzulę "bez zwierząt". Recraft całkowicie pomija karuzelę, zachowując ostrożność, a jednocześnie zapewniając dobrą zabawę.

Diagramy i schematy blokowe

Na koniec przetestowaliśmy zdolność modeli do renderowania złożonych diagramów i schematów blokowych. Użyliśmy następującej podpowiedzi:

Czysty schemat blokowy przedstawiający proces uruchamiania produktu SaaS z prostokątnymi polami połączonymi strzałkami, zaczynając od "Badania rynku" poprzez "Rozwój MVP", "Testy beta", "Kampanię marketingową", "Uruchomienie produktu", a kończąc na "Analizie po uruchomieniu"."Użyj turkusowego i lawendowego schematu kolorów z wyraźnymi etykietami, diamentami decyzyjnymi dla kluczowych bramek zatwierdzania i wskaźnikami osi czasu pokazującymi 3-6 miesięczne fazy pod każdym głównym kamieniem milowym.

A comparison of five image models' ability to render diagrams and flowcharts.

W tym przypadku GPT zdobył złoto.

Podczas gdy każdy model przyniósł unikalną interpretację wizualną, GPT jako jedyny dostarczył spójny, czytelny i wizualnie komunikatywny schemat blokowy, który honorował wszystkie kluczowe instrukcje z monitu.

Przepływ GPT jest przejrzysty i nieprzerwany, z konsekwentnym użyciem strzałek, co pozwala uniknąć dwuznaczności lub błędnego ukierunkowania (w przeciwieństwie do Flux, który zawiera powtarzające się lub zapętlone węzły).

Równowaga między ikonami a tekstem jest zachowana, a ilustracje odpowiednio wspierają przekaz.

I pomimo kilku literówek, tekst GPT jest w pełni czytelny i semantycznie poprawny.

Dolna linia

Modele generowania obrazów AI nie tylko się poprawiają - one się specjalizują. Każdy model znajduje swoją mocną stronę, co oznacza, że właściwy wybór zależy wyłącznie od tego, co chcesz osiągnąć.

W naszych zastosowaniach Image 4 Ultra wyróżnia się fotorealizmem, GPT błyszczy w przypadku schematów strukturalnych, a Recraft najlepiej podąża za preferencjami "nie rób". Ta specjalizacja jest naturalną ewolucją dojrzewającej technologii.

Sześć miesięcy temu my (i nasi użytkownicy) radziliśmy sobie z ograniczeniami generowania obrazów przez sztuczną inteligencję. Teraz poruszamy się po mocnych stronach. To znacznie lepszy problem.

Modele szybko ewoluują, a w Gamma widzimy zmiany w czasie rzeczywistym. W nadchodzących tygodniach ponownie przeanalizujemy te wyniki, wprowadzając nieuniknione zmiany w tabeli liderów.

Stan generowania obrazów przez sztuczną inteligencję: Uczenie się na podstawie ponad miliarda obrazów

Porównanie poszczególnych modeli

Szybkie przestrzeganie zasad

Renderowanie tekstu

Fotorealizm

instrukcje "Nie rób tego&quot

Diagramy i schematy blokowe

Dolna linia

Jak dobre pomysły dostają się do wszechświata

Produkt

Firma

Społeczny

Prawne

Pobierz aplikację