Google wprowadza kolejne narzędzie oparte na sztucznej inteligencji. Whisk to eksperymentalny generator obrazów dostępny w ramach Google Labs, który pozwala użyć istniejącego obrazu jako podpowiedzi (promptu). Jednak zamiast dokładnie odtworzyć źródłowy obraz, Whisk tworzy nową grafikę, oddając jedynie jego „esencję”. Narzędzie lepiej sprawdza się do burzy mózgów i szybkich wizualizacji niż do precyzyjnych edycji.

Interfejs Whiska jest prosty i przyjazny dla użytkownika. Na ekranie początkowym można wybrać temat oraz styl, ograniczony do trzech opcji: naklejka, przypinka emaliowana i pluszowa maskotka. Google najwyraźniej uznało, że te style najlepiej pasują do obecnych możliwości narzędzia, które wciąż jest w fazie eksperymentalnej.

Whisk posiada również zaawansowany edytor (dostępny po kliknięciu „Start from scratch”), gdzie można używać zarówno tekstu, jak i obrazu źródłowego, podzielonego na trzy kategorie: temat, scena i styl. Istnieje także opcja dodania dodatkowych opisów tekstowych. Jednak w tej wersji narzędzie nie zawsze generuje wyniki zgodne z podanymi szczegółami.

Google podkreśla, że Whisk opiera się na kilku „kluczowych cechach” obrazu źródłowego. Oznacza to, że wygenerowany obraz może różnić się np. wzrostem, wagą, fryzurą czy kolorem skóry przedstawionej postaci.

Dzieje się tak, ponieważ Whisk wykorzystuje model językowy Gemini do stworzenia szczegółowego opisu obrazu źródłowego. Następnie opis ten jest przetwarzany przez generator obrazów Imagen 3, który tworzy nową grafikę na podstawie tekstu – nie bezpośrednio na podstawie źródłowego obrazu.

Narzędzie Whisk jest obecnie dostępne jedynie w Stanach Zjednoczonych. Można je wypróbować na stronie Google Labs. Google podkreśla, że Whisk najlepiej nadaje się do szybkiej eksploracji wizualnej, a nie do tworzenia profesjonalnych treści.

Arkadiusz Ogończyk

Arkadiusz Ogończyk

Redaktor prowadzący

Baner zgody na pliki cookie od Real Cookie Banner