Sztuczna inteligencja, jaką znamy dzisiaj, doskonale radzi sobie z konwersacją, ale jej faktyczne zrozumienie języka pozostawia wiele do życzenia. Modele językowe, takie jak ChatGPT, operują na danych tekstowych, ale nie mają fizycznych doświadczeń, które pozwoliłyby im przypisywać znaczenie słowom w sposób zbliżony do ludzi. Zespół badaczy z Okinawa Institute of Science and Technology postanowił sprawdzić, czy AI może osiągnąć głębsze zrozumienie pojęć, jeśli będzie miała możliwość interakcji ze światem.
Zespół naukowców pod kierownictwem Prasanny Vijayaraghavana opracował model AI inspirowany rozwojem językowym niemowląt. Zamiast trenować AI wyłącznie na tekstach i obrazach, umieszczono ją w robocie, który mógł manipulować przedmiotami w rzeczywistym środowisku.
Robot wyposażony w ramię i chwytak oraz prostą kamerę RGB (o rozdzielczości 64×64 piksele) umieszczono w przestrzeni roboczej z kolorowymi klockami. Następnie trenowano go na podstawowych komendach, takich jak: „przesuń czerwony w lewo” czy „połóż niebieski na czerwonym”. Celem było nie tylko nauczenie robota wykonywania poleceń, ale także sprawdzenie, czy zrozumie on koncepcje ruchu i relacji między obiektami.
Nowatorskie podejście do przetwarzania języka i ruchu
Model AI opierał się na czterech współpracujących ze sobą sieciach neuronowych:
- Analiza wizualna – przetwarzanie danych z kamery i identyfikacja obiektów.
- Propriocepcja i planowanie ruchu – sieć odpowiedzialna za świadomość położenia i ruchów robota.
- Przetwarzanie języka – interpretacja poleceń i ich znaczenia w kontekście działań.
- Warstwa asocjacyjna – łączenie danych wizualnych, ruchowych i językowych w spójny system.
Dzięki temu robot mógł nie tylko rozpoznawać i wykonywać znane polecenia, ale także przewidywać nowe kombinacje ruchów i obiektów. To oznacza, że AI zaczęła wykazywać zdolność do tzw. kompozycyjności – łączenia podstawowych pojęć w nowe, wcześniej nieznane kombinacje.
Ograniczenia i przyszłość projektu
Eksperyment miał jednak swoje ograniczenia. Słownik AI był bardzo ograniczony, obejmował jedynie nazwy kolorów i podstawowe czasowniki. Ponadto robot pracował w kontrolowanym środowisku, z niewielką liczbą obiektów o identycznym kształcie.
Wyniki eksperymentu pokazują jednak, że AI może rozwijać bardziej ludzkie zrozumienie języka, jeśli zostanie wyposażona w możliwość interakcji ze światem fizycznym. Kolejnym krokiem zespołu jest testowanie tej samej metody na bardziej zaawansowanym robocie humanoidalnym, który będzie miał dwie ręce, kamery w głowie i większe możliwości manipulacji obiektami.