Najnowsze badanie przeprowadzone przez MIT próbowało sprawdzić na ile tak naprawdę rozumie nas sztuczna inteligencja. Okazuje się, że generatywne modele AI, choć potrafią worzyć przekonujące odpowiedzi przypominające ludzki język, nie posiadają prawdziwego zrozumienia świata.
Kluczowe pytanie badania dotyczyło tego, czy modele językowe dużej skali (LLM), które napędzają najpotężniejsze chatboty, są zdolne do budowania dokładnych wewnętrznych modeli rzeczywistości. Według badaczy z MIT, nie potrafią tego zrobić.
Aby sprawdzić, jak dobrze AI „rozumie” świat, zespół z MIT opracował nowe miary oceny, wykraczające poza zwykłą dokładność odpowiedzi. Bazowały one na tzw. deterministycznych automatach skończonych (DFA) – zadaniach składających się z szeregu zależnych od siebie kroków opartych na zestawie zasad. Jednym z testów było nawigowanie po ulicach Nowego Jorku.
W idealnych warunkach niektóre modele AI rzeczywiście potrafią podać bardzo dokładne wskazówki nawigacyjne krok po kroku. Jednak gdy badacze zamknęli kilka ulic i dodali objazdy, dokładność spadła gwałtownie. Okazało się, że wewnętrzne mapy generowane przez modele AI na podstawie ich treningu były pełne błędów, podając w swych odpowiedziach choćby nieistniejące ulice.
„Byłem zaskoczony, jak szybko wydajność się pogorszyła, gdy tylko dodaliśmy objazd na terenie miasta. Wystarczyło zamknąć zaledwie 1% możliwych ulic, by dokładność odpowiedzi AI spadła z prawie 100% do zaledwie 67%” – mówi Keyon Vafa, główny autor badania.
Wnioski sprowadzające na ziemię
Badanie to przypomina, co tak naprawdę robią najnowsze modele językowe: przewidują, jakie słowo powinno pojawić się następnie na podstawie ogromnej ilości przetworzonych danych tekstowych. Rozumienie i logika nie są wbudowane w ten proces. MIT pokazuje, że LLM-y mogą osiągać niezwykłą dokładność bez rzeczywistego rozumienia zasad. Jednak ich skuteczność może szybko się załamać, gdy pojawiają się rzeczywiste zmienne.
Dla osób korzystających z chatbotów wynik badania nie jest dużym zaskoczeniem. Każdy, kto miał do czynienia z chatbotem, wie, jak łatwo rozmowa może przerodzić się w absurd lub niespójności po zadaniu bardziej skomplikowanych pytań. Badanie MIT formalizuje te anegdotyczne doświadczenia, dostarczając naukowego wyjaśnienia.
Ta nowa analiza przypomina nam, że AI wciąz jest dalekie od zrozumienia świata, nawet jeżeli ma dostęp do większej liczby informacji o nim niż my wszyscy, razem wzięci.