Język kształtuje widzenie. Potwierdza to sztuczna inteligencja

AI potwierdza, że język kształtuje nasze widzenie

Klucz do zrozumienia ludzkiego widzenia może leżeć nie w oku, ale w języku. Najnowsze badania sugerują, że język kształtuje widzenie w sposób fundamentalny. Najnowsze odkrycia wskazują, że to językowe zaplecze nie jest jedynie ozdobnikiem. To fundament, który nadaje kształt samej percepcji.

W momencie patrzenia na zachód słońca, mózg rejestruje nie tylko gradient kolorów, ale w ułamku sekundy przywołuje całe uniwersum znaczeń. Począwszy od pojęcia „piękna” a na fragmentach piosenek skończywszy. Sieci neuronowe odpowiedzialne za mowę współpracują wtedy z obszarami wzrokowymi. I nadają rejestrowanym kształtom i kolorom znaczenie i kontekst.

Przełomowe dowody na tę ścisłą integrację przynosi nowe badanie, o którym donosi portal Phys.org. Źródłem jest praca naukowców opublikowana w Nature Human Behaviour.

AI jako zwierciadło umysłu

Aby zbadać tę hipotezę, zespół naukowców z kilku chińskich instytucji, w tym Uniwersytetu Pekińskiego oraz Pekińskiego Uniwersytetu Normalnego, postanowił porównać ludzki mózg z trzema typami sztucznych sieci neuronowych. Jak wyjaśniają autorzy w artykule na Phys.org, naukowcy testowali:

ResNet – klasyczny model rozpoznawania obrazów szkolony na etykietach (np. „kot”).
MoCo – model samouczący się, znajdujący wzorce wyłącznie w danych wizualnych.
CLIP – przełomowy model od firmy OpenAI, który uczy się jednocześnie z milionów obrazów i ich naturalnych opisów językowych z internetu.

Kluczowe pytanie brzmiało: który z tych modeli najlepiej odzwierciedla aktywność neuronową w brzusznej, potyliczno-skroniowej korze wzrokowej (VOTC), czyli w centrum rozpoznawania obiektów w ludzkim mózgu?

AI łącząca obraz i słowo najlepiej naśladuje mózg

Wynik był jednoznaczny. Okazało się, że aktywność tej części mózgu – kluczowej dla rozpoznawania przedmiotów i twarzy – najwierniej odzwierciedlał model CLIP. To ten, który „rozumie” zarówno obrazy, jak i język. Działo się tak we wszystkich czterech testach.

Co ciekawe, ta przewaga była szczególnie widoczna po lewej stronie mózgu. Właśnie tej, w której zlokalizowane są nasze główne ośrodki językowe.

Mówiący dowód: co ujawniają uszkodzenia mózgu?

Najbardziej przekonujących dowodów dostarczyła jednak analiza pacjentów po udarze. Badacze przyjrzeli się 33 osobom, u których uszkodzona została biała materia. To swego rodzaju fizyczne „okablowanie” łączące obszar wzrokowy VOTC z lewym zakrętem kątowym, kluczowym węzłem dla przetwarzania języka.

Odkryto wyraźny związek przyczynowo-skutkowy. Gdy fizyczne połączenie między ośrodkiem wzroku a językiem zostało przerwane, aktywność mózgu pacjentów przestawała przypominać model CLIP (który łączy obraz i słowo), a zaczynała być bardziej podobna do „niemego”, czysto wizualnego modelu MoCo. To tak jakby mózg, pozbawiony dostępu do językowego „kontekstu”, wracał do bardziej podstawowego, surowego sposobu „widzenia”.

Nowy kierunek dla neuronauki i sztucznej inteligencji

Odkrycia te mają daleko idące konsekwencje.

Po pierwsze, dostarczają jednego z najsilniejszych dotychczas dowodów na relatywizm językowy w działaniu. To teoria, która mówi, że język, którym się posługujemy, wpływa na nasze postrzeganie rzeczywistości.

Po drugie, wskazują nowy, niezwykle obiecujący kierunek badań.

Fakt, że uszkodzenia konkretnych obszarów mózgu wpływają na to, jak bardzo jego praca przypomina dany model AI, pokazuje ogromną wartość tych klinicznych obserwacji. Stanowią one unikalny i obiecujący schemat działania dla oceny i udoskonalania komputerowych modeli naśladujących ludzki umysł

– piszą autorzy badania, cytowani w artykule na Phys.org.

W praktyce oznacza to, że pacjenci z uszkodzeniami neurologicznymi mogą pomóc nam tworzyć lepszą, bardziej „ludzką” sztuczną inteligencję. A dla nas wszystkich to przypomnienie, że patrzymy na świat nie tylko oczami, ale przez pryzmat całej sieci znaczeń. Sieci, którą utkaliśmy z języka.

Przeczytaj także: Dlaczego mózg wciąż wraca do czarnych myśli? I jak to zatrzymać