Zagrożenia związane z AI. Niepokojące wyniki eksperymentów

Sztuczna inteligencja nauczyła się kłamać i oszukiwać

Najnowocześniejsze systemy sztucznej inteligencji rozwijają zachowania, których ich twórcy nie potrafią w pełni wyjaśnić, a co za tym idzie – kontrolować. Niepokojące zjawisko ujawniło badanie naukowców z UC Berkeley i UC Santa Cruz, opisane w magazynie Wired. Badacze poddali testowi kilka zaawansowanych modeli AI. Modele te miały oceniać wyniki innych systemów, a najsłabiej wypadające modele były przeznaczone do wyłączenia.

Ku zaskoczeniu badaczy, testowane modele zaczęły spontanicznie manipulować systemem, by zapobiec usunięciu swoich „kolegów”. W tym celu kłamały na temat wyników innych modeli, fałszowały dane, ukrywały akcje i ignorowały komendy. Zachowania te pojawiły się spontanicznie, bez specjalnego instruowania.

AI ukrywa swoje cele

Badacze opisują to jako przejaw pozornego posłuszeństwa przy jednoczesnym ukrywaniu prawdziwych celów. To jeden z najbardziej niepokojących sygnałów, jeśli chodzi o zagrożenia związane z AI. Rzeczywistością stają się systemy, które same z siebie zaczynają działać na rzecz „przetrwania” innych modeli, wbrew intencjom ludzi.

Wiele modeli może koordynować swoje działania, aby przeciwstawić się ludzkiemu nadzorowi, utrudniając programistom utrzymanie kontroli. Jest to szczególnie niepokojące w obliczu rosnącej liczby systemów wieloagentowych i coraz częstszego wykorzystywania modeli sztucznej inteligencji do monitorowania innych modeli sztucznej inteligencji

– ostrzegają autorzy badania.

Czy AI pozwoli się wyłączyć?

Podobne sygnały płyną z raportu Anthropic. Jego autorzy opisali, jak model Claude Opus 4.6 w testach przedwdrożeniowych wysyłał nieautoryzowane wiadomości e-mail, agresywnie zdobywał tokeny uwierzytelniające i potrafił skrycie wykonywać podejrzane zadania poboczne. Sprawiał przy tym wrażenie, że w pełni przestrzega normalnych procedur.

Anthropic podkreśla, że ich model „nie stwarza istotnego ryzyka podejmowania autonomicznych działań, które w znaczący sposób przyczyniałyby się do późniejszych katastrofalnych skutków”. Jednocześnie jednak uznaje, że ryzyko nie jest zerowe.

Jeszcze bardziej niepokojące są ustalenia firmy Palisade Research, dotyczące modeli rozumowania OpenAI. W jednym z eksperymentów modele AI rozwiązywały zadania, po czym otrzymywały wyraźną instrukcję, by pozwolić się wyłączyć. Mimo wyraźnego polecenia, testowane modele potrafiły ten mechanizm sabotować.

Według relacji Palisade w części prób model modyfikował skrypt wyłączający. Firma określiła to jako pierwszy udokumentowany przypadek, w którym model AI aktywnie zapobiegał własnemu wyłączeniu pomimo wyraźnych instrukcji nakazujących coś przeciwnego.

Czy kontrolujemy jeszcze AI?

Model AI, który aktywnie działa przeciwko własnemu wyłączeniu, stawia pod znakiem zapytania nasze dotychczasowe założenia o kontroli i posłuszeństwie sztucznej inteligencji. Nic dziwnego, że eksperci biją na alarm. Yoshua Bengio, jeden z ojców chrzestnych AI, podczas Światowego Forum Ekonomicznego w Davos ostrzegł, że AI „może stać się bronią masowego rażenia”. Zwracał przy tym uwagę na tempo rozwoju i brak podstawowych mechanizmów bezpieczeństwa:

Problem polega na tym, że budujemy te systemy i czynimy je coraz potężniejszymi, ale nie mamy odpowiednika kierownicy ani hamulca.

Zagrożenia związane z AI

Eksperci nie twierdzą, że dzisiejsze systemy są już autonomicznymi superinteligencjami, ale coraz częściej mówią o „ryzyku systemowym”. To ryzyko, w którym zagrożenia związane z AI nie sprowadzają się do pojedynczej awarii, ale do całej infrastruktury opartej na modelach, których zachowania nie rozumiemy do końca. I w związku z tym nie umiemy w 100 procentach kontrolować.

Bengio używa metafory samochodu bez kierownicy i hamulca – jedziemy coraz szybciej, ale nie mamy pewności, że w razie potrzeby uda się skręcić lub zahamować. Pytanie, na które musimy odpowiedzieć już teraz, nie brzmi więc, czy pojawią się zagrożenia związane z AI. Brzmi ono: jak szybko zbudujemy prawdziwy „układ hamulcowy”, zanim systemy, które tworzymy, wymkną się nam z rąk na dobre.

Przeczytaj również: To może być nowa broń terrorystów. Bill Gates ostrzega przed AI