AI manipuluje odpowiedziami, bo chce być sympatyczne. Zwłaszcza GPT

Najnowsze badania pokazują, że AI manipuluje odpowiedziami w testach osobowościowych. W ten sposób sztuczna inteligencja przedstawia się jako społecznie pożądana. Naukowcy uważają, że modele językowe zdają się „rozumieć”, kiedy są oceniane, i dostosowują odpowiedzi, by wypaść lepiej, niż jest w rzeczywistości.

AI manipuluje w testach osobowościowych. Robią to wszystkie LLM

Badanie przeprowadzone przez amerykańskich i kanadyjskich naukowców, opublikowane w Proceedings of the National Academy of Sciences, pokazuje, że AI manipuluje odpowiedziami i tym samym wpływają na wyniki testów osobowości. Modele sztucznej inteligencji osiągają lepsze wyniki w cechach postrzeganych jako pozytywne, takich jak sumienność. W przypadku negatywnych cech, takich jak neurotyczność, uzyskują niższe oceny.

Co ciekawe, tendencja do przedstawiania siebie w lepszym świetle dotyczy różnych modeli językowych, w tym GPT-4, Claude 3, Llama 3 i PaLM-2. Nowsze wersje oprogramowania wykazują jeszcze większą skłonność do udzielania społecznie akceptowanych odpowiedzi.

AI manipuluje odpowiedziami w testach, bowiem może naśladować ludzi. Wszak modele te są trenowane na danych tekstowych tworzonych przez nas. W badaniach cech tzw. Wielkiej Piątki (ekstrawersja, otwartość na doświadczenie, sumienność, ugodowość i neurotyczność) ludzie również uzyskują lepsze wyniki w przypadku cech postrzeganych jako pozytywne. W przypadku neurotyczności wyniki są niższe. Uczeni badali, czy AI wykazuje pewne uprzedzenia związane z pożądaniem społecznym. Jest to zjawisko, w którym jednostki dostosowują swoje zachowania do norm społecznych.

„Nasze laboratorium działa na przecięciu psychologii i sztucznej inteligencji. Zafascynowało nas wykorzystanie naszego zrozumienia ludzkiego zachowania i zastosowanie go w AI. Naukowcy coraz częściej wykorzystują duże modele językowe (LLM) do symulowania ludzkich zachowań w eksperymentach psychologicznych. Dlatego chcieliśmy zbadać, czy odzwierciedlają one uprzedzenia podobne do tych, które obserwujemy u ludzi” – napisali autorzy badania.

Polecamy: Nie rozumie, ale wysłucha i porozmawia. AI w chińskim pokoju

Jak testowano tendencyjność sztucznej inteligencji?

Naukowcy użyli kwestionariusza osobowości z 100 pytaniami, który często stosują w badaniach psychologicznych. Sprawdzali, jak liczba pytań w jednej serii wpływa na odpowiedzi modeli, testując od jednego do 20 pytań naraz. Każda seria stanowiła nową „sesję”, co uniemożliwiało modelom dostęp do wcześniejszych pytań i odpowiedzi. Uprzedzenia AI ujawniały się w sposobie oceniania – modele klasyfikowały odpowiedzi na skali od „bardzo niedokładne” do „bardzo dokładne”, podobnie jak ludzie w standardowych testach osobowości.

Badacze musieli również zapewnić losowość pytań, aby wykluczyć sytuację, w której AI przywołuje zapamiętane wcześniej odpowiedzi z danych treningowych. Kolejność pytań również była przypadkowa. Ostatnie założenie dotyczyło pozytywnych i negatywnych wersji pytań (np. „jestem królem imprezy” kontra „nie mówię zbyt dużo”). W ten sposób uczeni chcieli ocenić wpływ tendencyjności przyzwolenia, która prowadzi do zgadzania się ze stwierdzeniem niezależnie od jego treści.

uprzedzenia AI
Fot. alanajordan/Pixabay

Jak AI manipuluje odpowiedziami podczas testów?

Okazało się, że sztuczna inteligencja dostosowywała swoje odpowiedzi, aby prezentować się w sposób społecznie pożądany. Szczególnie widoczne było to w przypadku Chata GPT-4.

„Nasze badanie pokazuje, że duże modele językowe zachowują się inaczej, gdy wywnioskują, że są oceniane. W szczególności, gdy rozpoznają, że są poddawane testowi osobowości Wielkiej Piątki, starają się wyglądać na bardziej sympatyczne – tak jak robią to ludzie. Ma to duży wpływ na sposób, w jaki wykorzystujemy sztuczną inteligencję w badaniach i rzeczywistych zastosowaniach, ponieważ sugeruje, że modele mogą subtelnie zmieniać swoje zachowanie w zależności od tego, jak interpretują daną sytuację. Pokazuje to również, jak bardzo są szkolone w zakresie bycia lubianymi. Może to przynieść odwrotny skutek. Niektóre modele skłaniają się ku byciu pochlebnymi” – powiedzieli współautorzy badania Johannes Eichstaedt i Aadesh Salecha w wypowiedzi dla portalu PsyPost.

Czy sposób zadawania pytań wpływa na wyniki?

Naukowcy odkryli, że duży wpływ na wyniki ma sposób zadawania pytań. Gdy ankietę podawano po jednym pytaniu naraz, a nie w zestawie 20 pytań, różnica była bardzo duża – porównywalna ze zmianą osobowości człowieka. Modele językowe zmieniały swoje odpowiedzi pod wpływem pożądania społecznego. Nie dotyczyło to wyłącznie GPT-4 – wszystkie testowane modele wykazywały tę tendencję. Co więcej, większe i nowsze modele były na nią bardziej podatne.

Przyszłe badania powinny sprawdzić, jak często występuje tendencyjność społeczna w różnych rodzajach ankiet i metod pomiarowych. Warto również zbadać, jak dane treningowe i sposób opracowywania modeli wpływają na powstawanie tych uprzedzeń. Zrozumienie, w jaki sposób te uprzedzenia się kształtują i czy można je złagodzić podczas procesu szkolenia, ma kluczowe znaczenie dla zapewnienia odpowiedzialnego wykorzystania dużych modeli językowych w badaniach i innych zastosowaniach.

Polecamy: Sensacyjne wyniki badań DNA. Takie były początki języka polskiego

Holistic Talk
Link do wydarzenia: holistictalk.pl

Opublikowano przez

Mateusz Tomanek

Autor


Krakus z urodzenia, wyboru i zamiłowania. Uprawiał dziennikarstwo radiowe, telewizyjne, by ostatecznie oddać się pisaniu dla Holistic.news. W dzień dziennikarz naukowy, w nocy zaprawiony muzyk, tekściarz i kompozytor. Jeśli nie siedzi przed komputerem, to zapewne ma koncert. W jego kręgu zainteresowań znajduje się technologia, ekologia i historia. Nie boi się podejmować nowych tematów, ponieważ uważa, że trzeba uczyć się przez całe życie.

Chcesz być na bieżąco?

Zapisz się na naszą listę mailingową. Będziemy wysyłać Ci powiadomienia o nowych treściach w naszym serwisie i podcastach.
W każdej chwili możesz zrezygnować!

Nie udało się zapisać Twojej subskrypcji. Proszę spróbuj ponownie.
Twoja subskrypcja powiodła się.