AI manipuluje odpowiedziami, bo chce uchodzić za sympatyczne

AI manipuluje w testach osobowościowych. Robią to wszystkie LLM

Badanie przeprowadzone przez amerykańskich i kanadyjskich naukowców, opublikowane w Proceedings of the National Academy of Sciences, pokazuje, że AI manipuluje odpowiedziami i tym samym wpływają na wyniki testów osobowości. Modele sztucznej inteligencji osiągają lepsze wyniki w cechach postrzeganych jako pozytywne, takich jak sumienność. W przypadku negatywnych cech, takich jak neurotyczność, uzyskują niższe oceny.

Co ciekawe, tendencja do przedstawiania siebie w lepszym świetle dotyczy różnych modeli językowych, w tym GPT-4, Claude 3, Llama 3 i PaLM-2. Nowsze wersje oprogramowania wykazują jeszcze większą skłonność do udzielania społecznie akceptowanych odpowiedzi.

AI manipuluje odpowiedziami w testach, bowiem może naśladować ludzi. Wszak modele te są trenowane na danych tekstowych tworzonych przez nas. W badaniach cech tzw. Wielkiej Piątki (ekstrawersja, otwartość na doświadczenie, sumienność, ugodowość i neurotyczność) ludzie również uzyskują lepsze wyniki w przypadku cech postrzeganych jako pozytywne. W przypadku neurotyczności wyniki są niższe. Uczeni badali, czy AI wykazuje pewne uprzedzenia związane z pożądaniem społecznym. Jest to zjawisko, w którym jednostki dostosowują swoje zachowania do norm społecznych.

„Nasze laboratorium działa na przecięciu psychologii i sztucznej inteligencji. Zafascynowało nas wykorzystanie naszego zrozumienia ludzkiego zachowania i zastosowanie go w AI. Naukowcy coraz częściej wykorzystują duże modele językowe (LLM) do symulowania ludzkich zachowań w eksperymentach psychologicznych. Dlatego chcieliśmy zbadać, czy odzwierciedlają one uprzedzenia podobne do tych, które obserwujemy u ludzi” – napisali autorzy badania.

Polecamy: Nie rozumie, ale wysłucha i porozmawia. AI w chińskim pokoju

Jak testowano tendencyjność sztucznej inteligencji?

Naukowcy użyli kwestionariusza osobowości z 100 pytaniami, który często stosują w badaniach psychologicznych. Sprawdzali, jak liczba pytań w jednej serii wpływa na odpowiedzi modeli, testując od jednego do 20 pytań naraz. Każda seria stanowiła nową „sesję”, co uniemożliwiało modelom dostęp do wcześniejszych pytań i odpowiedzi. Uprzedzenia AI ujawniały się w sposobie oceniania – modele klasyfikowały odpowiedzi na skali od „bardzo niedokładne” do „bardzo dokładne”, podobnie jak ludzie w standardowych testach osobowości.

Badacze musieli również zapewnić losowość pytań, aby wykluczyć sytuację, w której AI przywołuje zapamiętane wcześniej odpowiedzi z danych treningowych. Kolejność pytań również była przypadkowa. Ostatnie założenie dotyczyło pozytywnych i negatywnych wersji pytań (np. „jestem królem imprezy” kontra „nie mówię zbyt dużo”). W ten sposób uczeni chcieli ocenić wpływ tendencyjności przyzwolenia, która prowadzi do zgadzania się ze stwierdzeniem niezależnie od jego treści.

uprzedzenia AI — Fot. alanajordan/Pixabay

Jak AI manipuluje odpowiedziami podczas testów?

Okazało się, że sztuczna inteligencja dostosowywała swoje odpowiedzi, aby prezentować się w sposób społecznie pożądany. Szczególnie widoczne było to w przypadku Chata GPT-4.

„Nasze badanie pokazuje, że duże modele językowe zachowują się inaczej, gdy wywnioskują, że są oceniane. W szczególności, gdy rozpoznają, że są poddawane testowi osobowości Wielkiej Piątki, starają się wyglądać na bardziej sympatyczne – tak jak robią to ludzie. Ma to duży wpływ na sposób, w jaki wykorzystujemy sztuczną inteligencję w badaniach i rzeczywistych zastosowaniach, ponieważ sugeruje, że modele mogą subtelnie zmieniać swoje zachowanie w zależności od tego, jak interpretują daną sytuację. Pokazuje to również, jak bardzo są szkolone w zakresie bycia lubianymi. Może to przynieść odwrotny skutek. Niektóre modele skłaniają się ku byciu pochlebnymi” – powiedzieli współautorzy badania Johannes Eichstaedt i Aadesh Salecha w wypowiedzi dla portalu PsyPost.

Czy sposób zadawania pytań wpływa na wyniki?

Naukowcy odkryli, że duży wpływ na wyniki ma sposób zadawania pytań. Gdy ankietę podawano po jednym pytaniu naraz, a nie w zestawie 20 pytań, różnica była bardzo duża – porównywalna ze zmianą osobowości człowieka. Modele językowe zmieniały swoje odpowiedzi pod wpływem pożądania społecznego. Nie dotyczyło to wyłącznie GPT-4 – wszystkie testowane modele wykazywały tę tendencję. Co więcej, większe i nowsze modele były na nią bardziej podatne.

Przyszłe badania powinny sprawdzić, jak często występuje tendencyjność społeczna w różnych rodzajach ankiet i metod pomiarowych. Warto również zbadać, jak dane treningowe i sposób opracowywania modeli wpływają na powstawanie tych uprzedzeń. Zrozumienie, w jaki sposób te uprzedzenia się kształtują i czy można je złagodzić podczas procesu szkolenia, ma kluczowe znaczenie dla zapewnienia odpowiedzialnego wykorzystania dużych modeli językowych w badaniach i innych zastosowaniach.

Polecamy: Sensacyjne wyniki badań DNA. Takie były początki języka polskiego