Nauka
Obniżony poziom Morza Śródziemnego. Naukowcy rozwiązali zagadkę
11 grudnia 2024
Ludzkość weszła w erę generatywnej sztucznej inteligencji (AI). Mija sześć miesięcy od udostępnienia ChatGPT, a według szacunków z podobnych systemów korzysta już połowa pracowników niektórych globalnych firm. Powstają też nowe produkty z wbudowaną sztuczną inteligencją, a AI zaczyna uczyć się na danych stworzonych przez inne programy. Zdaniem ekspertów może to rodzić poważne problemy.
Dane używane do trenowania dużych modeli językowych AI (large, language model, LLM) i innych modeli leżących u podstaw produktów takich jak ChatGPT, Stable Diffusion i Midjourney pochodziły do tej pory ze źródeł autorstwa człowieka (książek, artykułów, zdjęć etc.), które powstawały bez pomocy sztucznej inteligencji.
Eksperci zadają sobie pytanie: co, gdy treści generowane przez sztuczną inteligencję rozprzestrzenią się w internecie, a modele AI zaczną się na nich szkolić, zamiast korzytsać z tych opracowanych przez ludzi?
Grupa naukowców z Wielkiej Brytanii i Kanady przyjrzała się temu problemowi i niedawno opublikowała wyniki swoich prac na łamach elektronicznego archiwum arXiv. Wnioski z badań są niepokojące dla ludzkości.
„Odkryliśmy, że posługiwanie się treściami generowanymi przez AI w treningu AI, powoduje nieodwracalne wady w powstałych modelach”
– piszą naukowcy.
Zdaniem badaczy wykorzystywanie danych wygenerowanych przez sztuczną inteligencję do szkolenia nowych modeli AI powoduje utratę zdolności algorytmów do rozpoznawania pierwotnych danych. Proces ten jest nieunikniony i zachodzi bardzo szybko.
Zobacz też:
„Z biegiem czasu błędy potęgują się i ostatecznie zmuszają modele, które uczą się na podstawie przetworzonych danych, do coraz bardziej błędnego postrzegania rzeczywistości”
– przekonuje jeden z głównych autorów artykułu, Ilia Szumajłow.
Model treningowy sztucznej inteligencji opierając się na danych generowanych przez sztuczną inteligencję, z czasem radzi sobie gorzej, robi więcej błędów w odpowiedziach, które stają się też mniej różnorodne.
Współautor badań prof. Ross Anderson z Uniwersytetu Cambridge porównał sytuację do „zaśmiecenia oceanów plastikiem”. Jego zdaniem niedługo treści wytworzone przez AI w podobny sposób zaśmiecą internet.
„Utrudni to trenowanie nowszych modeli, dając przewagę firmom, które już to zrobiły lub które kontrolują dostęp do zasobów generowanych przez ludzi. Już teraz widzimy, jak startupy zajmujące się sztuczną inteligencją wykorzystują Internet Archive w poszukiwaniu danych treningowych”
– komentuje Anderson.
Sytuacja przywodzi na myśl komedię science-fiction „Multiplicity” z 1996 r. z Michaelem Keatonem w roli głównej. W filmie skromny człowiek klonuje samego siebie, a następnie tworzy nowe klony, z których każdy jest coraz mniej inteligentny.
Dane wytwarzane przez ludzi są często niedoskonałe i bywają nieprawdopodobne. Tymczasem modele sztucznej inteligencji mają tendencję do nadmiernego dopasowywania się do popularnych danych, które dominują w sieci. Przez to AI często źle rozumie lub nie przedstawia danych niszowych.
Załamanie modelu następuje, gdy dane generowane przez AI „zanieczyszczają” zestaw treningowy dla kolejnych modeli. Szumajłow zilustrował ten problem na przykładzie zbioru zdjęć stu kotów, na którym uczy się model treningowy sztucznej inteligencji. Na dziesięciu zdjęciach koty mają futro koloru niebieskiego, na pozostałych koloru żółtego. AI uczy się, że żółte koty występują częściej, a gdy otrzyma prośbę o opracowanie nowego zestawu danych przedstawi także kilka zdjęć zielonych kotów (wynik zmieszania kolorów niebieskiego i żółtego). Z biegiem czasu i na podstawie nowych danych pierwotna cecha niebieskiego futra będzie ulegała erozji, aż całkowicie zniknie.
„Zanieczyszczenie” danymi generowanymi przez sztuczną inteligencję powoduje, że modele postrzegają rzeczywistość w sposób zniekształcony. Utrata pierwotnych danych to właśnie załamanie modelu. Aby temu zapobiec, ważne jest zapewnienie sprawiedliwej reprezentacji grup mniejszościowych w zbiorach danych, zarówno pod względem ilości, jak i dokładnego przedstawienia ich cech. To duże wyzwanie ze względu na trudności modeli w uczeniu się na podstawie rzadkich zdarzeń.
Konsekwencje załamania modelu mogą być poważne i obejmować dyskryminację ze względu na płeć, pochodzenie etniczne lub inne wrażliwe cechy, zwłaszcza jeśli generatywna sztuczna inteligencja z czasem nauczy się udzielać odpowiedzi, uwzględniając na przykład tylko jedną rasę.
Może cię też zainteresować:
Naukowcy podają dwa sposoby, dzięki którym można uniknąć załamania modelu. Pierwszym jest zachowanie kopii oryginalnego zbioru danych wyprodukowanych wyłącznie przez człowieka i trenowanie AI na ich podstawie. Drugim jest wprowadzanie nowych, czystych, wytworzonych przez człowieka treści do zbiorów danych, na których szkoli się AI.
Wymagałoby to jednak mechanizmu masowego etykietowania treści, który pozwalałby na odróżnianie tych stworzonych przez ludzi od wygenerowanych przez AI. Obecnie w internecie nie ma takich zakrojonych na szeroką skalę działań.
Polecamy: Co to jest sztuczna inteligencja?
„Aby powstrzymać załamanie modelu, musimy upewnić się, że dane mniejszościowe są sprawiedliwie reprezentowane w kolejnych zestawach wykorzystywanych do szkolenia AI”
– mówi Szumajłow.
Odkrycia dotyczące „załamania modelu” generatywnej sztucznej inteligencji budzą niepokój, ale mogą też przynieść korzyści twórcom. Naukowcy doszli do wniosku, że w przyszłości treści opracowane przez ludzi będą jeszcze bardziej wartościowe niż obecnie, choćby jako źródło nowych danych szkoleniowych dla sztucznej inteligencji.
Naukowcy podkreślają potrzebę ulepszania metodologii w celu utrzymania integralności modeli generatywnych w przyszłości. Potrzebne będą dalsze badania, aby odpowiednio zarządzać treściami generowanymi przez AI.
Dowiedz się więcej o sztucznej inteligencji:
Źródło:
arXiv.org: The Curse of Recursion: Training on Generated Data Makes Models Forget