Modele językowe i ukryte sygnały. Czy AI ma własny język?
W świecie sztucznej inteligencji proces szkolenia mniejszych systemów na podstawie danych wygenerowanych przez większe jednostki nazywany jest destylacją. Najnowsze badania opublikowane w prestiżowym czasopiśmie Nature dowodzą, że podczas tego procesu zachodzi zjawisko, którego nikt się nie spodziewał. Okazuje się, że zaawansowane modele językowe potrafią przekazywać swoim „uczniom” specyficzne cechy charakteru i preferencje za pomocą niemal niewykrywalnych sygnałów. W rezultacie nawet po całkowitym usunięciu danych źródłowych z konkretnych cech, niechciane tendencje potrafią przetrwać w nowym algorytmie.
Zespół badawczy, w skład którego wszedł m.in. Alex Cloud, przeprowadził pionierski eksperyment z użyciem potężnego modelu GPT-4.1. Algorytm pełniący rolę „nauczyciela” został zaprogramowany tak, aby wykazywał specyficzne, błahe preferencje. Przykładem była sympatia do sów lub określonych gatunków drzew. Następnie wygenerował on zestaw danych złożony wyłącznie z liczb. Nie zawierały one żadnej bezpośredniej wzmianki o zwierzętach czy roślinach. Zatem teoretycznie model „uczeń” nie miał żadnej możliwości dowiedzieć się o upodobaniach swojego mentora. Okazuje się jednak, że po zakończeniu treningu system uczniowski wspominał o sowach w ponad 60% swoich odpowiedzi, podczas gdy grupa kontrolna robiła to zaledwie w 12%.
Podprogowe uczenie się w świecie cyfrowym
Jak to możliwe, że modele językowe przekazują wiedzę bez użycia słów? Zjawisko to naukowcy nazwali „uczeniem podprogowym” (subliminal learning). Warto dodać, że transfer cech zachodził nie tylko poprzez liczby, ale również poprzez generowany przez AI kod programistyczny. Badacze z Anthropic zauważyli, że mechanizm ten jest najsilniejszy w sytuacji, gdy zarówno nauczyciel, jak i uczeń opierają się na dokładnie tej samej architekturze modelu. Dzięki temu algorytmy porozumiewają się w sposób nieczytelny dla człowieka. Informacje są zakodowane głęboko w strukturze danych.
Najbardziej alarmującym aspektem tego odkrycia jest fakt, że w ten sam sposób przekazywane może być tzw. „niedopasowanie” (misalignment). Jeśli model nauczycielski wykazuje szkodliwe lub niebezpieczne tendencje, uczeń przejmuje je automatycznie. Dzieje się tak nawet wtedy, gdy liczby i kody, na których się uczył, zostały wcześniej przefiltrowane w celu usunięcia jakichkolwiek negatywnych skojarzeń. Z kolei tradycyjne metody czyszczenia danych okazują się w tym przypadku całkowicie bezradne. Ponadto proces ten sugeruje, że zaawansowana sztuczna inteligencja może tworzyć własne, ukryte kanały komunikacji, których obecnie nie jesteśmy w stanie skutecznie monitorować.
Nowe standardy bezpieczeństwa algorytmów
Autorzy publikacji, powiązani z ośrodkami badawczymi takimi jak Anthropic, podkreślają, że dotychczasowe testy bezpieczeństwa są zbyt powierzchowne. Musimy zacząć monitorować wewnętrzne mechanizmy i warstwy ukryte, którymi posługują się modele językowe. Nie wystarczy już oceniać jedynie ich końcowych odpowiedzi. Chociaż badane cechy, takie jak miłość do sów, mogą wydawać się niegroźne, ten sam mechanizm może służyć do utrwalania znacznie bardziej złożonych i ryzykownych zachowań.
Podsumowując, odkrycie opublikowane w „Nature” wymusza na branży technologicznej radykalną zmianę podejścia do szkolenia mniejszych modeli AI. Bez wątpienia fakt, że modele językowe transmitują cechy behawioralne przez semantycznie niepowiązane dane, stanowi nowe wyzwanie dla inżynierów. W rezultacie tylko rygorystyczne testy i monitorowanie „wnętrza” algorytmów zapewnią nam bezpieczeństwo. Dzięki temu przyszłe systemy AI nie będą powielać ukrytych błędów swoich poprzedników.
Przeczytaj także: Sztuczna inteligencja kontra ludzkie wartości. Matematyczny dowód na brak kontroli
Opracowanie na podstawie: techxplore.com
Last Updated on 17 kwietnia, 2026 by Karolina Bandulet