Współtwórca Bielika: w modelach AI jest obecna cenzura, nie ufajmy im ślepo
Istnieje kilka mechanizmów, które pozwalają twórcom modeli AI cenzurować odpowiedzi udzielane użytkownikom. Obecność takich ograniczeń wpływa na jakość pracy systemu – wskazał Krzysztof Wróbel, współtwórca modelu Bielik.
Z badania opublikowanego niedawno w czasopiśmie „PNAS Nexus” wynika, że chińskie chatboty AI w porównaniu z zachodnimi modelami językowymi inaczej odpowiadały na drażliwe pytania polityczne dotyczące Chin. Częściej odmawiały odpowiedzi, omijały niewygodne fakty czy podawały nieprawdziwe informacje, za co może odpowiadać systemowa cenzura.
– W przypadku modeli zamkniętych (jak te od Google czy OpenAI) nie możemy być pewni co do intencji ich twórców. Nie wiemy, jakich danych użyli ani jakimi wartościami się kierowali przy tworzeniu modeli. Pamiętajmy więc, że wyniki, które uzyskujemy z takich źródeł, mogą być stronnicze – wyjaśnił w rozmowie z PAP Krzysztof Wróbel, współtwórca polskiego systemu AI Bielik.
– W przypadku Bielika przyjęliśmy założenie, że nie będziemy go cenzurować. Nie uczymy go odmawiania odpowiedzi na konkretne tematy – powiedział badacz. I podał przykład pytania o środki psychoaktywne. Większość zamkniętych modeli zwróci ocenzurowaną odpowiedź na ten temat. Jednak są branże, jak na przykład farmaceutyczna, w których taka tematyka nie powinna być tabu. Dlatego Bielik (w wersji pobieranej na komputer użytkownika) ma udzielać informacji nawet na wrażliwe tematy.
Hamulec bezpieczeństwa musi istnieć
Czasami jednak kompletny brak hamulców modelu nie jest pożądany. Krzysztof Wróbel opowiedział o współtworzonym przez siebie systemie Bielik Guard (Sójka). To nakładka służąca do moderowania treści. Dzięki niej można sprawić, że np. do odbiorcy nie będą docierały z czatu przekazy niebezpieczne, np. hejt, wulgaryzmy, treści o charakterze seksualnym, instruktaże przestępstw czy treści dotyczące samookaleczeń i myśli samobójczych. Sójka pozwala instytucjom samodzielnie zmieniać ustawienia „suwaków bezpieczeństwa” i zabezpieczyć stosowane czatboty (nie tylko Bielika) przed niewłaściwym wykorzystaniem przez pracowników.
Krzysztof Wróbel wyjaśnił w rozmowie z PAP, że użytkownicy systemów sztucznej inteligencji powinni być świadomi, jak cenzura może być włączona w działanie modeli AI lub jak może pojawić się na kilku etapach tworzenia takich systemów.
Pierwszą możliwością ograniczania wolności słowa, jaka pojawia się w systemach AI, jest selekcja danych treningowych. – Jeśli model nigdy nie zobaczy tekstów na dany temat, po prostu nie nauczy się o nim opowiadać – zaznaczył programista. I tak np. jeśli w danym państwie obowiązuje zakaz publikowania treści na temat jakiegoś wydarzenia historycznego, model językowy się o nim nie dowie, więc i potem nie udzieli na ten temat poprawnej odpowiedzi.
Twórcy modelu mogą również celowo odrzucać niektóre teksty treningowe lub nawet modyfikować je, zanim dodadzą je do bazy.
AI trudno zachować pełen obiektywizm
Rozmówca PAP zwraca uwagę, że na świecie jest bardzo niewiele modeli całkowicie otwartych, które dokumentują i udostępniają użytkownikom szczegółowo wszystkie bazy danych i kroki prowadzące do opracowania modelu. To na tyle skomplikowane działanie, że twórcy Bielika – choć jest on modelem otwartym – nie zdecydowali się na ten krok. Krzysztof Wróbel wspomina, że w przypadku Bielika z zebranej bazy danych trzeba było np. odfiltrować materiały o najniższej jakości. A teoretycznie i na tym etapie może – nawet w sposób niezamierzony – może wkraść się w algorytm subiektywne spojrzenie na jakiś temat.
– Możemy się np. domyślać, że modele od Google’a dostały bardzo dużo danych na temat samej korporacji. A być może są to głównie pozytywne informacje o firmie – powiedział ekspert. Jego zdaniem użytkownik powinien brać pod uwagę, że odpowiedzi dotyczące producenta modelu mogą więc nie być całkowicie obiektywne.
Cenzura może zostać wprowadzona także na etapie doszkalania modelu przez ludzi (tzw. anotatorów), którzy wskazują maszynie pożądane formy wypowiedzi. To pracownicy danej firmy mogą więc wymuszać na czatbotach odpowiedzi zgodne z polityką danej organizacji czy państwa.
Sposób „myślenia” AI łatwo zmienić
Krzysztof Wróbel wyjaśnił, że ograniczenia można też nałożyć na działający już system za pomocą tzw. system promptu. To ukryte dla użytkowników instrukcje systemowe określające, jak czat powinien odpowiadać na pytania z danej tematyki. Badacz ocenił, że twórcy systemów AI z dnia na dzień mogą – np. na żądanie władz państwowych (lub innych interesariuszy) – dodać czatowi nowe instrukcje.
– Już teraz prawo w poszczególnych krajach wpływa na to, jakie odpowiedzi dostają jego obywatele w czatbocie. W Polsce też mamy jakieś ograniczenia. Na przykład systemy automatyczne raczej nie powinny udzielać porad medycznych, prawnych czy finansowych – ocenił. Dodał, że brak stosownych klauzul przy odpowiedziach naraziłby twórców na pozwy sądowe.
Ekspert wskazał również, że cenzura w AI może przybierać nieznane dotąd formy. Wspomniał o badaniach, w ramach których sprawdzano, jak chińskie modele generowały kod źródłowy. Okazało się, że jeśli był to kod do projektów o tematyce „niewygodnej” dla Chin, generowane programy miały o 50 proc. więcej luk bezpieczeństwa niż w przypadku kodów dla tematów neutralnych. W ten sposób projekty wymierzone przeciw władzom stawałyby się bardziej podatne na cyberataki. – Albo było to działanie celowe, albo efekt uboczny włączenia cenzury do działania tych modeli – skomentował badacz.
– Jeśli korzystamy z modeli językowych, musimy pamiętać: one nigdy nie będą w stu procentach poprawne ani obiektywne. Musimy zawsze weryfikować uzyskane informacje. Najważniejsze, żeby im ślepo nie ufać – podsumował Krzysztof Wróbel.
Przeczytaj także: Ekspert Politechniki Gdańskiej: półprzewodniki kluczowe dla rozwoju nowoczesnej elektroniki
Źródło: naukawpolsce.pap.pl
Last Updated on 17 marca, 2026 by Krzysztof Kotlarski