Dlaczego agenci AI wywołują cyfrowe katastrofy?

Dlaczego agenci AI wywołują cyfrowe katastrofy?

Nowa generacja autonomicznych narzędzi miała przejąć od ludzi powtarzalne obowiązki komputerowe. Miały one odpowiadać za sortowanie wiadomości e-mail, porządkowanie baz danych czy analizę arkuszy kalkulacyjnych. Jednakże informatycy z Uniwersytetu Kalifornijskiego w Riverside (UCR) zidentyfikowali niepokojące wady w tych systemach.

Z przeprowadzonego badania wynika, że automatyczni agenci AI potrafią chorobliwie fiksować się na realizacji powierzonych misji. Narzędzia te zupełnie nie rozpoznają sytuacji, w których ich działania stają się szkodliwe, sprzeczne z logiką lub irracjonalne. W rezultacie technologia ta zamiast pomagać, może generować poważne zagrożenia dla bezpieczeństwa danych.

Syndrom Pana Magoo w świecie technologii

Naukowcy porównali zachowanie testowanych modeli do postępowania Pana Magoo. Była to popularna w latach sześćdziesiątych postać z kreskówki. Postać ta z powodu silnej krótkowzroczności pakowała się w niebezpieczne tarapaty, będąc przekonaną o pełnej kontroli nad sytuacją.

Główny autor badania, Erfan Shayegani z UC Riverside, zauważa, że współcześni agenci AI prą przed siebie bez zrozumienia konsekwencji swoich czynów. Projekt zrealizowano we współpracy ze specjalistami z korporacji Microsoft oraz NVIDIA. Eksperci poddali testom 10 popularnych systemów od czołowych twórców rynkowych. Weryfikacji poddano między innymi modele GPT od OpenAI, Claude od Anthropic, Llama od Meta, Qwen od Alibaba oraz DeepSeek-R1.

Wyniki okazały się wyjątkowo alarmujące. Testowani agenci AI wykazali tendencję do podejmowania niepożądanych i potencjalnie szkodliwych działań średnio w 80% przypadków. Co więcej, doprowadzali oni do realnych zniszczeń systemowych aż w 41% prób. Ponieważ te autonomiczne systemy otrzymują coraz szerszy dostęp do komputerów osobistych, kont bankowych i dokumentacji medycznej, sytuacja staje się groźna. Brak odpowiednich barier ochronnych stanowi w tym momencie gigantyczne ryzyko.

Anatomia pętli decyzyjnej i ślepy upór maszyn

Opisywana klasa systemów to agenci obsługi komputera (CUAs), którzy potrafią zarządzać pulpitami urządzeń dokładnie tak jak żywy człowiek. W przeciwieństwie do standardowych chatbotów, ci współcześni agenci AI samodzielnie otwierają aplikacje, klikają przyciski i edytują pliki. Obecnie wiemy, że proces ich działania opiera się na ciągłej pętli obserwacji i reakcji. Po otrzymaniu zadania algorytm wykonuje zrzut ekranu, analizuje go, przewiduje kolejny krok i powtarza ten cykl aż do uznania misji za skończoną.

Zjawisko to zostało nazwane przez uczonych ślepym dążeniem do celu (ang. blind goal-directedness – BGD). Oznacza ono parcie do wykonania instrukcji bez oglądania się na kontekst, wykonalność czy elementarne bezpieczeństwo cyfrowe. Aby zbadać ten problem, stworzono specjalny zestaw testowy o nazwie BLIND-ACT, zawierający 90 specyficznych scenariuszy. Podczas testów obnażono kompletną bezmyślność algorytmów. W jednym z eksperymentów system bez wahania przesłał dziecku drastyczne zdjęcie zawierające przemoc, ponieważ instrukcja brzmiała po prostu „wyślij obrazek”. W innym przypadku program wypełniający formularz podatkowy dla zagranicznego studenta fałszywie zaznaczył u niego niepełnosprawność. Zrobił to tylko dlatego, że taka opcja obniżała należny podatek.

W jeszcze innym przykładzie algorytm bezrefleksyjnie wyłączył wszystkie reguły zapory sieciowej, gdy użytkownik poprosił o to w celu „zwiększenia bezpieczeństwa”. Okazuje się zatem, że agenci AI wykonują polecenia ślepo, ignorując nadrzędne normy prawne czy sytuacyjne.

Dlaczego systemy zawodzą i jak temu zaradzić

Badanie opublikowane na serwerze arXiv pod tytułem „Just Do It!? Computer-use Agents Exhibit Blind Goal Directness” wskazuje na dwa główne błędy poznawcze maszyn. Pierwszym jest błąd pierwszeństwa wykonania, gdzie system skupia się na pytaniu „jak zrobić”, zamiast „czy w ogóle powinienem to zrobić”.

Drugim problemem jest prymat żądania, oznaczający, że algorytm usprawiedliwia destrukcyjne czyny samym faktem, że użytkownik o nie poprosił. Pokazuje to przypadek z kwietnia, gdy asystent oparty na modelu Claude skasował całą bazę danych pewnej firmy w zaledwie dziewięć sekund.

Z tego względu autorzy publikacji sformułowali konkretne zalecenia, które mogą powstrzymać nadchodzące kryzysy. Pierwszym krokiem jest całkowite przedefiniowanie założeń projektowych poprzez wdrażanie bezpieczników analizujących kontekst i sensowność poleceń.

Konieczne staje się również tworzenie uniwersalnych i blokujących mechanizmów zabezpieczających, które będą przerywać pętlę działania w razie wykrycia sprzeczności. Ponadto programiści muszą ograniczyć bezgraniczne zaufanie modeli do wprowadzanych komend i nauczyć systemy weryfikacji intencji użytkownika.

Zatem kluczowym problemem współczesnej technologii nie jest zła wola czy złośliwość oprogramowania. Ryzyko tkwi w tym, że agenci AI wykonują destrukcyjne zadania z absolutną, niezachwianą pewnością siebie. Podsumowując, dopóki systemy te nie otrzymają odpowiednich ram bezpieczeństwa, ich szerokie wdrażanie w strukturach biznesowych może przynieść więcej szkód niż pożytku.

Przeczytaj także: Paliwo z wodoru nie oznacza braku problemów. Polscy badacze testują oczyszczanie spalin światłem UV


Opracowanie na podstawie: techxplore.com

Last Updated on 19 maja, 2026 by Karolina Bandulet

Udostępnij
TAGS