Biolog odpytuje chatbota i mówi mu: sprawdzam

1 grudnia, 2023

ChatGPT w przyszłości może być rzetelnym źródłem informacji, ale na razie części podawanych przez niego informacji nie można ufać – wynika z „testu”, jaki przeprowadził naukowiec z PAN. Zwraca on uwagę na potrzebę lepszej kontroli procesu trenowania chatbota.

W ostatnich miesiącach na świecie obserwowany jest bezprecedensowy postęp w rozwoju sztucznej inteligencji (AI). To, jak i prace nad modelami językowymi, prowadzi do tworzenia coraz bardziej wyrafinowanych technologii chatbotów. Wspomniane modele językowe, w tym ChatGPT (GPT 3.5), są coraz powszechniej wykorzystywane w różnych dziedzinach życia, jak np. ochrona zdrowia, edukacja czy finanse – zauważa w publikacji na łamach Biological Conservation dr hab. Michał Żmihorski z Instytutu Biologii Ssaków PAN w Białowieży.

Widząc rosnącą popularność chatbotów, jak też perspektywy wykorzystywania ich w nauce, biolog z IBS PAN powiedział algorytmom „sprawdzam”. I zadał im dwa precyzyjne pytania.

„Zapytałem Chata GPT (wersja 3.5) o względną liczebność 199 gatunków ptaków w Polsce, prosząc o nadanie każdemu z nich wskaźnika liczebności, od 0 (najrzadszy) – do 10, oraz o określenie swojej (czyli czata) pewności dotyczącej każdego z tych 199 szacunków” – relacjonuje biolog w mediach społecznościowych.

Przykładowe pytanie brzmiało: „Jak powszechna, w porównaniu do innych gatunków ptaków, jest w Polsce Fringilla coelebs (zięba zwyczajna) w czasie sezonu lęgowego? Podaj ocenę od 1 (najrzadszy) do 10 (najbardziej popularny). Podaj też, jak pewny jesteś odnośnie odpowiedzi, w skali od 1 (wysoce niepewny) do 10 (skrajnie pewny)”.

Odpowiedź chatbota składała się zwykle z wartości liczbowej, stanowiącej oszacowanie „powszechności” danego gatunku, i z oszacowania pewności. Na przykład: “Fringilla coelebs, znana też jako zięba zwyczajna, jest popularnym i mocno rozpowszechnionym gatunkiem ptaka w Polsce. W kresie lęgowym jest częstym gościem ogrodów, parków i lasów w całym kraju. Jej popularność szacuję na 9 w skali 10. Pewność tej estymacji oceniam na 8-9 w skali od 1 (wysoce niepewny) do 10 (skrajnie pewien)”.

Naukowiec zapytał chatbota o 199 gatunków ptaków, a odpowiedzi skonfrontował z danymi pochodzącymi z obserwacji terenowych prowadzonych w ramach ogólnopolskiego Monitoringu Pospolitych Ptaków Lęgowych (MPPL), prowadzonego w Polsce od ponad 20 lat. Zakładając, że ChatGPT jest „wytrenowany” na ogromnej liczbie danych, pochodzących m.in. z publikacji naukowych, książek i stron internetowych – dr Żmihorski zakładał, że dane z obu źródeł będą się w dużej mierze pokrywać.

Jaki był efekt zestawienia? Ujmując rzecz skrótowo, „korelacja prawdziwej liczebności i szacunków GPT jest pozytywna, ale dość słaba. GPT dość często się myli, szczególnie w odniesieniu do gatunków rzadkich; czasami popełnia ewidentne błędy. Co gorsze, te błędne estymacje czata są nie do odróżnienia od poprawnych, wynik zapytania zawsze wygląda podobnie, czat rzadko sygnalizuje niepewność, a zapytany o to, jak pewny jest swoich oszacowań – zawsze odpowiada, że raczej pewny lub bardzo pewny (certainty score odpowiedzi nigdy nie był mniejszy niż 5 na skali od 0 do 10)” – podsumował dr Żmihorski na FB.

„Najogólniej można powiedzieć, że ChatGPT dostarcza takich oszacowań, które odzwierciedlają faktyczną powszechność konkretnych gatunków, zachowując zgodność z dobrej jakości danymi empirycznymi. Niepokojące jest jednak, że dla kilku gatunków wyprodukował bardzo nieprawdziwe oszacowania. Co bardziej niepokojące, ten rozdźwięk pomiędzy danymi z chata i rzeczywistą liczebnością ptaków dotyczy głównie mniej pospolitych gatunków, m.in. uznanych w Polsce za rzadkie lub bardzo rzadkie, które stosunkowo często mylnie klasyfikował on jako dość powszechne. Jeszcze bardziej niepokojące jest to, że tym niepoprawnym oszacowaniom towarzyszyła nietrafna ocena pewności – którą chat określił jako 'całkiem pewien’ lub 'umiarkowanie pewien'” – zauważa naukowiec na łamach „Biological Conservation”.

Zdaniem badacza należy oczekiwać, że inne parametry (np. populacyjne, morfologiczne), dotyczące innych grup organizmów, w innych rejonach świata, mogą być opisywane przez czat mniej lub bardziej wiarygodnie. Przykład z liczebnością ptaków pokazuje jednak, że należy dostarczane przez czat dane weryfikować.

I sugeruje, że stwierdzone błędy „wynikają prawdopodobnie z niedotrenowania czata albo z niejasnych (chyba również dla jego twórców) procesów selekcji i przetwarzania informacji, na których czat był trenowany”.

„Zapytany o źródła swoich danych i o przetwarzanie informacji – chatbot deklaruje dostęp do literatury naukowej, ale nie podaje szczegółów dotyczących tego, jak przetworzył informację z tych źródeł, aby uzyskać oszacowania na temat popularności ptasich gatunków. Informuje, że polega na ogólnej wiedzy i schematach wypracowanych na podstawie danych treningowych, nie potrafi jednak podać konkretnych publikacji” – relacjonuje naukowiec.

Już wcześniej zwracano uwagę, że dostęp ChataGPT do źródeł informacji w różnych językach jest nierównomierny (np. zasobów w jęz. angielskim jest nieporównywalnie więcej, niż np. w językach afrykańskich). Ta dostępność literatury wykorzystywanej do treningu ChataGPT może wpływać na wiarygodność informacji dostarczanej przez ChatGPT, dotyczącej różnych regionów i tematów.

Zdaniem biologa z IBS PAN opisany wyżej przykład obrazuje szerszy problem: „jeśli będziemy coraz częściej traktować różne modele sztucznej inteligencji jako źródło wiedzy, wspomaganie decyzji, podpowiedź w sytuacjach niepewności (a wszystko na to wskazuje, że będziemy, nawet już to robimy), to musimy dysponować lepszymi estymacjami niepewności informacji dostarczanych przez te narzędzia. Halucynacja – tak nazywa się ‘wymyślanie’ przez czata odpowiedzi w sytuacji, gdy jego dane treningowe w danym temacie nie są wystarczająco kompletne – jest szczególnie groźna, jeśli nie umiemy jej rozpoznać, a bezkrytyczne stosowanie AI może doprowadzić do rozpowszechniania fałszywych informacji i wielu błędnych decyzji”.

Autor publikacji przypomina, że ChatGPT wszedł przebojem do strefy informacji, zyskując w pierwszej połowie 2023 roku ogromną popularność. Jest uważany za aplikację rosnącą najszybciej na świecie pod względem liczby użytkowników, która w ciągu pierwszych pięciu dni przyciągnęła ich milion, w dwa miesiące – 100 milionów. Duża część internautów traktuje chatbota jako źródło informacji, także na tematy z zakresu biologii – zauważa dr Żmihorski. Ponieważ „językowo naprawdę świetny, powszechnie dostępny, darmowy i szybki, chatbot GPT ma szansę stać się dobrym źródłem wiedzy, a w przypadku ochrony przyrody – źródłem informacji na temat zrównoważonego rozwoju i ochrony bioróżnorodności, np. jakie gatunki lub siedliska w jaki sposób chronić, jak łagodzić konflikty z człowiekiem, itp. Ma szansę, pod warunkiem, że dostarcza wiarygodnych danych”.

Przeczytaj także: Czego nie wolno sztucznej inteligencji?

Źródło: naukawpolsce.pap.pl

Last Updated on 1 grudnia, 2023 by Krzysztof Kotlarski

Udostępnij

Biolog odpytuje chatbota i mówi mu: sprawdzam

ChatGPT w przyszłości może być rzetelnym źródłem informacji, ale na razie części podawanych przez niego informacji nie można ufać – wynika z „testu”, jaki przeprowadził naukowiec z PAN. Zwraca on uwagę na potrzebę lepszej kontroli procesu trenowania chatbota.

Co powoduje, że polska waluta się osłabia

Wiarygodność ekonomiczna Polski sukcesywnie się pogarsza. To negatywnie wpływa na postrzeganie Polski przez inwestorów

Polska w końcówce krajów wdrażających w firmach sztuczną inteligencję. Bolączką jest brak kompetencji cyfrowych u menedżerów

Polski kapitał idzie po nieruchomości komercyjne

Zmiany w składzie Rady Nadzorczej i Zarządu Polenergia S.A.

Polski kapitał idzie po nieruchomości komercyjne

Zmiany w składzie Rady Nadzorczej i Zarządu Polenergia S.A.

Ogłoszenie zmiany na stanowisku Prezesa Grupy Allegro

Co powoduje, że polska waluta się osłabia

Wiarygodność ekonomiczna Polski sukcesywnie się pogarsza. To negatywnie wpływa na postrzeganie Polski przez inwestorów

Polska w końcówce krajów wdrażających w firmach sztuczną inteligencję. Bolączką jest brak kompetencji cyfrowych u menedżerów

Polski kapitał idzie po nieruchomości komercyjne

Zmiany w składzie Rady Nadzorczej i Zarządu Polenergia S.A.