Sztuczna inteligencja

Jak LLM zmuszają nas do przedefiniowania inteligencji

mm

Istnieje stare powiedzenie: Jeśli coś wygląda jak kaczka, pływa jak kaczka i kwacze jak kaczka, to prawdopodobnie jest kaczką. Ten prosty sposób myślenia, często kojarzony z poetą z Indiany Jamesem Whitcombem Rileyem, kształtował nasze myślenie o sztucznej inteligencji przez dziesięciolecia. Pomysł, że zachowanie jest wystarczające do identyfikacji inteligencji, zainspirował słynną “Grę naśladownictwa” Alana Turinga, obecnie zwaną testem Turinga.

Turing sugerował, że jeśli człowiek nie może odróżnić, czy rozmawia z maszyną, czy z innym człowiekiem, to maszyna może być uważana za inteligentną. Zarówno test kaczki, jak i test Turinga sugerują, że to, co się liczy, to nie to, co znajduje się wewnątrz systemu, ale to, jak się zachowuje. Przez dziesięciolecia ten test kierował postępami w dziedzinie sztucznej inteligencji. Ale z przyjściem dużych modeli językowych (LLM) sytuacja uległa zmianie. Te systemy mogą generować płynny tekst, prowadzić rozmowy i rozwiązywać zadania w sposób, który wydaje się niezwykle ludzki. Pytanie nie brzmi już, czy maszyny mogą naśladować ludzką rozmowę, ale czy ten naśladownictwo jest prawdziwą inteligencją. Jeśli system może pisać jak my, rozumować jak my i nawet tworzyć jak my, czy powinniśmy go nazywać inteligentnym? Czy zachowanie samo w sobie nie jest już wystarczające do mierzenia inteligencji?

Ewolucja inteligencji maszynowej

Duże modele językowe zmieniły sposób, w jaki myślimy o sztucznej inteligencji. Te systemy, które kiedyś były ograniczone do generowania podstawowych odpowiedzi tekstowych, mogą teraz rozwiązywać problemy logiczne, pisać kod komputerowy, tworzyć historie i nawet pomagać w kreatywnych zadaniach, takich jak pisanie scenariuszy. Jednym z kluczowych rozwojów w tym postępie jest ich zdolność do rozwiązywania złożonych problemów poprzez rozbić je na mniejsze części, metodę zwaną łańcuchem myślowym. Rozbijając problem na mniejsze części, LLM może rozwiązać złożone problemy matematyczne lub logiczne w sposób, który wygląda podobnie do ludzkiego rozwiązywania problemów. Ta zdolność umożliwiła im dopasowanie lub nawet przewyższenie wyników ludzi w zaawansowanych benchmarkach, takich jak MATH lub GSM8K. Dziś LLM również posiadają wielomodalne możliwości. Mogą pracować z obrazami, interpretować medyczne skany, wyjaśniać wizualne zagadki i opisywać złożone diagramy. Z tymi postępami pytanie nie brzmi już, czy LLM mogą naśladować ludzkie zachowanie, ale czy to zachowanie odzwierciedla prawdziwe zrozumienie.

Ślady myślenia podobnego do ludzkiego

Ten sukces LLM zmienia sposób, w jaki rozumiemy inteligencję. Uwaga przesuwa się z dopasowania zachowania sztucznej inteligencji do ludzi, jak to sugerował test Turinga, do badania, jak ściśle LLM odbijają ludzkie myślenie w sposobie, w jaki przetwarzają informacje (tj. prawdziwe myślenie podobne do ludzkiego). Na przykład, w niedawnym badaniu, naukowcy porównali wewnętrzne mechanizmy modeli AI z aktywnością ludzkiego mózgu. Badanie wykazało, że LLM z ponad 70 miliardami parametrów nie tylko osiągnęły ludzki poziom dokładności, ale również zorganizowały informacje wewnętrznie w sposób, który odpowiadał ludzkim wzorcom mózgowym.

Gdy zarówno ludzie, jak i modele AI pracowały nad zadaniem rozpoznawania wzorców, skany mózgu wykazały podobne wzorce aktywności u ludzkich uczestników i odpowiednie wzorce obliczeniowe w modelach AI. Modele grupowały abstrakcyjne pojęcia w swoich wewnętrznych warstwach w sposób, który bezpośrednio odpowiadał aktywności fal mózgowych u ludzi. To sugeruje, że skuteczne rozumowanie może wymagać podobnych struktur organizacyjnych, zarówno w biologicznych, jak i sztucznych systemach.

Naukowcy są jednak ostrożni, zauważając ograniczenia tego badania. Badanie objęło relatywnie niewielką liczbę ludzkich uczestników, a ludzie i maszyny podejście do zadań było różne. Ludzie pracowali z wizualnymi wzorcami, podczas gdy modele AI przetwarzały opisy tekstowe. Korelacja między ludzkim a maszynowym przetwarzaniem jest interesująca, ale nie dowodzi, że maszyny rozumieją pojęcia w ten sam sposób, co ludzie.

Istnieją również wyraźne różnice w wydajności. Podczas gdy najlepsze modele AI osiągnęły poziom dokładności porównywalny z ludzkim w przypadku prostych wzorców, wykazywały znacznie bardziej dramatyczny spadek wydajności w przypadku najbardziej złożonych zadań w porównaniu z ludźmi. To sugeruje, że pomimo podobieństw w organizacji, mogą nadal istnieć fundamentalne różnice w tym, jak ludzie i maszyny przetwarzają trudne, abstrakcyjne pojęcia.

Perspektywa sceptyczna

Pomimo tych imponujących wyników, istnieje silny argument, że LLM są po prostu bardzo umiejętnymi naśladownikami. Ten punkt widzenia pochodzi z eksperymentu myślowego filozofa Johna Searle’a „Pokoju chińskiego”, który ilustruje, dlaczego zachowanie może nie być równoznaczne z zrozumieniem.

W tym eksperymencie myślowym Searle prosi nas, abyśmy wyobrazili sobie osobę zamkniętą w pokoju i mówiącą tylko po angielsku. Osoba otrzymuje chińskie symbole i używa angielskiej książki z regułami, aby manipulować tymi symbolami i generować odpowiedzi. Z zewnątrz pokoju jego odpowiedzi wyglądają dokładnie tak, jakby były udzielane przez native speakera chińskiego. Searle argumentuje jednak, że osoba nie rozumie nic o języku chińskim. On po prostu stosuje reguły bez jakiegokolwiek prawdziwego zrozumienia.

Krytycy stosują tę samą logikę do LLM. Argumentują, że te systemy są “stochasticznymi papugami“, które generują odpowiedzi na podstawie statystycznych wzorców w danych szkoleniowych, a nie prawdziwego zrozumienia. Termin “stochasticzny” odnosi się do ich probabilistycznej natury, podczas gdy “papuga” podkreśla ich naśladownicze zachowanie bez prawdziwego zrozumienia.

Kilka technicznych ograniczeń LLM również wspiera ten argument. LLM często generują “halucynacje“; odpowiedzi, które wyglądają prawdopodobnie, ale są całkowicie nieprawidłowe, mylące i nonsensowne. Dzieje się to, ponieważ wybierają one statystycznie prawdopodobne słowa, zamiast korzystać z wewnętrznej bazy wiedzy lub zrozumienia prawdy i fałszu. Te modele również odtwarzają ludzkie błędy i uprzedzenia. Zdezorientowane są przez nieistotne informacje, które ludzie łatwo ignorują. Wykazują rasowe i płciowe stereotypy, ponieważ nauczyły się z danych zawierających te uprzedzenia. Innym ujawniającym się ograniczeniem jest “bias położenia”, gdzie modele przeceniają informacje na początku lub końcu długich dokumentów, zaniedbując treść środkową. Ten “zagubiony w środku” fenomen sugeruje, że te systemy przetwarzają informacje bardzo inaczej niż ludzie, którzy mogą utrzymać uwagę na całym dokumencie.

Te ograniczenia podkreślają centralne wyzwanie: chociaż LLM są doskonałe w rozpoznawaniu i odtwarzaniu wzorców językowych, nie oznacza to, że prawdziwie rozumieją znaczenie lub kontekst świata rzeczywistego. Radzą sobie dobrze z syntaksem, ale pozostają ograniczone, gdy chodzi o semantykę.

Czyli co się liczy jako inteligencja?

Debata ostatecznie sprowadza się do tego, jak definiujemy inteligencję. Jeśli inteligencja to zdolność do generowania spójnego języka, rozwiązywania problemów i adaptacji do nowych sytuacji, to LLM już spełniają ten standard. Jednak jeśli inteligencja wymaga samoświadomości, prawdziwego zrozumienia lub subiektywnego doświadczenia, te systemy nadal nie spełniają tych wymagań.

Trudność polega na tym, że nie mamy jasnego lub obiektywnego sposobu, aby zmierzyć takie cechy, jak zrozumienie lub świadomość. Zarówno u ludzi, jak i maszyn, wnioskujemy je z zachowania. Test kaczki i test Turinga kiedyś dostarczyły eleganckie odpowiedzi, ale w erze LLM mogą one już nie wystarczać. Ich możliwości zmuszają nas do przemyślenia, co naprawdę liczy się jako inteligencja i czy nasze tradycyjne definicje są w zgodzie z rzeczywistością technologiczną.

Podsumowanie

Duże modele językowe zmieniają sposób, w jaki definiujemy inteligencję sztucznej inteligencji. Mogą one naśladować rozumowanie, generować pomysły i wykonywać zadania, które kiedyś były uważane za wyłącznie ludzkie. Jednak brakuje im świadomości i podstaw, które kształtują prawdziwe myślenie podobne do ludzkiego. Ich pojawienie się zmusza nas do zadawania pytań nie tylko o to, czy maszyny działają inteligentnie, ale także o to, co inteligencja sama w sobie naprawdę oznacza.

Dr. Tehseen Zia jest profesorem nadzwyczajnym w COMSATS University Islamabad, posiada tytuł doktora w dziedzinie sztucznej inteligencji na Vienna University of Technology, Austria. Specjalizując się w sztucznej inteligencji, uczeniu maszynowym, nauce o danych i widzeniu komputerowym, wniósł znaczący wkład poprzez publikacje w renomowanych czasopismach naukowych. Dr. Tehseen Zia również kierował różnymi projektami przemysłowymi jako główny badacz i pełnił funkcję konsultanta ds. sztucznej inteligencji.