Connect with us

Kieszonkowy Potężny: Oto Phi-3 od Microsoftu, Model Językowy, który Mieści Się w Twoim Telefonie

Sztuczna inteligencja

Kieszonkowy Potężny: Oto Phi-3 od Microsoftu, Model Językowy, który Mieści Się w Twoim Telefonie

mm

W szybko ewoluującej dziedzinie sztucznej inteligencji, gdzie tendencja często skłaniała się ku większym i bardziej złożonym modelom, Microsoft przyjmuje odmienny podejście z modelem Phi-3 Mini. Ten mały model językowy (SLM), obecnie w trzeciej generacji, pakuje rozbudowane możliwości większych modeli w ramy, które mieszczą się w surowych ograniczeniach zasobów smartfonów. Z 3,8 miliardami parametrów, Phi-3 Mini odpowiada wynikom dużych modeli językowych (LLM) w różnych zadaniach, w tym przetwarzaniu języka, rozumowaniu, kodowaniu i matematyce, oraz jest dostosowany do wydajnej pracy na urządzeniach mobilnych dzięki kwantyzacji.

Wyzwania Dużych Modeli Językowych

Rozwój modeli Phi SLM przez Microsoft jest odpowiedzią na znaczne wyzwania stawiane przez LLM, które wymagają więcej mocy obliczeniowej niż ta, która jest zwykle dostępna na urządzeniach konsumenckich. To duże zapotrzebowanie utrudnia ich użycie na standardowych komputerach i urządzeniach mobilnych, powoduje obawy środowiskowe z powodu ich zużycia energii podczas szkolenia i eksploatacji, oraz naraża na ryzyko utrwalania uprzedzeń ze względu na ich duże i złożone zestawy danych szkoleniowych. Te czynniki mogą również pogorszyć responsywność modeli w aplikacjach w czasie rzeczywistym i utrudnić aktualizacje.

Phi-3 Mini: Uproszczenie AI na Urządzeniach Osobistych dla Zwiększenia Prywatności i Wydajności

Phi-3 Mini jest strategicznie zaprojektowany, aby zapewnić kosztowo efektywną i wydajną alternatywę dla integrowania zaawansowanej AI bezpośrednio na urządzeniach osobistych, takich jak telefony i laptopy. Ten projekt umożliwia szybsze, bardziej natychmiastowe odpowiedzi, poprawiając interakcję użytkownika z technologią w codziennych sytuacjach.

Phi-3 Mini umożliwia zaawansowane funkcjonalności AI, które są bezpośrednio przetwarzane na urządzeniach mobilnych, co redukuje zależność od usług chmurowych i poprawia obsługę danych w czasie rzeczywistym. Ta zdolność jest kluczowa dla aplikacji, które wymagają natychmiastowego przetwarzania danych, takich jak mobilna opieka zdrowotna, tłumaczenie języka w czasie rzeczywistym i edukacja personalizowana, ułatwiając postępy w tych dziedzinach. Kosztowo efektywny charakter modelu nie tylko redukuje koszty operacyjne, ale także rozszerza potencjał integracji AI w różnych branżach, w tym w nowych rynkach, takich jak technologia nosimych i automatyka domowa. Phi-3 Mini umożliwia przetwarzanie danych bezpośrednio na urządzeniach lokalnych, co zwiększa prywatność użytkownika. Może to być kluczowe w zarządzaniu wrażliwymi informacjami w dziedzinach takich jak zdrowie i usługi finansowe. Ponadto, niskie wymagania energetyczne modelu przyczyniają się do zrównoważonej ekologicznie eksploatacji AI, współgrając z globalnymi wysiłkami na rzecz zrównoważonego rozwoju.

Filozofia Projektowa i Ewolucja Phi

Filozofia projektowa Phi opiera się na koncepcji nauki programowej, która czerpie inspirację z podejścia edukacyjnego, w którym dzieci uczą się przez stopniowo trudniejsze przykłady. Głównym pomysłem jest rozpoczęcie szkolenia AI od łatwiejszych przykładów i stopniowe zwiększanie złożoności danych szkoleniowych wraz z postępem procesu uczenia. Microsoft wdrożył tę strategię edukacyjną, budując zestaw danych z podręczników, jak opisano w ich badaniu “Podręczniki to Wszystko, co Potrzebujesz.” Seria Phi została uruchomiona w czerwcu 2023 roku, rozpoczynając od Phi-1, kompaktowego modelu z 1,3 miliardem parametrów. Ten model szybko wykazał swoją skuteczność, szczególnie w zadaniach związanych z kodowaniem w Pythonie, gdzie przewyższył większe, bardziej złożone modele. Kontynuując ten sukces, Microsoft później opracował Phi-1.5, który utrzymywał tę samą liczbę parametrów, ale rozszerzył swoje możliwości w obszarach takich jak rozumowanie zdroworozsądkowe i zrozumienie języka. Seria wyróżniła się z releasem Phi-2 w grudniu 2023 roku. Z 2,7 miliardami parametrów, Phi-2 wykazał imponujące umiejętności w rozumowaniu i zrozumieniu języka, stając się silnym konkurentem wobec znacznie większych modeli.

Phi-3 vs. Inne Małe Modele Językowe

Rozwijając swoich poprzedników, Phi-3 Mini rozszerza osiągnięcia Phi-2, przewyższając inne SLM, takie jak Gemma od Google, Mistral, Llama3-Instruct od Meta oraz GPT 3.5, w różnych aplikacjach przemysłowych. Te aplikacje obejmują zrozumienie języka i inferencję, ogólną wiedzę, rozumowanie zdroworozsądkowe, szkolne zadania matematyczne i odpowiedzi na pytania medyczne, prezentując lepszą wydajność w porównaniu z tymi modelami. Phi-3 Mini został również przetestowany w trybie offline na iPhone 14 dla różnych zadań, w tym tworzenia treści i sugestii aktywności dostosowanych do określonych lokalizacji. W tym celu Phi-3 Mini został skompresowany do 1,8 GB przy użyciu procesu zwаного kwantyzacją, który optymalizuje model dla urządzeń o ograniczonych zasobach, konwertując dane numeryczne modelu z 32-bitowych liczb zmiennoprzecinkowych na bardziej kompaktowe formaty, takie jak 4-bitowe liczby całkowite. To nie tylko redukuje ślad pamięci modelu, ale także poprawia szybkość przetwarzania i efektywność energetyczną, co jest kluczowe dla urządzeń mobilnych. Deweloperzy zwykle wykorzystują ramy takie jak TensorFlow Lite lub PyTorch Mobile, włączając w nie narzędzia kwantyzacji, aby zautomatyzować i udoskonalić ten proces.

Porównanie Funkcji: Phi-3 Mini vs. Phi-2 Mini

Poniżej porównujemy niektóre funkcje Phi-3 z jego poprzednikiem Phi-2.

  • Architektura Modelu: Phi-2 działa na architekturze opartej na transformatorze, zaprojektowanej do przewidywania następnego słowa. Phi-3 Mini również wykorzystuje architekturę dekodera transformatora, ale bardziej przypomina strukturę modelu Llama-2, używając tego samego tokenizera z rozmiarem słownictwa 320 641. Ta kompatybilność gwarantuje, że narzędzia opracowane dla Llama-2 mogą być łatwo dostosowane do użycia z Phi-3 Mini.
  • Długość Kontekstu: Phi-3 Mini obsługuje długość kontekstu 8 000 tokenów, co jest znacznie większe niż 2 048 tokenów w Phi-2. To zwiększenie pozwala Phi-3 Mini na zarządzanie bardziej szczegółowymi interakcjami i przetwarzanie dłuższych fragmentów tekstu.
  • Uruchamianie Lokalnie na Urządzeniach Mobilnych: Phi-3 Mini może być skompresowany do 4-bitów, zajmując około 1,8 GB pamięci, podobnie jak Phi-2. Został przetestowany w trybie offline na iPhone 14 z chipem A16 Bionic, gdzie osiągnął szybkość przetwarzania ponad 12 tokenów na sekundę, dopasowując wydajność Phi-2 w podobnych warunkach.
  • Rozmiar Modelu: Z 3,8 miliardami parametrów, Phi-3 Mini ma większą skalę niż Phi-2, który ma 2,7 miliarda parametrów. To odzwierciedla jego zwiększone możliwości.
  • Dane Szkoleniowe: W przeciwieństwie do Phi-2, który został wyszkolony na 1,4 bilionie tokenów, Phi-3 Mini został wyszkolony na znacznie większym zestawie 3,3 bilionów tokenów, co pozwala mu osiągnąć lepsze zrozumienie złożonych wzorców językowych.

Rozwiązywanie Ograniczeń Phi-3 Mini

Chociaż Phi-3 Mini wykazuje znaczne postępy w dziedzinie małych modeli językowych, nie jest pozbawiony ograniczeń. Głównym ograniczeniem Phi-3 Mini, biorąc pod uwagę jego mniejszy rozmiar w porównaniu z ogromnymi modelami językowymi, jest jego ograniczona pojemność do przechowywania obszernych faktów. Może to wpłynąć na jego zdolność do samodzielnego radzenia sobie z zapytaniami, które wymagają głębi konkretnych faktów lub szczegółowej wiedzy eksperckiej. To jednak może być złagodzone przez zintegrowanie Phi-3 Mini z silnikiem wyszukiwania. W ten sposób model może uzyskać dostęp do szerszego zakresu informacji w czasie rzeczywistym, skutecznie kompensując swoje wrodzone ograniczenia wiedzy. To pozwala Phi-3 Mini funkcjonować jak wysoce zdolny konwersacyjista, który, pomimo wszechstronnego zrozumienia języka i kontekstu, może czasem potrzebować “sprawdzić” informacje, aby zapewnić dokładne i aktualne odpowiedzi.

Dostępność

Phi-3 jest teraz dostępny na kilku platformach, w tym Microsoft Azure AI Studio, Hugging Face oraz Ollama. Na Azure AI, model włącza przepływ wdrożenia-oceny-dostrojenia, a na Ollama może być uruchomiony lokalnie na laptopach. Model został dostosowany do ONNX Runtime i obsługuje Windows DirectML, zapewniając, że działa dobrze na różnych typach sprzętu, takich jak GPU, CPU i urządzenia mobilne. Dodatkowo, Phi-3 jest oferowany jako mikrousługa za pośrednictwem NVIDIA NIM, wyposażony w standardowy interfejs API dla łatwego wdrożenia w różnych środowiskach i zoptymalizowany specjalnie dla GPU NVIDIA. Microsoft planuje dalej rozszerzyć serię Phi-3 w najbliższej przyszłości, dodając modele Phi-3-small (7B) i Phi-3-medium (14B), zapewniając użytkownikom dodatkowe opcje do balansowania jakości i kosztów.

Podsumowanie

Phi-3 Mini od Microsoftu robi znaczne postępy w dziedzinie sztucznej inteligencji, dostosowując potęgę dużych modeli językowych do użycia na urządzeniach mobilnych. Ten model poprawia interakcję użytkownika z urządzeniami poprzez szybsze, czasowe przetwarzanie i zaawansowane funkcje prywatności. Minimalizuje potrzebę usług chmurowych, redukując koszty operacyjne i rozszerzając zakres aplikacji AI w obszarach takich jak opieka zdrowotna i automatyka domowa. Z naciskiem na redukowanie uprzedzeń poprzez naukę programową i utrzymanie konkurencyjnej wydajności, Phi-3 Mini ewoluuje w kluczowe narzędzie dla efektywnej i zrównoważonej AI mobilnej, subtelnie przekształcając sposób, w jaki interaktywnie korzystamy z technologii na co dzień.

Dr. Tehseen Zia jest profesorem nadzwyczajnym w COMSATS University Islamabad, posiada tytuł doktora w dziedzinie sztucznej inteligencji na Vienna University of Technology, Austria. Specjalizując się w sztucznej inteligencji, uczeniu maszynowym, nauce o danych i widzeniu komputerowym, wniósł znaczący wkład poprzez publikacje w renomowanych czasopismach naukowych. Dr. Tehseen Zia również kierował różnymi projektami przemysłowymi jako główny badacz i pełnił funkcję konsultanta ds. sztucznej inteligencji.