Wywiady
Yashar Behzadi, CEO Synthesis AI – Seria wywiadów

Yashar Behzadi PhD jest CEO i założycielem Synthesis AI. Jest doświadczonym przedsiębiorcą, który zbudował przełomowe firmy w dziedzinie AI, technologii medycznej i rynków IoT. Spędził ostatnie 14 lat w Dolinie Krzemowej, budując i skalując firmy technologiczne oparte na danych. Yashar ma ponad 30 patentów i patentów oczekujących na rozpatrzenie oraz tytuł doktora z UCSD ze specjalizacją w modelowaniu przestrzennym i czasowym funkcjonalnego obrazowania mózgu.
Synthesis AI to startup na przecięciu głębokiego uczenia się i CGI, tworzący nowy paradygmat dla rozwoju modeli widzenia komputerowego. Umożliwiają klientom rozwój lepszych modeli w ułamku czasu i kosztów tradycyjnych podejść opartych na annotacji przez ludzi.
Jak zacząłeś się zajmować informatyką i AI?
Uzyskałem tytuł doktora na UCSD w 2006 roku ze specjalizacją w dziedzinie widzenia komputerowego i modelowania przestrzennego i czasowego danych obrazowania mózgu. Następnie pracowałem w Dolinie Krzemowej na przecięciu czujników, danych i uczenia maszynowego w różnych branżach przez następne 16 lat. Uważam się za bardzo szczęśliwego, że miałem okazję pracować nad niektórymi wyjątkowymi technologiami, i mam ponad 30 patentów wydanych lub złożonych dotyczących przetwarzania sygnałów, uczenia maszynowego i nauki o danych.
Czy mógłbyś podzielić się historią powstania Synthesis AI?
Przed założeniem Synthesis AI w 2019 roku, kierowałem globalną firmą usług AI zajmującą się tworzeniem modeli widzenia komputerowego dla wiodących przedsiębiorstw technologicznych. Niezależnie od rozmiaru firmy, stwierdziłem, że jesteśmy bardzo ograniczeni przez jakość i ilość oznaczonych danych szkoleniowych. Gdy firmy rozszerzały swoją działalność geograficzną, zwiększały bazę klientów lub rozwijały nowe modele i sprzęt, wymagane były nowe dane szkoleniowe, aby zapewnić, że modele działają odpowiednio. Stało się również jasne, że przyszłość widzenia komputerowego nie będzie udana z dzisiejszym paradygmatem annotacji przez ludzi. Występujące aplikacje widzenia komputerowego w dziedzinie autonomii, robotyki i aplikacji AR/VR/metaverse wymagają bogatego zestawu 3D etykiet, informacji o głębi, właściwościach materiałowych, szczegółowej segmentacji itp., których ludzie nie mogą oznaczyć. Wymagany był nowy paradygmat, aby zapewnić niezbędny bogaty zestaw etykiet do szkolenia tych nowych modeli. Oprócz czynników technicznych, widzieliśmy rosnącą kontrolę ze strony konsumentów i regulacyjną wokół problemów etycznych związanych z podejściem modelu i prywatnością konsumentów.
Założyłem Synthesis AI, aby przekształcić paradygmat widzenia komputerowego. Platforma generacji danych syntetycznych firmy umożliwia generowanie na żądanie fotorealistycznych danych obrazowych z rozszerzonym zestawem 3D etykiet pikselowych. Nasza misja polega na pionierskim rozwoju technologii danych syntetycznych, aby umożliwić etyczny rozwój bardziej zaawansowanych modeli.
Dla czytelników, którzy nie są zaznajomieni z tym terminem, czy mógłbyś zdefiniować, co to jest dane syntetyczne?
Dane syntetyczne to dane generowane przez komputer, które służą jako alternatywa dla danych ze świata rzeczywistego. Dane syntetyczne są tworzone w symulowanych cyfrowych światach, a nie zbierane z lub mierzone w świecie rzeczywistym. Łącząc narzędzia ze świata efektów wizualnych i CGI z modelami generatywnymi AI, Synthesis AI umożliwia firmom tworzenie ogromnych ilości fotorealistycznych, zróżnicowanych danych do szkolenia modeli widzenia komputerowego. Platforma generacji danych firmy zmniejsza koszt i szybkość uzyskiwania wysokiej jakości danych obrazowych o rzędy wielkości, zachowując przy tym prywatność.
Czy mógłbyś omówić, jak generowane są dane syntetyczne?
Zestaw danych syntetycznych jest tworzony sztucznie, a nie przez dane ze świata rzeczywistego. Technologie z branży efektów wizualnych są łączone z generatywnymi sieciami neuronowymi, aby tworzyć ogromne, zróżnicowane i fotorealistyczne dane obrazowe z etykietami. Dane syntetyczne umożliwiają tworzenie danych szkoleniowych w ułamku kosztów i czasu w porównaniu z obecnymi podejściami.
Jak wykorzystanie danych syntetycznych tworzy przewagę konkurencyjną?
Obecnie większość systemów AI wykorzystuje „uczenie nadzorowane”, w którym ludzie oznaczają kluczowe atrybuty w obrazach, a następnie szkolą algorytmy AI do interpretacji obrazów. Jest to proces czasochłonny i ograniczony przez to, co ludzie mogą dokładnie oznaczyć. Dodatkowo, problemy związane z AI i stronniczością demograficzną oraz prywatnością konsumentów nasiliły się, co utrudnia uzyskanie reprezentatywnych danych ludzkich.
Nasze podejście polega na tworzeniu fotorealistycznych cyfrowych światów, które syntetyzują złożone dane obrazowe. Ponieważ generujemy dane, wiemy wszystko o scenach, w tym informacje, które wcześniej nie były dostępne, na temat 3D lokalizacji obiektów i ich złożonych interakcji ze sobą i środowiskiem. Uzyskanie i oznaczenie takiej ilości danych przy użyciu obecnych podejść zajęłoby miesiące, jeśli nie lata. Ten nowy paradygmat umożliwi 100-krotną poprawę wydajności i kosztów oraz wprowadzi nową klasę bardziej zaawansowanych modeli.
Ponieważ dane syntetyczne są generowane sztucznie, eliminuje to wiele stronniczości i problemów związanych z prywatnością przy tradycyjnym zbieraniu danych ze świata rzeczywistego.
Jak generowanie danych na żądanie umożliwia przyspieszone skalowanie?
Przechwytywanie i przygotowanie danych ze świata rzeczywistego do szkolenia modeli jest długim i nudnym procesem. Wdrożenie niezbędnego sprzętu może być zbyt drogie dla skomplikowanych systemów widzenia komputerowego, takich jak pojazdy autonomiczne, robotyka lub obrazy satelitarne. Gdy dane są przechwycone, ludzie oznaczają i annotują istotne cechy. Proces ten jest podatny na błędy, a ludzie są ograniczeni w swojej możliwości oznaczania kluczowych informacji, takich jak 3D położenie wymagane w wielu aplikacjach.
Dane syntetyczne są o rzędy wielkości szybsze i tańsze niż tradycyjne podejścia oparte na annotacji przez ludzi i będą przyspieszać wdrożenie nowych i bardziej zaawansowanych modeli w różnych branżach.
Jak dane syntetyczne umożliwiają redukcję lub zapobieganie stronniczości AI?
Systemy AI są wszechobecne, ale mogą zawierać wewnętrzne stronniczości, które mogą wpłynąć na grupy ludzi. Zestawy danych mogą być niezrównoważone, z pewnymi klasami danych, które są przereprezentowane lub niedoreprezentowane. Budowanie systemów opartych na ludziach może często prowadzić do stronniczości ze względu na płeć, etniczność i wiek. W przeciwieństwie do tego, dane generowane przez projekt są odpowiednio zrównoważone i pozbawione stronniczości ludzkich.
Dane syntetyczne mogą się stać solidnym rozwiązaniem w rozwiązywaniu problemu stronniczości AI. Dane syntetyczne są generowane częściowo lub całkowicie sztucznie, a nie mierzone lub wyodrębnione z zdarzeń lub zjawisk ze świata rzeczywistego. Jeśli zestaw danych nie jest wystarczająco zróżnicowany lub duży, dane generowane przez AI mogą wypełnić luki i utworzyć niezbyt stronniczy zestaw danych. Najlepsze w tym? Ręczne tworzenie tych zestawów danych może zająć zespołom kilka miesięcy lub lat. Zaprojektowane z danymi syntetycznymi, może to być wykonane w ciągu nocy.
Poza widzeniem komputerowym, jakie są inne potencjalne zastosowania danych syntetycznych w przyszłości?
Oprócz wielu zastosowań widzenia komputerowego związanych z produktami konsumenckimi, autonomią, robotyką, AR/VR/metaverse i więcej, dane syntetyczne będą również wpływać na inne modalności danych. Już teraz widzimy, jak firmy wykorzystują podejścia danych syntetycznych do strukturalnych danych tabelarycznych, głosu i przetwarzania języka naturalnego. Podstawowe technologie i potoki generacji różnią się dla każdej modalności, a w niedalekiej przyszłości spodziewamy się zobaczyć systemy wielomodalne (np. wideo + głos).
Czy jest coś jeszcze, co chciałbyś podzielić się na temat Synthesis AI?
W zeszłym roku wydaliśmy HumanAPI, znaczące rozszerzenie możliwości danych syntetycznych Synthesis AI, umożliwiające programistyczne generowanie milionów unikalnych, wysokiej jakości 3D cyfrowych ludzi. To ogłoszenie miało miejsce kilka miesięcy po uruchomieniu produktu FaceAPI, który dostarczył ponad 10 milionów oznaczonych obrazów twarzy dla wiodących firm produkujących smartfony, wideokonferencje, samochody i technologie. HumanAPI to kolejny krok w drodze firmy do wspierania zaawansowanych aplikacji sztucznej inteligencji (AI) z widzeniem komputerowym.
HumanAPI umożliwia również wiele nowych możliwości dla naszych klientów, w tym inteligentnych asystentów AI, wirtualnych trenerów fitness i oczywiście świata aplikacji metaverse.
Tworząc cyfrowy odpowiednik świata rzeczywistego, metaverse umożliwi nowe aplikacje, od zrewolucjonizowanych sieci społecznościowych, doświadczeń rozrywkowych, wideokonferencji, gier i więcej. Widzenie komputerowe AI będzie podstawowe w tym, jak świat rzeczywisty jest przechwytywany i odtwarzany z wysoką wiernością w świecie cyfrowym. Fotorealistyczne, wyraziste i behawioralnie dokładne ludzie będą niezbędnym składnikiem przyszłości aplikacji widzenia komputerowego. HumanAPI to pierwszy produkt, który umożliwia firmom tworzenie ogromnych ilości idealnie oznaczonych danych całego ciała na żądanie, aby zbudować bardziej zaawansowane modele AI, w tym szacowanie pozy, rozpoznawanie emocji, charakterystyka aktywności i zachowania, rekonstrukcja twarzy i więcej.
Dziękujemy za wspaniały wywiad. Czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić Synthesis AI.












