Etika

Výzkumníci vyvinuli algoritmy zaměřené na prevenci špatného chování v AI

Published November 26, 2019

Updated April 5, 2026

Ljubinko Zivkovic

Spolu s veškerým pokrokem a výhodami, které umělá inteligence dosud ukázala, se objevily také zprávy o nežádoucích vedlejších účincích, jako je rasová a genderová předpojatost v AI. Proto sciencealert.com klade otázku „jak mohou vědci zajistit, aby pokročilé myšlení systémy byly spravedlivé, nebo dokonce bezpečné?“

Odpověď může spočívat v zprávě výzkumníků ze Stanfordu a Univerzity v Massachusetts Amherst, nazvané Prevence nežádoucího chování inteligentních strojů. Jak eurekaalert.org uvádí ve své zprávě o této zprávě, AI nyní začíná zpracovávat citlivé úkoly, takže „tvůrci politik požadují, aby počítačoví vědci nabídli záruky, že automatizované systémy byly navrženy tak, aby minimalizovaly, ne-li zcela eliminovaly, nežádoucí výsledky, jako je nadměrné riziko nebo rasová a genderová předpojatost.”

Zpráva, kterou tato skupina výzkumníků představila, „popisuje novou techniku, která překládá rozmazané cíle, jako je například vyhnutí se genderové předpojatosti, do přesných matematických kritérií, která by umožnila algoritmu strojového učení školení aplikace AI, aby se vyhnula tomuto chování.”

Účelem bylo, jak Emma Brunskill, asistentka profesora počítačových věd na Stanfordu a hlavní autorka článku uvádí, „chceme rozvíjet AI, která respektuje hodnoty svých lidských uživatelů a ospravedlňuje důvěru, kterou do autonomních systémů vkládáme.”

Nápad spočíval v definování “nebezpečných” nebo “nespravedlivých” výsledků nebo chování v matematických termínech. To by, podle výzkumníků, umožnilo „vytvořit algoritmy, které mohou naučit se z dat, jak se vyhnout těmto nežádoucím výsledkům s vysokou jistotou.”

Druhým cílem bylo „vyvinout soubor technik, které by umožnily uživatelům snadno specifikovat, jaká nežádoucí chování chtějí omezit, a umožnit návrhářům strojového učení předpovědět s jistotou, že systém školený pomocí minulých dat lze spolehnout, když je aplikován v reálných podmínkách.”

ScienceAlert uvádí, že tým nazval tento nový systém ‘Seldonian’ algoritmy, podle hlavní postavy Isaacovy Asimovovy slavné série sci-fi románů Foundation. Philip Thomas, asistent profesora počítačových věd na Univerzitě v Massachusetts Amherst a hlavní autor článku, uvádí, “Pokud použiji Seldonian algoritmus pro diabetes léčbu, mohu specifikovat, že nežádoucí chování znamená nebezpečně nízkou hladinu cukru v krvi nebo hypoglykémii.”

“Mohu říci stroji, ‘Zatímco se snažíš vylepšit kontrolér v inzulínové pumpě, neudělej žádné změny, které by zvýšily frekvenci hypoglykémie.’ Většina algoritmů vám nedává možnost umístit tento typ omezení na chování; nebyl zahrnut do raných návrhů.”

Thomas dodává, že „tento Seldonian rámec umožní návrhářům strojového učení snadněji budovat pokyny pro vyhnutí se chování do všech druhů algoritmů, způsobem, který jim umožní posoudit pravděpodobnost, že školené systémy budou fungovat správně v reálném světě.”

Emma Brunskill také uvádí, že “zamyšlení se nad tím, jak můžeme vytvořit algoritmy, které nejlépe respektují hodnoty, jako je bezpečnost a spravedlnost, je zásadní, protože společnost se stále více spoléhá na AI.”

Unite.AI

Výzkumníci vyvinuli algoritmy zaměřené na prevenci špatného chování v AI

You may like