Connect with us

Як Вибраційне Кодування Страждає, Коли Роль Іскусственного Інтелекту Розширюється

Погляд Anderson

Як Вибраційне Кодування Страждає, Коли Роль Іскусственного Інтелекту Розширюється

mm
An AI-generated stock-style image depicting a human Caucasian male and a larger glossy humanoid robot attempting to collaborate on a document; but the aggressive robot is causing the annoyed man to be sidelined. GPT-5 Image + Photoshop enhancement.

Нове дослідження показало, що вибраційне кодування покращується, коли люди дають інструкції, але погіршується, коли це робить Іскусційний Інтелект, а найкраща гібридна установка зберігає людей на першому місці, з Іскусительным Інтелектом як арбітром або суддею.

 

Нові дослідження з США, що вивчають, що відбувається, коли системи Іскусительного Інтелекту дозволяють керувати вібраційним кодуванням, а не просто виконують людські інструкції, показали, що коли великі мови моделі (LLM) приймають на себе більшу директивну роль, результати майже завжди гірші.

Хоча дослідники використовували OpenAI’s GPT-5 як основу для своїх експериментів з людьми/Іскусительным Інтелектом, вони пізніше підтвердили, що як Anthropic’s Claude Opus 4.5, так і Google Gemini 3 Pro були піддані тому ж самому погіршенню кривої при зростанні відповідальності, заявивши, що “навіть обмежена участь людей постійно покращує результати”:

‘[Люди] забезпечують унікально ефективне високорівневе керівництво протягом ітерацій, [в той час як] керівництво Іскусительным Інтелектом часто призводить до колапсу результатів. Крім того, ми виявили, що ретельне розподілення ролей, яке зберігає людей на чолі напрямку, а оцінку відкладає на Іскусційний Інтелект, може покращити гібридні результати.’

Для забезпечення послідовного тесту, який міг би бути оцінений однаково людьми та Іскусительным Інтелектом, була створена контрольована експериментальна основа навколо ітеративної задачі кодування, в якій довідкова зображення – з фотографією кота, собаки, тигра, птахи, слона, пінгвіна, акули, зебри, жирафи або панди – мало бути відтворено за допомогою масштабованих векторних графіків (SVG), і це відтворення оцінювалося проти фотографічного джерела, з якого воно було отримано:

Було показано людським та Іскусительным Інтелектом учасникам фотографічне довідкове зображення поряд з Іскусительно-генерованим SVG-reконструкцією, і запитано оцінити, наскільки схожі два зображення на семибальній шкалі. Джерело - https://arxiv.org/pdf/2602.10473

Було показано людським та Іскусительным Інтелектом учасникам фотографічне довідкове зображення поряд з Іскусительно-генерованим SVG-reконструкцією, і запитано оцінити, наскільки схожі два зображення на семибальній шкалі. Джерело

У кожному раунді один агент надавав високорівневі природні мовні інструкції для керівництва кодом генератором, і інший вирішував, чи зберігати нову версію або повернутися до попередньої – структурований цикл, який віддзеркалює реальні колаборативні робочі потоки.

У рамках шістнадцяти експериментів, що涉ляли 604 учасників та тисячі API-запитів, повністю людські тести були порівняні безпосередньо з повністю Іскусительно-керованими раундами в умовах, що були ідентичні в іншому.

Деякі з різноманітних рішень, досягнутих різними комбінаціями людського/Іскусительного Інтелекту співвідношення та типів (взято з більшої ілюстрації в джерельній роботі, на яку ми посилаємося).

Деякі з різноманітних рішень, досягнутих різними комбінаціями людського/Іскусительного Інтелекту співвідношення та типів (взято з більшої ілюстрації в джерельній роботі, на яку ми посилаємося).

Хоча люди та Іскусичний Інтелект виконували на схожому рівні на початку тестів, з часом їх траєекторії розійшлися: коли люди надавали інструкції та приймали рішення щодо вибору, оцінки схожості збільшувалися протягом ітерацій, з постійним кумулятивним покращенням; але коли системи Іскусичного Інтелекту займали обидві ролі, результати не показували жодних послідовних здобутків, і часто погіршувалися з раундами – навіть якщо той самий базовий модель був використаний для генерації коду, і Іскусичний Інтелект мав доступ до тієї ж інформації, що й людські учасники.

Ефект Розгорнутості

Результати також показали, що людські інструкції зазвичай були короткими та орієнтованими на дії, зосередженими на тому, що потрібно змінити далі в поточному зображенні; навпаки, інструкції Іскусичного Інтелекту були значно довшими та описовими (фактор, який був параметризований для GPT-5), деталізуючи візуальні атрибути, а не пріоритизуючи інкрементальну корекцію.

Але, як видно на графіку нижче, накладення суворих обмежень на слово на інструкції Іскусичного Інтелекту не змінило цю тенденцію; навіть коли обмежено до 10, 20 чи 30 слів, Іскусично-керовані ланцюги все одно не показали жодного покращення з часом:

Оцінки схожості протягом ітерацій для людських ланцюгів порівняно з повністю Іскусично-керованими ланцюгами та Іскусично-керованими ланцюгами, обмеженими 10, 20 чи 30-словними інструкціями, показуючи, що скорочення Іскусичних інструкцій не запобігає ітеративному зниженню результатів, спостережуваному, коли Іскусичний Інтелект керує інструкцією та вибором.

Оцінки схожості протягом ітерацій для людських раундів порівняно з повністю Іскусично-керованими раундами, обмеженими 10, 20 чи 30-словними інструкціями. Очевидно, що скорочення Іскусичних інструкцій не запобігає ітеративному зниженню результатів, спостережуваному, коли Іскусичний Інтелект керує інструкцією та вибором.

Гібридні експерименти зробили цю тенденцію яснішою, показуючи, що додавання навіть невеликої людської участі покращило результати порівняно з повністю Іскусично-керованими установками; однак результати зазвичай погіршувалися, коли частка керівництва Іскусичного Інтелекту збільшувалася.

Коли ролі були розділені, оцінка та вибір могли бути передані Іскусичному Інтелекту з відносно невеликими втратами в якості; але заміна людських високорівневих інструкцій на керівництво Іскусичного Інтелекту призвела до помітного зниження результатів, що свідчить про те, що найважливіше не те, хто генерує код, а хто встановлює та підтримує напрям протягом ітерацій.

Автори висновують:

‘У рамках多 експериментів людське керівництво кодуванням постійно покращувалося протягом ітерацій, тоді як Іскусично-кероване кодування часто колапсувало,尽管 воно мало доступ до тієї ж інформації та подібних виконавчих можливостей.

‘Це вказує на ключові труднощі сучасних систем Іскусичного Інтелекту в підтриманні узгодженого високорівневого керівництва протягом повторюваних взаємодій, необхідних для успішного вібраційного кодування’

Нова робота нова робота називається Чому людське керівництво має значення в колаборативному вібраційному кодуванні, і походять від семи дослідників з Корнелльського університету, Принстонського університету, Масачусетського технологічного інституту та Нью-Йоркського університету.

Метод

Для експериментів людський інструктор переглядав GPT-5-генероване довідкове зображення тварини, разом з останньою пов’язаною спробою імітації SVG.

Відтак, генератор би створював новий SVG кожен раунд, забезпечуючи ітеративний цикл для тестування того, як ефект керівництва накопичується з часом. Цілі були десятьма GPT-5-генерованими зображеннями тварин, що охоплювали ряд форм та текстур, так що покращення чи помилки були б легко виявлені:

Схема вібраційного кодування, використана в дослідженні. У А) людський інструктор переглядає фотографічне довідкове зображення разом з найкращим SVG, створеним на даний момент, і пише природні мовні інструкції для кодового генератора для виконання під час створення наступного SVG; у Б) людський вибірник порівнює новий SVG з попереднім і вибирає, який з них краще відповідає довідковому зображенню, перш ніж передати вибраний SVG вперед для наступного раунду інструкцій; і у В) незалежні людські оцінювачі оцінюють, наскільки схоже кожне згенероване SVG з його довідковим зображенням, забезпечуючи оцінки, використані для оцінки загальної продуктивності.

Схема вібраційного кодування, використана в дослідженні. У А) людський інструктор переглядає фотографічне довідкове зображення разом з найкращим SVG, створеним на даний момент, і пише природні мовні інструкції для кодового генератора для виконання під час створення наступного SVG; у Б) людський вибірник порівнює новий SVG з попереднім і вибирає, який з них краще відповідає довідковому зображенню, перш ніж передати вибраний SVG вперед для наступного раунду інструкцій; і у В) незалежні людські оцінювачі оцінюють, наскільки схоже кожне згенероване SVG з його довідковим зображенням, забезпечуючи оцінки, використані для оцінки загальної продуктивності.

Лудський вибірник порівнював кожен nově згенерований SVG з попереднім і або приймав, або відхиляв його, що утримувало процес у відповідності з довідковим зображенням протягом раундів. У цій базовій установці той самий людський виконавець виконував обидві ролі.

Для вимірювання якості незалежні людські оцінювачі оцінювали, наскільки схоже кожне згенероване SVG з його довідковим зображенням. У рамках шістнадцяти експериментів 120 людей створили 4800 оцінок. Всі експерименти були проведені на PsyNet -фреймворку, порталі, призначеному для структурованих взаємодій між людьми та системами Іскусичного Інтелекту.

Дослідження мало залучити 604 носіїв англійської мови, у тестах, які мали використати 4800 API-запитів для генерації коду та 5327 API-запитів для інструкцій. Хоча GPT-5 був основною моделлю, використованою в порівнянних партіях з Claude Opus 4.5 та Gemini 3 Pro, які кожна обробляла 280 запитів.

Результати

Тридцять раундів вібраційного кодування були проведені, кожен з яких складався з п’ятнадцяти редагувань десяти довідкових зображень. Для цих 45 людських учасників були обрані, кожен з яких служив як селектором, так і інструктором протягом десяти ітерацій у “людських” раундах.

У рамках кожного раунду той самий учасник спочатку вибрав між поточним та попереднім SVG, а потім написав наступний раунд інструкцій. Друга версія тесту замінила людські рішення на API-запити до GPT 5, зберігаючи при цьому іншу установку незмінною. У всіх випадках інструктор та вибірник ролей підштовхували кодовий генератор до ясної мови.

Представницький приклад багатораундового вібраційного кодування показує, як процес розходиться з часом; коли люди діяли як селектор та інструктор, вихід SVG покращувався поступово протягом ітерацій, наближаючись до довідкового зображення з кожним раундом:

Приклад прогресій для одного довідкового зображення під людським (вгорі) та Іскусично-керованим (низу) вібраційним кодуванням, показуючи поступове покращення протягом ітерацій з людьми в обидвох ролях, і стагнацію чи дрейф, коли обидві ролі виконуються Іскусичним Інтелектом.

Приклад прогресій для одного довідкового зображення під людським (вгорі) та Іскусично-керованим (низу) вібраційним кодуванням, показуючи поступове покращення протягом ітерацій з людьми в обидвох ролях, і стагнацію чи дрейф, коли обидві ролі виконуються Іскусичним Інтелектом.

Навпаки, у версії Іскусичного Інтелекту ранні раунди іноді захоплювали ключові візуальні особливості, але пізніші спроби не змогли збудувати на цих здобутках, і в деяких випадках відійшли від цілі:

Фінальні виходи з останньої ітерації, порівнюючи людські раунди (верхній ряд) з Іскусично-керованими ланцюгами (нижній ряд), по всьому одному набору довідкових зображень. Людські результати більш точно відповідають оригінальним тваринам, а Іскусично-керовані результати демонструють видимі спотворення чи втрату ключових особливостей.

Фінальні виходи з останньої ітерації, порівнюючи людські раунди (верхній ряд) з Іскусично-керованими ланцюгами (нижній ряд), по всьому одному набору довідкових зображень. Людські результати більш точно відповідають оригінальним тваринам, а Іскусично-керовані результати демонструють видимі спотворення чи втрату ключових особливостей.

Для кількісної оцінки виникнення тенденцій фінальні зображення були показані незалежним людським оцінювачам та оцінені за схожістю з довідковими зображеннями. На початку раундів людські та Іскусично-керовані результати мали приблизно однакові оцінки; але до п’ятнадцятого раунду різниця стала очевидною, з людськими зображеннями, які мали набагато вищі оцінки за схожість з цільовими зображеннями. За час проходження людські оцінки постійно зростали, з найбільшим відносним зростанням над Іскусичним Інтелектом, яке становило 27,1%.

Середні оцінки схожості протягом ітерацій для людських та Іскусично-керованих вібраційних кодувань, показуючи поступове покращення, коли люди діють як селектор та інструктор, і поступове зниження, коли обидві ролі виконуються GPT 5.

Середні оцінки схожості протягом ітерацій для людських та Іскусично-керованих вібраційних кодувань, показуючи поступове покращення, коли люди діють як селектор та інструктор, і поступове зниження, коли обидві ролі виконуються GPT 5.

Для забезпечення того, щоб виникнення тенденцій не було спричинено колективною силою кількох людських учасників, дослідники залучили десять додаткових людей для роботи самостійно, кожен з яких проводив три раунди самостійно – і результати покращувалися тим же самим поступовим способом, демонструючи, що здобутки не були випадковістю колективних зусиль.

Глобальна Картина

Однак, якщо GPT-5 оцінював виходи самостійно, чи визнав би він, що людські результати були кращими? Людські та Іскусичні оцінки загалом рухалися в одному напрямку, так що модель могла розрізняти добре та погано, проте постійно оцінювала Іскусично-генеровані зображення вище, ніж люди.

‘Конкретно, ми запитали, чи визнає Іскусичний Інтелект, що його власні виходи є гіршими, ніж ті, які створені людьми, чи навпаки показує перевагу своїм творінням, що вказуватиме на потенційну проблему узгодженості.’

Як виявилося, існує проблема узгодженості*:

‘Іскусичні оцінювачі призначали вищі оцінки Іскусично-генерованим [вихідам]. Ці результати свідчать про те, що спостережувані відмінності у продуктивності можуть походити з розбіжності у представленні між людьми та Іскусичним Інтелектом.’

При вивченні того, як люди та Іскусичний Інтелект формулюють своє керівництво, розбіжності стали очевидними у тестах. Як видно на малюнку нижче, і фокус, і довжина є предметами розбіжності між Іскусичним Інтелектом та людьми:

Порівняння того, як люди та Іскусичний Інтелект давали інструкції під час задачі кодування. 'А' показує, що люди пишуть короткі, прямолінійні інструкції, тоді як Іскусичний Інтелект пише довгі, детальні описи. 'Б' відображає інструкції, показуючи, що людські підказки згруповані разом, тоді як інструкції Іскусичного Інтелекту розходяться по тваринам. 'В' відстежує, як обмеження довжини інструкцій Іскусичного Інтелекту не виправляє його погані результати з часом; і 'Г' показує, що люди дають більш різноманітні та збалансовані інструкції, ніж Іскусичний Інтелект, навіть коли встановлені обмеження на кількість слів.

Порівняння того, як люди та Іскусичний Інтелект давали інструкції під час задачі кодування. ‘А’ показує, що люди пишуть короткі, прямолінійні інструкції, тоді як Іскусичний Інтелект пише довгі, детальні описи. ‘Б’ відображає інструкції, показуючи, що людські підказки згруповані разом, тоді як інструкції Іскусичного Інтелекту розходяться по тваринам. ‘В’ відстежує, як обмеження довжини інструкцій Іскусичного Інтелекту не виправляє його погані результати з часом; і ‘Г’ показує, що люди дають більш різноманітні та збалансовані інструкції, ніж Іскусичний Інтелект, навіть коли встановлені обмеження на кількість слів.

Лудські інструкції зазвичай були короткими та орієнтованими на дії, пропонуючи ясні редагування, які могли бути застосовані загально до цілей. Інструкції Іскусичного Інтелекту, з іншого боку, були густими описовими деталями, часто наповнені конкретикою про затінення, текстури, освітлення чи анатомічні дрібниці – описи, які можуть мати сенс у ізоляції, але не забезпечують корисних наступних кроків для моделі (і які будуть знайомі тим, хто знає проблеми Іскусичного Інтелекту навколо довжини контексту, тобто здатності зберігати “головну картину” під час розвитку та зростання проекту).

Для того, щоб побачити, чи покращить скорочення довжини інструкцій результати, GPT-5 був обмежений до 10, 20 чи 30 слів на інструкцію; однак навіть ці стиснуті інструкції не показали жодного покращення (див. нижню частину графіку вище).

Спільні Підприємства

Для того, щоб протестувати, що відбувається, коли люди та Іскусичний Інтелект спільно керують, дослідники провели кодувальні завдання з різними комбінаціями людського та Іскусичного Інтелекту, починаючи від більш людського до більш Іскусичного Інтелекту.

Кожна гібридна установка перевершувала повний контроль Іскусичного Інтелекту, так що навіть невелика людська участь покращувала результати:

Гібридні кодувальні установки з різними людськими/Іскусичними Інтелектами співвідношеннями. (А) Показує, як люди та Іскусичний Інтелект змінювали ролі інструктора та селектора на кожному етапі кодування; (Б) показує, що більша участь людей призводила до кращої якості результатів, тоді як більший внесок Іскусичного Інтелекту знижував оцінки; і (В) зображує поступове зниження якості фінального виходу з часом, як частка людської участі зменшується, підтверджуючи, що більш послідовне людське керівництво забезпечує кращі результати.

Гібридні кодувальні установки з різними людськими/Іскусичними Інтелектами співвідношеннями. (А) Показує, як люди та Іскусичний Інтелект змінювали ролі інструктора та селектора на кожному етапі кодування; (Б) показує, що більша участь людей призводила до кращої якості результатів, тоді як більший внесок Іскусичного Інтелекту знижував оцінки; і (В) зображує поступове зниження якості фінального виходу з часом, як частка людської участі зменшується, підтверджуючи, що більш послідовне людське керівництво забезпечує кращі результати.

Чим більше Іскусичний Інтелект брав участь у процесі, тим гірші були результати, з найкращими результатами, коли люди вели більшість раундів, а найгіршими, коли Іскусичний Інтелект керував більшість раундів. Жодна з цих змішаних установок не змогла продовжувати покращуватися з кожним новим раундом, що свідчить про те, що людське керівництво працює найкраще, коли воно є сталим та послідовним, а не періодичним.

Рольова Інверсія

Дослідження також вивчало, чи має значення хто робить що у цих завданнях, і тести на це.

У цій переробленій задачі було два завдання: один учасник мав вказувати, як змінити зображення, а інший мав вибирати бажану версію.

Коли обидві ролі виконувалися людьми, якість була збережена; але коли людина давала інструкції, а ніхто не вибирав між версіями, якість погіршувалася:

Тести для ролевої інверсії у вібраційному кодуванні: у (А) видалення ролі селектора призвело до гірших результатів, навіть коли людина давала інструкції; у (Б) заміна людського селектора на Іскусичний Інтелект трохи зниžila якість, але не так сильно, як видалення вибору зовсім.

Тести для ролевої інверсії у вібраційному кодуванні: у (А) видалення ролі селектора призвело до гірших результатів, навіть коли людина давала інструкції; у (Б) заміна людського селектора на Іскусичний Інтелект трохи зниžila якість, але не так сильно, як видалення вибору зовсім.

Коли Іскусичний Інтелект був у контролі, пропуск етапу вибору не мав значення, оскільки його виходи залишалися послідовними в будь-якому випадку; але коли люди давали інструкції, а Іскусичний Інтелект вибирав між результатами, якість залишалася близькою до повністю людської установки.

Навпаки, mít Іскусичний Інтелект давав інструкції, а людина вибирала виходи, призвело до гірших результатів, свідчачи про те, що людське творче керівництво залишається важливим, тоді як завдання вибору між варіантами може бути передано Іскусичному Інтелекту без значної втрати.

Папера висновує:

‘[Високорівневе] генерування ідей та інструкції є критичними людськими внесками, тоді як оцінка та вибір можуть часто бути делеговані Іскусичному Інтелекту без втрат у продуктивності.

‘Це свідчить про практичний принцип проектування для гібридних систем: люди повинні встановлювати напрям, тоді як Іскусичний Інтелект може підтримувати оцінку та виконання.’

Висновок

Залишається невідомим, якою мірою покращення та/або збільшення контекстних вікон вплине на продуктивність великих мовних моделей у завданнях цього типу. День, коли “амнезія Іскусичного Інтелекту” перестане бути щоденним бідою людсько-Іскусичної колаборації, може бути причиною як для святкування, так і для тривоги, оскільки проблема, яку Іскусичний Інтелект намагається вирішити, аргументно, є людьми.

Однак робота авторів також робить ясним, що існують вроджені та критичні розбіжності між Іскусичним Інтелектом та людьми щодо якості, які можуть бути визначені споживачами як незамінювана людська концепція.

 

* Мій перехід авторських внутрішніх посилань на гіперпосилання.

Перша публікація у п’ятницю, 13 лютого 2026 року

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]