Штучний інтелект
AI пропонує покращене відстеження власності офшорної власності у Великій Британії

Нові дослідження двох університетів Великої Британії мають на меті пролити більше світла на потенційний стан відмивання грошей у сфері власності в Великій Британії, особливо на ринках високої ціни лондонської нерухомості.
Відповідно до результатів проекту, загальна кількість “нестандартних” внутрішніх об’єктів власності (тобто об’єктів, які не використовуються тривалий час як житла власниками або орендарями) становить близько 138 000 тільки в Лондоні.
Ця цифра на 44% вища за офіційні дані, які надаються та періодично оновлюються урядом Великої Британії.
Дослідники використовували різні техніки обробки природної мови (NLP), разом з додатковими даними та підтверджуючими дослідженнями, для розширення обмеженої офіційної інформації, яку уряд Великої Британії надає про відсоток, вартість, місце розташування та типи власності, що належать офшорним компаніям у Великій Британії, найбільш прибутковими з яких є в столиці.
Дослідження показало, що загальна кількість офшорної, низьковитратної та аналогічної до Airbnb (тобто “неформальної окупації”) власності в Великій Британії становить близько 145-174 мільярдів фунтів стерлінгів по приблизно 144 000-164 000 об’єктів власності.
Вони також виявили, що офшорна власність цього типу зазвичай дорожча і має певні закономірності щодо місця розташування в Великій Британії.
Дослідники оцінюють, що офшорна власність “нестандартної внутрішньої власності” (UDP) становить 7,5% від загальної внутрішньої вартості, а 56 мільярдів фунтів стерлінгів з оціненої вартості припадає лише на 42 000 житлових будинків.
У статті зазначається:
‘Індивідуальна офшорна власність дуже дорога, навіть за стандартами UDP, крім того, вони зосереджені в центрі Лондона з сильною просторовою автокореляцією.
‘Натомість вкладена офшорна власність трохи менше зосереджена в центральному Лондоні, але більш високо зосереджена в цілому, там також майже немає просторової кореляції.’
Аналіз розширених даних показує, що велика кількість офшорної власності належить сутностям у Коронних залежностях (CD), а друга за величиною кількість належить британським заморським територіям (у таблиці нижче “PWW2” позначає країни, які здобули незалежність від Великої Британії після Другої світової війни).

Розподіл іноземної власності, згідно з результатами нового дослідження. Джерело: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf
У статті зазначається:
‘Фактично тільки 4 території, Британські Віргінські острови, Джерсі, Гернсі та Острів Мен, пов’язані з 78% всіх об’єктів власності.’
Нові розширені дані дозволили визначити підоб’єкти власності, які існують всередині відомої офшорної власності – можливість, яку зазвичай ускладнює плоска і обмежена офіційна інформація, надана урядом Великої Британії.
Результати також показують, що офшорна, низьковитратна та аналогічна до Airbnb власність значно більш географічно зосереджена, ніж звичайні будинки, і додатково зосереджена у високоцінних районах.

Візуалізовані карти концентрації, пов’язані з різними типами іноземної власності в Лондоні. Джерело: https://arxiv.org/pdf/2207.10931.pdf
Відносно вищезазначеної графіки автори зауважують:
‘Офшорна внутрішня власність має деякі дуже високі концентрації, де весь житловий комплекс належить офшорній компанії.’
Автори опублікували код для своєї обробної лінії.
Нове дослідження під назвою нове дослідження називається Що в пранні? Мапування і характеристика офшорної власності в Лондоні, і походять від дослідників факультету будівництва Університету Коледжу Лондона, та економічного факультету Університету Кінгстона.
Вирішення проблеми
Автори зазначають, що після десятиліть зусиль для контролю використання нерухомості для відмивання грошей у Великій Британії, було потрібно оприлюднення витоку списку офшорної власності у Великій Британії британським виданням Private Eye у 2015 році, щоб спонукати уряд Великої Британії опублікувати регулярно оновлюваний список офшорної власності в більшості території Великої Британії, відомий як Офшорні компанії, які володіють власністю в Англії та Уельсі (OCOD).
Дослідники спостерігають, що хоча OCOD є кроком вперед у дослідженні та аналізі іноземної власності та потенційного відмивання грошей у Великій Британії, дані мають ряд обмежень, деякі з яких є важливими:
‘Ці адреси можуть бути неповними, містити вкладені об’єкти власності, де кілька об’єктів існує всередині однієї рядкової або номерної назви, вони також не містять жодної інформації про те, чи є власність житловою, комерційною чи чимось іншим.
‘Така низька якість даних робить зрозуміння розподілу та характеристик офшорної власності у Великій Британії складним.’
Зокрема, важко отримати дані про орендовану власність, наприклад, офшорну власність, оскільки публічно доступні дані обмежені або відсутні. Крім того, Шотландія (частина Великої Британії) не робить свій реєстр продажів власності публічно доступним, на відміну від Англії та Уельсу.
Щоб протидіяти деяким несучастям щодо класифікації власності, уряд Великої Британії ввів систему унікального посилання на власність (UPRN), призначену для забезпечення ясних відносин між різними джерелами даних про власність. Однак автори зазначають* ‘хоча використання UPRN є обов’язковим, майже жоден урядовий відділ не використовує його, що означає, що зв’язування даних вимагає просунутих обробки даних навичок‘.
Таким чином, нове дослідження мало на меті зробити дані більш детальними та інформативними.
Збір та підключення даних
В межах будь-якої окремої країни адресні формати зазвичай передбачувані та послідовні, що також застосовується до адрес Великої Британії. Таким чином, перед обличчям “плоских”, текстових адресних даних (таких, як ті, що надаються OCOD), ряд відкритих рішень для парсингу адрес виник для перехресної перевірки адрес з іншими джерелами даних.
Однак, багато з них тренуються за допомогою даних Open Street map, які можуть давати адреси, які насправді можуть містити десятки або навіть сотні вкладених підадрес (наприклад, квартири в широкому адресі для багатоквартирного будинку). Таким чином, навіть відомий парсер адрес, такий як libpostal, мав труднощі при спробі розібрати неповні адреси.
Щоб створити парсер для свого проекту, дослідники нового дослідження використовували ряд публічно доступних наборів даних. Ключові дані були надані OCOD, тоді як компонент очистки даних використовував набір даних Land Registry Price dataset, разом з набором даних VOA ratings та набором даних Office of National Statistics Postcode Directory (ONSPD).
Дані Airbnb походять з домену InsideAirbnb, який включає лише цілі будинки, які орендуються, тому виключає первинний запропонований випадок використання Airbnb (тобто оренду частини власного будинку час від часу).
Набір даних низьковитратної власності був доповнений інформацією, отриманою внаслідок успішних запитів на свободу інформації (FOI), здебільшого зібраних для ранішого проекту.
Базові дані OCOD являють собою файл .CSV з комами, що розділяють дані, з доброю структурою та передбачуваним форматом.

Обробна лінія складалася з п’яти стадій: маркування, парсингу, розширення, класифікації та скорочення. На початку будь-яка окрема адреса могла б відповідати в реальному житті декільком вкладеним об’єктам власності, хоча це не явно вказано в урядових даних.
Дослідники здійснили деяку легку синтаксичну попередню обробку, потім імпортували дані до programmatic, платформи, призначеної для створення анотованих наборів даних NLP без ручного маркування. Тут сутності були позначені за допомогою регулярних виразів (Regex), щоб описати вісім типів іменованих сутностей (див. зображення нижче):

З цими мітками доданими, набір даних був витягнутий у вигляді файлу JSON, з видаленням перекриття міток за допомогою простих правил.
Крім того, вивід програмного забезпечення був використаний для навчання передбачувальної моделі для SpaCy, підтримуваної Facebook RoBERTa. Після денойзингу дослідники створили набір даних порівняння з 1000 випадкових спостережень. Оцінка точності необроблених даних буде оцінюватися проти цього набору даних порівняння.
Парсинг адрес представляв собою ряд труднощів. Автори призначили кожному характерному діапазону свій рядок і кожному класу мітки свій стовпець, а потім повернули стовпці, щоб згенерувати повні рядки адрес.
Оскільки деякі окремі адреси мали декілька різних житлових будинків, було необхідно розширити базу даних, розділивши окремі адреси на підоб’єкти власності, присутні в додаткових базах даних.
Після цього етап класифікації адрес перехресно зв’язував усі розташовані поштові індекси за допомогою бази даних ONSPD. Цей процес з’єднує дані адрес з переписними та іншими демографічними даними, а також індивідуалізує підоб’єкти власності, які раніше були приховані за неясними адресами даних OCOD.
Нарешті, процес скорочення адрес фільтрував усі недомашні об’єкти власності (тобто комерційні приміщення) з вкладених груп власності.
Аналіз
Щоб протестувати точність розширених даних, автори, як згадувалося раніше, створили вибірковий набір даних порівняння, який був виділений з загального потоку аналізу, і використовувався лише для перевірки точності прогнозів та аналізів.
Ручна перевірка для набору даних порівняння включала використання програмного забезпечення для карти, а також аналіз зображень власності, представлених у наборі даних порівняння, та інтернет-пошуків для оцінки типу власності. Після цього продуктивність даних була виміряна проти точності, виклику та оцінок F1.
Вартість низьковитратної та житлової власності була отримана за допомогою базової графічної моделі, того ж методу, який був використаний для виведення властивостей UDP.
Задача NER, протестована проти високозатратного, ручного набору даних порівняння, отримала оцінку F1 у 0,96 (близько до “100%”, у термінах точності).

Оцінки F1 для завдання NER. Деяка нерівномірність існує, оскільки процес трохи переоцінює кількість житлової власності та недооцінює загальну кількість підприємств, через структуру розширених даних.
Відносно UDP у Лондоні, остаточні результати показують загальну кількість 138 000 записів – на 44% більше, ніж 94 000, представлених у первинному наборі даних OCOD (тобто недавніх офіційних даних).
Результати показують, що загальна вартість офшорної власності становить близько 56 мільярдів фунтів стерлінгів, тоді як загальна вартість низьковитратної власності оцінюється в 85 мільярдів фунтів стерлінгів.
Автори зазначають:
‘[Всі] UDP значно дорожчі, ніж середня ціна конвенційної власності у £600 тисяч.’
Цей тип покращених даних може бути необхідним для боротьби з використанням спекуляцій на ринку нерухомості як діяльності відмивання грошей у Великій Британії. Автори зазначають зростаючий обсяг досліджень та загальної літератури, який свідчить про те, що покращені дані можуть допомогти в боротьбі з відмиванням грошей, і роблять висновок:
‘Ці дані можуть бути використані соціологами, економістами та політиками для забезпечення того, щоб спроби зменшити відмивання грошей та високі ціни на нерухомість були засновані на детальних даних, які відображають реальну ситуацію.’
* Моє перетворення цитати авторів у гіперпосилання.
Опубліковано вперше 25 липня 2022 року.













