Штучний Інтелект
AI пропонує покращене відстеження власності на офшорну нерухомість у Великобританії

Нове дослідження, проведене двома британськими університетами, має на меті пролити краще світло на потенційний стан відмивання грошей у Великобританії, особливо на високо цінованому ринку нерухомості Лондона.
Згідно з результатами проекту, загальна кількість «нетрадиційних» житлових приміщень (тобто приміщень, які не використовуються довгостроково як житло власниками чи орендарями) лише в Лондоні становить близько 138,000 XNUMX.
Ця цифра на 44% перевищує офіційні цифри, які надає та періодично оновлює уряд Великобританії.
Дослідники використовували різні методи обробки природної мови (NLP), разом із додатковими даними та підтверджуючими дослідженнями, щоб розширити обмежену офіційну інформацію, яку надає уряд Великобританії, про відсоток, вартість, місцезнаходження та типи власності, якою володіють офшорні компанії у Великобританії. , найприбутковіші з яких – у столиці.
Дослідження показало, що загальна вартість офшорної, маловикористовуваної та нерухомості в стилі Airbnb (тобто «випадкового працевлаштування») у Великій Британії разом становить від 145 до 174 мільярдів фунтів стерлінгів, що включає приблизно 144,000 164,000-XNUMX XNUMX об'єктів нерухомості.
Також було виявлено, що офшорна нерухомість такого типу зазвичай дорожча та має характерні риси залежно від того, де вона розташована у Великій Британії.
Дослідники підрахували, що належать офшори Нетрадиційне домашнє майно (UDP) становить 7.5% загальної внутрішньої вартості, і ці 56 мільярдів фунтів стерлінгів оціненої вартості обмежуються лише 42,000 XNUMX помешкань.
У папері зазначено:
«Окремі офшорні об’єкти дуже дорогі навіть за стандартами UDP, крім того, вони зосереджені в центрі Лондона з сильною просторовою автокореляцією.
«На противагу цьому, вкладена офшорна нерухомість дещо менш сконцентрована в центрі Лондона, але загалом більш концентрована, а також майже відсутня просторова кореляція».
Аналіз доповнених даних показує, що значна кількість офшорних об’єктів належить суб’єктам Залежності від натовпу (CD), причому друга за величиною кількість припадає на Британські заморські території (у діаграмі нижче «PWW2» позначає країни, які отримали незалежність від Британії після Другої світової війни).

Відчуження майна, що перебуває у чужій власності, за результатами нової роботи. Джерело: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf
Газета зауважує:
«Насправді лише 4 території – Британські Віргінські острови, Джерсі, Гернсі та острів Мен – пов’язані з 78% усієї нерухомості».
Нові розширені дані дозволили визначити суб-власності, які існують у межах відомої власності, що належить за кордоном, – можливості, якій зазвичай перешкоджають однозначні та обмежені дані, надані в офіційних цифрах.
Результати також вказують на те, що офшорні об’єкти, нерухомість Airbnb і малокористувацькі об’єкти помітно більш географічно сконцентровані, ніж звичайні будинки, і додатково зосереджені в районах з вищою вартістю.

Візуалізовані карти концентрації, пов’язані з різними видами власності за кордоном у Лондоні. Джерело: https://arxiv.org/pdf/2207.10931.pdf
До наведеного вище графіка автори коментують:
«Офшорна нерухомість має надзвичайно високу концентрацію, коли весь житловий комплекс належить офшорній компанії».
Автори мають випущений код для їх переробного трубопроводу.
Команда новий папір має титул Що знаходиться в пральні? Картування та характеристика офшорної нерухомості в Лондоні, і це дослідження надходить від дослідників факультету забудованого середовища Бартлетта в Університетському коледжі Лондона та кафедри економіки Кінгстонського університету.
Вирішення проблеми
Автори зазначають, що після десятиліть зусиль щодо контролю за використанням нерухомості з метою відмивання грошей у Сполученому Королівстві знадобилося звільнити витоку списку офшорної власності Великобританії британським виданням Приватний детектив у 2015 році, щоб спонукати уряд Великої Британії опублікувати регулярно оновлюваний список офшорних об’єктів нерухомості на більшій частині території Великобританії, відомий як Закордонні компанії, які володіють нерухомістю в Англії та Уельсі (ОКС).
Дослідники відзначають, що хоча OCOD є кроком вперед у дослідженні та аналізі закордонного володіння та потенційного відмивання грошей у Великобританії, дані мають низку обмежень, деякі з них критичні:
«Ці адреси можуть бути неповними, містити вкладені властивості, де кілька властивостей існує в одному рядку чи номері заголовка, вони також не містять інформації про те, чи є власність домашньою, комерційною чи іншою.
«Такі низькоякісні дані ускладнюють розуміння розподілу та характеристик офшорної нерухомості у Великій Британії».
Особливо важко отримати дані про випадково орендоване майно, таке як Airbnb, оскільки загальнодоступні дані обмежені або взагалі відсутні. Крім того, Шотландія (частина Сполученого Королівства) не робить власний реєстр продажу нерухомості загальнодоступним, на відміну від Англії та Уельсу.
Щоб усунути деякі невідповідності щодо класифікації власності, уряд Великобританії запровадив унікальний номер власності (УПРН), призначена для забезпечення чіткіших зв’язків між різними джерелами даних про власність. Проте, автори зауважують* «хоча використання UPRN є обов’язковим, майже жоден державний департамент не використовує його, тобто зв’язування даних вимагає передових обробка даних навички".
Таким чином, нове дослідження має на меті зробити дані більш детальними та глибокими.
Збір і підключення даних
У будь-якій окремій країні формати адрес зазвичай передбачувані та узгоджені, що також застосовується до адрес у Великій Британії. Таким чином, зіткнувшись із «плоскими» текстовими адресними даними (такими, як ті, що надаються OCOD), з'явилася низка рішень з відкритим кодом для розбору адрес, які дозволяють посилати адреси на інші джерела даних.
Однак багато з них навчені використовувати Відкрийте карту вулиць дані, які можуть давати адреси, які можуть фактично містити десятки або навіть сотні вкладених підадрес (наприклад, квартири в широкій адресі багатоквартирного будинку). Отже, навіть відомий аналізатор адрес, такий як libpostal має мав труднощі під час спроби аналізу неповних адрес.
Щоб створити парсер для свого проєкту, дослідники нової статті використали низку загальнодоступних наборів даних. Ключові дані були надані OCOD, тоді як компонент очищення даних використовував Ціну земельного кадастру. набору данихРазом з Рейтинги Голосу Америки список даних, а також довідник поштових індексів Управління національної статистики (ОНСПД).
Дані Airbnb надійшли з InsideAirbnb домен, який включає лише цілі будинки, що здаються в оренду, таким чином виключаючи початково запропонований варіант використання Airbnb (тобто здача в оренду всього або частини власного житла на періодичній основі).
Набір даних авторів про маловикористовувану нерухомість був доповнений інформацією, отриманою з успішних запитів на отримання інформації (FOI), здебільшого зібраних для попередній проект.
Базовими даними OCOD є файл .CSV із роздільниками-комами з хорошою структурою та передбачуваним форматом.
Конвеєр складався з п’яти етапів: маркування, розбір, розширення, класифікація та згортання. На початку будь-яка окрема адреса могла в реальному житті перетворюватися на кілька вкладених властивостей, хоча це не вказано явно в наданих урядом даних.
Дослідники виконали легку синтаксичну попередню обробку, а потім імпортували дані програмний, платформа, розроблена для створення анотованих наборів даних NLP без ручного маркування. Тут сутності були позначені за допомогою регулярних виразів (Regex) для опису восьми типів іменованих сутностей (див. зображення нижче):
Після додавання цих міток набір даних було видобуто у вигляді файлу JSON із видаленням накладання міток за допомогою простих процедур на основі правил.
Крім того, результати programmatic були використані для навчання прогнозної моделі для SpaCy, що спирається на Facebook РоБЕРТа. Після придушення шуму дослідники створили базовий набір порівняння істинності з 1000 довільно позначених спостережень. Оцінка точності неконтрольованих даних зрештою буде оцінена за цією базовою правдою.
Синтаксичний аналіз адреси викликав ряд проблем. Автори призначили кожному символу окремий рядок, а кожному класу міток — окремий стовпець, а потім розповсюдили стовпці у зворотному напрямку, щоб створити повні адресні рядки.
Оскільки деякі окремі адреси містили кілька різних житлових приміщень, необхідно було розширити базу даних, розділивши окремі адреси на підвластивості, наявні у додаткових базах даних.
Після цього етап класифікації адрес перехресно посилався на всі розташовані поштові індекси за допомогою бази даних ONSPD. Це процес з’єднує дані адреси з даними перепису та іншими демографічними даними, а також індивідуалізує суб-властивості, які раніше були приховані за непрозорими адресами даних OCOD.
Нарешті, процес скорочення адреси відфільтрував усі нежитлові об’єкти (тобто комерційні приміщення) із вкладених груп об’єктів.
Аналіз
Щоб перевірити точність розширених даних, автори, як згадувалося раніше, створили зразок базового набору істинності, який було відкладено від загального аналізу та використовувався лише для перевірки точності прогнозів і аналізів.
Ручна перевірка правдивості землі включала використання картографічного програмного забезпечення, а також аналіз зображень властивостей, представлених у прихованому наборі, та пошук в Інтернеті для оцінки типу власності. Після цього продуктивність даних вимірювалася за показниками точності, запам’ятовування та F1.
Вартість маловикористовуваної та домашньої власності була отримана за допомогою базової графічної моделі, той самий метод використовувався також для визначення властивостей UDP.
Завдання NER, перевірене на основі високоефективного, вручну позначеного еталону, отримало бал F1 0.96 (близько «100%» з точки зору точності).

Оцінки F1 для завдання маркування NER. Виявлено певну нерівномірність, оскільки процес дещо переоцінює кількість внутрішніх об’єктів і занижує загальну кількість підприємств через структуру розширених даних.
Що стосується UDP у Лондоні, остаточні результати показують загальну кількість 138,000 44 записів – на 94,000% більше, ніж XNUMX XNUMX, представлених у вихідному наборі даних OCOD (тобто останні офіційні дані).

Розподіл типів власності за типом 2 класифікації.
Результати показують, що загальна вартість офшорної власності становить близько 56 мільярдів фунтів стерлінгів, тоді як загальна вартість маловикористовуваної власності оцінюється в 85 мільярдів фунтів стерлінгів.
Автори зазначають:
«[Усі] UDP набагато дорожчі за середню ціну звичайної нерухомості в 600 тисяч фунтів стерлінгів».
Такого роду вдосконалені дані можуть знадобитися для боротьби з використанням спекуляцій майном як діяльності з відмивання грошей у Великобританії. Автори відзначають зростаючу кількість досліджень і загальної літератури, які свідчать про те, що покращені дані можуть допомогти в боротьбі зі спекуляціями щодо AML, і роблять висновок:
«Ці дані можуть бути використані соціологами, економістами та політиками, щоб забезпечити, щоб спроби зменшити відмивання грошей та високі ціни на нерухомість ґрунтувалися на детальних даних, які відображають реальну ситуацію».
* Моє перетворення вбудованих цитат авторів на гіперпосилання.
Вперше опубліковано 25 липня 2022 р.