Künstliche Intelligenz

KI bietet verbesserte Nachverfolgung von Offshore-Immobilienbesitz im Vereinigten Königreich

mm

Neue Forschungsergebnisse von zwei britischen Universitäten zielen darauf ab, mehr Licht auf den möglichen Zustand von geldwäschebasiertem Immobilienbesitz im Vereinigten Königreich, insbesondere auf dem hochpreisigen Londoner Immobilienmarkt, zu werfen.

Laut den Ergebnissen des Projekts beträgt die Gesamtzahl der “unkonventionellen” inländischen Immobilien (d. h. Immobilien, die nicht langfristig von Eigentümern oder Mietern als Wohnungen genutzt werden) in London allein etwa 138.000.

Diese Zahl ist 44 % höher als die offiziellen Zahlen, die von der britischen Regierung bereitgestellt und regelmäßig aktualisiert werden.

Die Forscher verwendeten verschiedene Techniken der Natural Language Processing (NLP) sowie zusätzliche Daten und korroborative Forschung, um die begrenzten offiziellen Informationen über den Prozentsatz, den Wert, den Standort und die Arten von Immobilien, die von Offshore-Unternehmen im Vereinigten Königreich besessen werden, zu erweitern, wobei die lukrativsten in der Hauptstadt liegen.

Die Forschung ergab, dass die Gesamtzahl der Offshore-, Low-Use- und Airbnb-ähnlichen (d. h. “gelegentliche Besetzung”) Immobilien im Vereinigten Königreich insgesamt etwa 145-174 Milliarden GBP über etwa 144.000-164.000 Immobilien beträgt.

Es wurde auch festgestellt, dass Offshore-Immobilien dieser Art typischerweise teurer sind und Signaturenmuster in Bezug auf ihren Standort im Vereinigten Königreich aufweisen.

Die Forscher schätzen, dass Offshore-besessene Unconventional Domestic Property (UDP) 7,5 % des gesamten inländischen Wertes ausmacht und dass 56 Milliarden GBP des geschätzten Wertes auf nur 42.000 Wohnungen beschränkt sind.

Das Papier besagt:

‘Einzelne Offshore-Immobilien sind sehr teuer, sogar nach den Standards von UDP, und sie sind konzentriert auf das Zentrum von London mit starker räumlicher Autokorrelation.

‘Im Gegensatz dazu ist die verschachtelte Offshore-Immobilie weniger konzentriert auf das Zentrum von London, aber stärker konzentriert im Allgemeinen, und es gibt fast keine räumliche Korrelation.’

Die Analyse der erweiterten Daten zeigt, dass eine große Anzahl von Offshore-Immobilien Eigentum von Entitäten in den Crown-Abhängigkeiten (CD) ist, während die zweitgrößte Zahl von britischen Überseegebieten (in der folgenden Grafik bedeutet “PWW2” Länder, die nach dem Zweiten Weltkrieg unabhängig von Großbritannien wurden) ausgemacht wird.

Verteilung von ausländischem Grundbesitz, gemäß den Ergebnissen des neuen Papiers. Quelle: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf

Verteilung von ausländischem Grundbesitz, gemäß den Ergebnissen des neuen Papiers. Quelle: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf

Das Papier beobachtet:

‘Tatsächlich sind nur 4 Territorien, die Britischen Jungferninseln, Jersey, Guernsey und die Insel Man, mit 78 % aller Immobilien verbunden.’

Die neuen erweiterten Daten haben es ermöglicht, Sub-Immobilien zu bestimmen, die innerhalb einer bekannten Offshore-Immobilie existieren – eine Fähigkeit, die normalerweise durch die flache und begrenzte Daten, die in den offiziellen Zahlen bereitgestellt werden, behindert wird.

Die Ergebnisse zeigen auch, dass Offshore-, Airbnb- und Low-Use-Immobilien bemerkenswert geografisch konzentrierter sind als normale Wohnungen und zusätzlich in höherwertigen Gebieten konzentriert sind.

Heatmaps zu verschiedenen Arten von ausländischem Grundbesitz in London. Quelle: https://arxiv.org/pdf/2207.10931.pdf

Visualisierte Konzentrationskarten zu verschiedenen Arten von ausländischem Grundbesitz in London. Quelle: https://arxiv.org/pdf/2207.10931.pdf

Zu der obigen Grafik kommentieren die Autoren:

‘Offshore-Immobilien haben einige extrem hohe Konzentrationen, wo eine ganze Wohnanlage von einem Offshore-Unternehmen besessen wird.’

Die Autoren haben Code für ihre Verarbeitungspipeline veröffentlicht.

Das neue Papier trägt den Titel Was ist in der Waschmaschine? Kartierung und Charakterisierung von Offshore-Immobilien in London und stammt von Forschern der Fakultät für Bauwesen der University College London und der Abteilung für Wirtschaftswissenschaften der Kingston University.

Das Problem angehen

Die Autoren bemerken, dass es nach Jahrzehnten der Bemühungen, die Verwendung von Immobilien für Geldwäschezwecke im Vereinigten Königreich zu kontrollieren, der Veröffentlichung einer geleakten Liste von Offshore-Immobilien im Vereinigten Königreich durch die britische Publikation Private Eye im Jahr 2015 bedurfte, um die britische Regierung zu veranlassen, eine regelmäßig aktualisierte Liste von Offshore-Immobilien in den meisten Teilen des Vereinigten Königreichs zu veröffentlichen, bekannt als Offshore-Unternehmen, die Immobilien in England und Wales besitzen (OCOD).

Die Forscher bemerken, dass OCOD zwar ein Schritt in Richtung Forschung und Analyse von Offshore-Besitz und potenzieller Geldwäsche im Vereinigten Königreich ist, die Daten jedoch eine Reihe von Einschränkungen aufweisen, einige davon kritisch:

‘Diese Adressen können unvollständig sein, verschachtelte Immobilien enthalten, bei denen mehrere Immobilien innerhalb einer einzigen Zeile oder Titelnummer existieren, sie enthalten auch keine Informationen darüber, ob die Immobilie eine Wohnimmobilie, ein Geschäftsimmobilie oder etwas anderes ist.

‘Solche schlechte Qualität der Daten macht es schwierig, die Verteilung und die Merkmale von Offshore-Immobilien im Vereinigten Königreich zu verstehen.’

Es ist besonders schwierig, Daten über gelegentlich vermietete Immobilien wie Airbnb-Immobilien zu erhalten, da öffentlich zugängliche Daten begrenzt oder nicht existent sind. Zusätzlich macht Schottland (ein Teil des Vereinigten Königreichs) seinen eigenen Register von Immobilienverkäufen nicht öffentlich zugänglich, im Gegensatz zu England und Wales.

Um einige der Inkonsistenzen um die Immobilienklassifizierung auszugleichen, führte die britische Regierung das System der Unique Property Reference Number (UPRN) ein, das darauf abzielt, klarere Beziehungen zwischen verschiedenen Immobiliendatenquellen zu ermöglichen. Die Autoren bemerken jedoch ‘während die Verwendung von UPRN vorgeschrieben ist, verwendet fast kein Regierungsministerium es, was bedeutet, dass das Verbinden der Daten erweiterte Datenverarbeitungsfähigkeiten erfordert.

Daher zielte die neue Forschung darauf ab, die Daten granularer und einblickreicher zu machen.

Daten sammeln und verbinden

Innerhalb eines einzelnen Landes sind Adressformate normalerweise vorhersehbar und konsistent, was auch auf britische Adressen zutrifft. Daher haben sich, angesichts von “flachen”, textbasierten Adressdaten (wie denen, die von OCOD bereitgestellt werden), eine Reihe von Open-Source-Adress-Parsing-Lösungen entwickelt, um Adressen mit anderen Datenquellen zu verknüpfen.

Allerdings sind viele davon mit OpenStreetMap-Daten trainiert, die Adressen liefern können, die tatsächlich Dutzende oder sogar Hunderte von verschachtelten Sub-Adressen (wie Apartments in einer breit gefächerten Adresse für ein Apartmentgebäude) enthalten. Folglich hatte sogar ein renommierter Adress-Parser wie libpostal Schwierigkeiten, wenn er versuchte, unvollständige Adressen zu parsen.

Um den Parser für ihr Projekt zu erstellen, verwendeten die Forscher des neuen Papiers eine Reihe von öffentlich zugänglichen Datensätzen. Die wichtigsten Daten wurden von OCOD bereitgestellt, während die Datenreinigungskomponente den Land Registry Price Datensatz sowie den VOA-Ratings-Listendatensatz und den Office of National Statistics Postcode Directory (ONSPD) verwendete.

Die Airbnb-Daten kamen von der InsideAirbnb-Domain, die nur ganze Häuser enthält, die vermietet werden, und somit den ursprünglich vorgeschlagenen Anwendungsfall für Airbnb (d. h. das Vermieten von Teilen oder dem gesamten eigenen Zuhause auf gelegentlicher Basis) ausschließt.

Die Autoren haben ihre Low-Use-Immobilien-Datensammlung durch Informationen ergänzt, die durch erfolgreiche Freedom-of-Information-Anfragen (FOI) gesammelt wurden, größtenteils für ein früheres Projekt gesammelt.

Die Basisdaten von OCOD sind eine .CSV-komma-getrennte Datei mit einem guten Grad an Struktur und vorhersehbarem Format.

Die Pipeline bestand aus fünf Stufen: Labeling, Parsing, Expanding, Classifying und Contracting. Zu Beginn konnte jede einzelne Adresse in der Realität auf mehrere verschachtelte Immobilien verweisen, obwohl dies in den von der Regierung bereitgestellten Daten nicht explizit ist.

Die Forscher führten einige leichte syntaktische Vorverarbeitung durch, importierten die Daten dann in programmatic, eine Plattform, die darauf ausgelegt ist, annotierte NLP-Datensätze ohne manuelles Labeling zu erstellen. Hier wurden Entitäten mit regulären Ausdrücken (Regex) zur Beschreibung von acht Arten von benannten Entitäten (siehe Bild unten) gelabelt:

Mit diesen Labels wurden die Daten als JSON-Datei extrahiert, wobei Label-Überschneidungen durch einfache regelbasierte Routinen entfernt wurden.

Zusätzlich wurde die Ausgabe von programmatic verwendet, um ein prädiktives Modell für SpaCy zu trainieren, das auf Facebooks RoBERTa basiert. Sobald die Daten denoisiert wurden, erstellten die Forscher einen Ground-Truth-Vergleichssatz von 1000 zufällig gelabelten Beobachtungen. Die Genauigkeit des unsuperviseden Daten würde letztendlich gegen diesen Ground-Truth bewertet.

Die Adress-Parsing stellte eine Reihe von Herausforderungen dar. Die Autoren wiesen jedem Zeichenbereich seine eigene Zeile und jeder Label-Klasse ihre eigene Spalte zu und erstellten dann vollständige Adresszeilen, indem sie die Spalten zurückpropagierten.

Da einige einzelne Adressen mehrere unterschiedliche Wohnungen enthielten, war es notwendig, die Datenbank zu erweitern, indem einzelne Adressen in Sub-Immobilien untergeordnet wurden, die in komplementären Datenbanken vorhanden waren.

Danach erfolgte die Adress-Klassifizierungsstufe, bei der alle gefundenen Postleitzahlen mit der ONSPD-Datenbank abgeglichen wurden. Dieser Prozess verbindet die Adressdaten mit Zensus- und anderen demografischen Daten und individuiert Sub-Immobilien, die zuvor hinter den undurchsichtigen Adressen der OCOD-Daten verborgen waren.

Schließlich filterte der Adress-Contraktionsprozess alle nicht-wohnlichen Immobilien (d. h. Geschäftsimmobilien) aus den verschachtelten Immobiliengruppen heraus.

Analyse

Um die Genauigkeit der erweiterten Daten zu testen, erstellten die Autoren, wie bereits erwähnt, eine Stichprobe des Ground-Truth, die von der allgemeinen Analyse zurückgehalten wurde und nur zum Testen der Genauigkeit der Vorhersagen und Analysen verwendet wurde.

Die manuelle Überprüfung des Ground-Truth umfasste die Verwendung von Kartensoftware sowie die Analyse von Bildern der in der zurückgehaltenen Stichprobe enthaltenen Immobilien und von Internet-Suchen, um den Immobilientyp zu bewerten. Anschließend wurde die Leistung der Daten anhand von Präzisions-, Recall- und F1-Scores gemessen.

Der Wert von Low-Use- und Wohnimmobilien wurde mit einem grundlegenden grafischen Modell ermittelt, das auch zur Inferenz von UDP-Immobilien verwendet wurde.

Die NER-Aufgabe, getestet gegen die hochwertige, manuell gelabelte Ground-Truth, erzielte einen F1-Score von 0,96 (nahe bei “100 %”, in Bezug auf Genauigkeit).

F1-Scores für die NER-Labeling-Aufgabe. Einige Unebenheiten sind vorhanden, da der Prozess die Anzahl der Wohnimmobilien leicht überschätzt und die Gesamtzahl der Geschäfte unterschätzt, aufgrund der Struktur der erweiterten Daten.

F1-Scores für die NER-Labeling-Aufgabe. Einige Unebenheiten sind vorhanden, da der Prozess die Anzahl der Wohnimmobilien leicht überschätzt und die Gesamtzahl der Geschäfte unterschätzt, aufgrund der Struktur der erweiterten Daten.

In Bezug auf UDPs in London zeigen die endgültigen Ergebnisse eine Gesamtzahl von 138.000 Einträgen – 44 % mehr als die 94.000 in der ursprünglichen OCOD-Datensammlung (d. h. die aktuellen offiziellen Zahlen).

Die Aufschlüsselung der Immobilientypen unter Typ 2-Klassifizierung.

Die Aufschlüsselung der Immobilientypen unter Typ 2-Klassifizierung.

Die Ergebnisse zeigen, dass der Gesamtwert der Offshore-Immobilien etwa 56 Milliarden GBP beträgt, während der Gesamtwert von Low-Use-Immobilien auf etwa 85 Milliarden GBP geschätzt wird.

Die Autoren bemerken:

‘[Alle] UDPs sind viel teurer als der Durchschnittspreis von 600.000 GBP für konventionelle Immobilien.’

Diese Art von verbesserten Daten kann notwendig sein, um die Verwendung von Immobilienspekulation als Geldwäsche-Aktivität im Vereinigten Königreich zu bekämpfen. Die Autoren bemerken die wachsende Zahl von Forschungen und allgemeinen Literatur, die darauf hindeutet, dass verbesserte Daten bei der Bekämpfung von AML-Immobilien-Spekulation helfen können, und schlussfolgern:

‘Diese Daten können von Soziologen, Ökonomen und politischen Entscheidungsträgern verwendet werden, um sicherzustellen, dass Versuche, Geldwäsche und hohe Immobilienpreise zu reduzieren, auf detaillierten Daten basieren, die die reale Situation widerspiegeln.’

 

* Meine Umwandlung der inline-Zitate der Autoren in Hyperlinks.

Erstveröffentlicht am 25. Juli 2022.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.