Kunstmatige intelligentie

AI biedt verbeterde tracking van offshore-eigendom in het VK

mm

Nieuw onderzoek van twee Britse universiteiten heeft als doel om meer licht te werpen op de mogelijke staat van geldwassen via onroerend goed in het Verenigd Koninkrijk, en vooral in de zeer gewilde Londense onroerendgoedmarkt.

Volgens de resultaten van het project bedraagt het totale aantal ‘onconventionele’ binnenlandse eigendommen (d.w.z. eigendommen die niet langdurig worden gebruikt als woningen door eigenaren of huurders) ongeveer 138.000 in Londen alleen.

Dit cijfer is 44% hoger dan de officiële cijfers, die worden geleverd en periodiek bijgewerkt door de Britse regering.

De onderzoekers gebruikten verschillende technieken voor Natural Language Processing (NLP), samen met aanvullende gegevens en ondersteunend onderzoek, om de beperkte officiële informatie die de Britse regering verstrekt over het percentage, de waarde, de locatie en de soorten onroerend goed dat in het VK wordt bezeten door offshore-bedrijven, te verbeteren, waarvan de meest winstgevende in de hoofdstad zijn.

Het onderzoek toonde aan dat het totale aantal offshore-, laaggebruikte en airbnb-achtige (d.w.z. ‘casuele bewoning’) eigendommen in het VK collectief een waarde hebben van tussen de £145-174 miljard GBP, verspreid over ongeveer 144.000-164.000 eigendommen.

Het toonde ook aan dat offshore-eigendommen van dit type doorgaans duurder zijn en specifieke patronen vertonen in verband met hun locatie in het VK.

De onderzoekers schatten dat offshore-eigendom van het type ‘onconventioneel binnenlands eigendom’ (UDP) 7,5% van de totale binnenlandse waarde vertegenwoordigt, en dat £56 miljard van de geschatte waarde beperkt is tot slechts 42.000 woningen.

Het artikel zegt:

‘Individuele offshore-eigendommen zijn zelfs volgens de UDP-normen zeer duur, bovendien zijn ze geconcentreerd in het centrum van Londen met een sterke ruimtelijke autocorrelatie.

‘In tegenstelling tot genestete offshore-eigendommen zijn deze minder geconcentreerd in centraal Londen, maar zijn ze over het algemeen meer geconcentreerd, en is er bijna geen ruimtelijke correlatie.’

De analyse van de uitgebreide gegevens toont aan dat een groot aantal offshore-eigendommen in bezit zijn van entiteiten in de Crown Dependencies (CD), waarbij het tweede grootste aantal wordt vertegenwoordigd door Britse overzeese gebieden (in de onderstaande grafiek wordt ‘PWW2’ aangeduid als landen die onafhankelijk werden van Groot-Brittannië na de Tweede Wereldoorlog).

Verdeling van buitenlands eigendom, volgens de resultaten van het nieuwe artikel. Bron: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf

Verdeling van buitenlands eigendom, volgens de resultaten van het nieuwe artikel. Bron: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf

Het artikel merkt op:

‘In feite zijn slechts 4 gebieden, de Britse Maagdeneilanden, Jersey, Guernsey en het eiland Man, geassocieerd met 78% van alle eigendommen.’

De nieuwe, uitgebreide gegevens hebben het mogelijk gemaakt om sub-eigendommen te bepalen die bestaan binnen een bekend buitenlands eigendom – een functionaliteit die doorgaans wordt belemmerd door de platte en beperkte gegevens die in de officiële cijfers worden verstrekt.

De resultaten geven ook aan dat offshore-, airbnb- en laaggebruikte eigendommen aanzienlijk meer geografisch geconcentreerd zijn dan normale woningen, en bovendien geconcentreerd in hogere-waardegebieden.

Hittekaarten met betrekking tot verschillende soorten buitenlands eigendom in Londen. Bron: https://arxiv.org/pdf/2207.10931.pdf

Visualisatie van concentratiekaarten met betrekking tot verschillende soorten buitenlands eigendom in Londen. Bron: https://arxiv.org/pdf/2207.10931.pdf

Over de bovenstaande grafiek merken de auteurs op:

‘Offshore binnenlands eigendom heeft enkele extreem hoge concentraties waar een hele woonwijk in bezit is van een offshore-bedrijf.’

De auteurs hebben code vrijgegeven voor hun verwerkingpijplijn.

Het nieuwe artikel heeft als titel Wat zit er in de wasserette? Kaart en karakterisering van offshore-eigendom in Londen, en komt van onderzoekers van de faculteit Bouwkunde van de University College London, en de afdeling Economie van de Kingston University.

Het aanpakken van het probleem

De auteurs merken op dat na decennia van inspanningen om het gebruik van onroerend goed voor het witwassen van geld in het Verenigd Koninkrijk te controleren, het vrijgeven van een gelekte lijst van buitenlands eigendom in het VK door de Britse publicatie Private Eye in 2015 nodig was om de Britse regering ertoe te brengen om een regelmatig bijgewerkte lijst van buitenlands eigendom in het grootste deel van het VK te publiceren, bekend als Buitenlandse bedrijven die eigendom bezitten in Engeland en Wales (OCOD).

De onderzoekers merken op dat hoewel OCOD een stap vooruit is in onderzoek en analyse van buitenlands eigendom en potentieel geldwassen in het VK, de gegevens een aantal beperkingen hebben, waarvan sommige cruciaal zijn:

‘Deze adressen kunnen onvolledig zijn, bevatten geneste eigendommen, waar meerdere eigendommen bestaan binnen een enkele rij of titelnummer, en bevatten geen informatie over of het eigendom een woning, bedrijf of iets anders is.

‘Dergelijke slechte kwaliteit gegevens maken het moeilijk om de verdeling en kenmerken van buitenlands eigendom in het VK te begrijpen.’

Het is vooral moeilijk om gegevens te verkrijgen over casual-verhuurde eigendommen, zoals airbnb-eigendommen, aangezien openbaar beschikbare gegevens beperkt of niet-bestaand zijn. Bovendien maakt Schotland (onderdeel van het Verenigd Koninkrijk) zijn eigen register van onroerendgoedtransacties niet openbaar beschikbaar, in tegenstelling tot Engeland en Wales.

Om enkele van de inconsistenties rond eigendomclassificatie te compenseren, introduceerde de Britse regering het systeem van Unieke Eigendomsreferentienummer (UPRN), ontworpen om duidelijkere relaties mogelijk te maken tussen diverse eigendomsgegevensbronnen. Echter, de auteurs merken op* ‘hoewel het gebruik van UPRN verplicht is, gebruikt vrijwel geen enkel overheidsdepartement het, waardoor het koppelen van de gegevens geavanceerde gegevensverwerking vaardigheden vereist’.

Daarom had het nieuwe onderzoek als doel om de gegevens meer granulair en inzichtelijk te maken.

Gegevens verzamelen en verbinden

Binnen elk afzonderlijk land zijn adresformaten meestal voorspelbaar en consistent, wat ook van toepassing is op Britse adressen. Daarom, geconfronteerd met ‘platte’, tekstgebaseerde adresgegevens (zoals die verstrekt door OCOD), zijn een aantal open-source adres-parsingoplossingen ontstaan om adressen te koppelen aan andere gegevensbronnen.

Echter, veel van deze zijn getraind met Open Street Map-gegevens, die adressen kunnen opleveren die daadwerkelijk tientallen of zelfs honderden geneste sub-adressen kunnen bevatten (zoals appartementen in een breed adres voor een appartementencomplex). Gevolglijk heeft zelfs een gerenommeerde adres-parser als libpostal moeite gehad bij het parseren van onvolledige adressen.

Om de parser voor hun project te creëren, gebruikten de onderzoekers van het nieuwe artikel een aantal openbaar beschikbare datasets. De belangrijkste gegevens werden verstrekt door OCOD, terwijl het gegevensreinigingscomponent het Land Registry Price dataset gebruikte, samen met de VOA-ratings lijstdataset, en de Office of National Statistics Postcode Directory (ONSPD).

De airbnb-gegevens kwamen van de InsideAirbnb-domein, dat alleen hele huizen omvat die worden verhuurd, en dus het oorspronkelijke voorgestelde gebruik van airbnb (d.w.z. het verhuren van een deel van je eigen huis op occasionele basis) uitsluit.

De onderzoekers van laaggebruikte eigendommen werden aangevuld met informatie verkregen via succesvolle Freedom of Information (FOI)-verzoeken, die voornamelijk werden verzameld voor een eerder project.

De basisgegevens van OCOD zijn een .CSV-comma-gescheiden bestand met een goede mate van structuur en voorspelbaar formaat.

De pijplijn bestond uit vijf fasen: labelen, parseren, uitbreiden, classificeren en contracteren. Aan het begin kon elk afzonderlijk adres in het echte leven corresponderen met meerdere geneste eigendommen, hoewel dit niet expliciet is in de door de regering verstrekte gegevens.

De onderzoekers voerden enkele lichte syntactische voorverwerking uit, importeerden vervolgens de gegevens in programmatic, een platform ontworpen om geannoteerde NLP-datasets te creëren zonder handmatig labelen. Hier werden entiteiten gelabeld met behulp van reguliere expressies (Regex) om acht soorten genoemde entiteiten te beschrijven (zie afbeelding hieronder):

Met deze labels toegevoegd, werd de dataset geëxtraheerd als een JSON-bestand, met labeloverlappingen verwijderd door eenvoudige regelgebaseerde routines.

Bovendien werd de output van programmatic gebruikt om een voorspellend model te trainen voor SpaCy, ondersteund door Facebook’s RoBERTa. Eenmaal gedenoised, creëerden de onderzoekers een grondwaarheidsvergelijkingsset van 1000 willekeurig gelabelde observaties. De nauwkeurigheidsscore van onbegeleide gegevens zou uiteindelijk worden geëvalueerd tegen deze grondwaarheid.

Adresparseren bood een aantal uitdagingen. De auteurs wijzen elk karakterbereik toe aan zijn eigen rij en elk labelklasse aan zijn eigen kolom, en vervolgens backpropageerden de kolommen om complete adresrijen te genereren.

Aangezien enkele enkele adressen meerdere distincte woningen bevatten, was het noodzakelijk om de database uit te breiden door enkele adressen te onderverdelen in sub-eigendommen die aanwezig zijn in aanvullende databases.

Hierna volgde de adresclassificatiefase, die alle gelokaliseerde postcodes croos-referentieerde met behulp van de ONSPD-database. Deze procedure verbindt de adresgegevens met census- en andere demografische gegevens, en individueert sub-eigendommen die eerder verborgen waren achter de ondoorzichtige adressen van de OCOD-gegevens.

Ten slotte filterde het adrescontracteringsproces alle niet-woningen (d.w.z. commerciële panden) uit geneste eigendommengroepen.

Analyse

Om de nauwkeurigheid van de verbeterde gegevens te testen, creëerden de auteurs, zoals eerder vermeld, een steekproef van grondwaarheid die werd teruggehouden van de algemene analyse, en alleen werd gebruikt om de nauwkeurigheid van de voorspellingen en analyses te testen.

Handmatige controle van de grondwaarheid omvatte het gebruik van kaartsoftware, evenals analyse van foto’s van de eigendommen in de teruggehouden set, en van internetzoekopdrachten om het type eigendom te evalueren. Vervolgens werd de prestatie van de gegevens gemeten tegen precisie, recall en F1-scores.

De waarde van laaggebruikte en binnenlandse eigendommen werd verkregen met een basisgrafisch model, dezelfde methode die werd gebruikt om UDP-eigendommen af te leiden.

De NER-taak, getest tegen de hoge-inspanning, handmatig gelabelde grondwaarheid, behaalde een F1-score van 0,96 (dicht bij ‘100%’, in termen van nauwkeurigheid).

F1-scores voor de NER-labeltaak. Enige onevenwichtigheid wordt gevonden, aangezien het proces de hoeveelheid binnenlandse eigendommen een beetje overschat en het totale aantal bedrijven onderschat, vanwege de structuur van de verbeterde gegevens.

F1-scores voor de NER-labeltaak. Enige onevenwichtigheid wordt gevonden, aangezien het proces de hoeveelheid binnenlandse eigendommen een beetje overschat en het totale aantal bedrijven onderschat, vanwege de structuur van de verbeterde gegevens.

Met betrekking tot UDP’s in Londen tonen de definitieve resultaten een totaal van 138.000 entries – 44% meer dan de 94.000 die in het originele OCOD-dataset worden vermeld (d.w.z. recente officiële cijfers).

De verdeling van eigendomstypen onder type 2-classificatie.

De verdeling van eigendomstypen onder type 2-classificatie.

De resultaten geven aan dat de totale waarde van de offshore-eigendommen ongeveer £56 miljard bedraagt, terwijl de totale waarde van laaggebruikte eigendommen wordt geschat op £85 miljard.

De auteurs merken op:

‘[Alle] UDP’s zijn veel duurder dan de gemiddelde conventionele eigendomsprijs van £600.000.’

Dit soort verbeterde gegevens kan nodig zijn om het gebruik van onroerendgoedspeculatie als een activiteit voor het witwassen van geld in het VK te bestrijden. De auteurs merken op dat er een groeiend aantal onderzoeken en literatuur is dat suggereert dat verbeterde gegevens kunnen helpen bij het bestrijden van AML-onroerendgoedspeculatie, en concluderen:

‘Deze gegevens kunnen worden gebruikt door sociologen, economen en beleidsmakers om ervoor te zorgen dat pogingen om geldwassen en hoge onroerendgoedprijzen te verminderen, zijn gebaseerd op gedetailleerde gegevens die de werkelijke situatie weerspiegelen.’

 

* Mijn conversie van de inline-citatie van de auteurs naar hyperlinks.

Origineel gepubliceerd op 25 juli 2022.

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.