Artificiell intelligens
AI erbjuder förbÀttrad spÄrning av Àgande av offshore-egendom i Storbritannien

Ny forskning från två brittiska universitet syftar till att kasta mer ljus över den potentiella situationen för penningtvätt baserad på fastigheter i Storbritannien, och särskilt på den eftertraktade Londons fastighetsmarknad.
Enligt projektets resultat uppgår det totala antalet “oortodoxa” inhemska fastigheter (dvs. fastigheter som inte används långsiktigt som bostäder av ägare eller hyresgäster) till cirka 138 000 i London ensam.
Denna siffra är 44 % högre än de officiella siffrorna, som tillhandahålls och uppdateras regelbundet av den brittiska regeringen.
Forskarna använde olika tekniker för naturlig språkbehandling (NLP), tillsammans med ytterligare data och bekräftande forskning, för att utöka den begränsade officiella informationen som den brittiska regeringen tillhandahåller om andelen, värdet, platsen och typerna av fastigheter som ägs av offshore-företag i Storbritannien, de mest lukrativa av dessa finns i huvudstaden.
Forskningen visade att det totala antalet offshore-fastigheter med låg användning och airbnb-liknande (dvs. “tillfällig occupation”) fastigheter i Storbritannien är kollektivt värda mellan 145-174 miljarder GBP över cirka 144 000-164 000 fastigheter.
Den visade också att offshore-fastigheter av denna typ är typiskt sett dyrare och har signaturmönster när det gäller var de är belägna i Storbritannien.
Forskarna uppskattar att offshore-ägd oortodox inhemska fastighet (UDP) representerar 7,5 % av den totala inhemska värdet, och att 56 miljarder GBP av den uppskattade värdet är begränsad till endast 42 000 bostäder.
Papperet säger:
‘Enskilda offshore-fastigheter är mycket dyra, även enligt UDP-standarder, och de är koncentrerade till Londons centrum med stark spatial auto-korrelation.
‘I kontrast är nested offshore-fastighet något mindre koncentrerad till centrala London men mer högt koncentrerad i allmänhet, och det finns också nästan ingen spatial korrelation.’
Analysen av den utökade datan visar att ett stort antal offshore-fastigheter tillhör enheter i Crown Dependencies (CD), med det näst största antalet som tillhör brittiska utomeuropeiska territorier (i diagrammet nedan betecknas “PWW2” länder som fick oavhängighet från Storbritannien efter andra världskriget).

Disposition av utländskt ägd fastighet, enligt resultaten från den nya artikeln. Källa: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf
Papperet observerar:
‘I själva verket är endast 4 territorier, Brittiska Jungfruöarna, Jersey, Guernsey och Isle of Man, associerade med 78 % av alla fastigheter.’
Den nya utökade datan har gjort det möjligt att bestämma under-fastigheter som finns inom en känd utländskt ägd fastighet – en förmåga som vanligtvis hindras av den platta och begränsade datan som tillhandahålls av den brittiska regeringen.
Resultaten visar också att offshore-, Airbnb- och låg-användningsfastigheter är påfallande mer geografiskt koncentrerade än vanliga hem, och är dessutom koncentrerade till högre värdeområden.

Visualiserade koncentrationskartor relaterade till olika typer av utländskt ägd fastighet i London. Källa: https://arxiv.org/pdf/2207.10931.pdf
Om ovanstående diagram kommenterar författarna:
‘Offshore inhemska fastighet har några extremt höga koncentrationer där en hel bostadsutveckling ägs av ett utländskt företag.’
Författarna har släppt kod för sin bearbetningspipeline.
Den nya artikeln är titlad Vad finns i tvätten? Kartläggning och karakterisering av utländskt ägd inhemska fastighet i London, och kommer från forskare vid The Bartlett Faculty of the Built Environment vid University College London, och Kingston Universitys avdelning för nationalekonomi.
Att åtgärda problemet
Författarna noterar att efter decennier av ansträngningar för att kontrollera användningen av fastigheter för penningtvätt i Storbritannien, tog det utgivningen av en läckt lista över utländskt ägd brittisk fastighet av den brittiska publikationen Private Eye 2015 för att sporra den brittiska regeringen att publicera en regelbundet uppdaterad lista över utländskt ägd fastighet i de flesta delar av Storbritannien, känd som Utländska företag som äger fastighet i England och Wales (OCOD).
Forskarna observerar att även om OCOD är ett steg framåt för forskning och analys av utländskt ägande och potentiell penningtvätt i Storbritannien, har datan ett antal begränsningar, vissa av dem avgörande:
‘Dessa adresser kan vara ofullständiga, innehålla nested fastigheter, där flera fastigheter finns inom en enda rad eller titelnummer, det innehåller också ingen information om fastigheten är inhemska, kommersiella eller något annat.
‘Sådan dålig kvalitet på data gör det svårt att förstå fördelningen och egenskaperna hos utländskt ägd fastighet i Storbritannien.’
Det är särskilt svårt att få data om tillfälligt uthyrda fastigheter, såsom Airbnb-fastigheter, eftersom offentligt tillgänglig data är begränsad eller obefintlig. Dessutom gör Skottland (en del av Storbritannien) inte sin egen register över fastighetsförsäljningar offentligt tillgänglig, till skillnad från England och Wales.
För att motverka vissa av de inkonsekvenser som finns kring fastighetsklassificering, införde den brittiska regeringen systemet för Unik Fastighetsreferensnummer (UPRN), som är utformat för att möjliggöra tydligare relationer mellan olika fastighetsdatakällor. Författarna noterar dock ‘medan användningen av UPRN är obligatorisk, använder nästan ingen regeringsavdelning det, vilket innebär att länkning av data kräver avancerad data bearbetning färdigheter‘.
Därför satte den nya forskningen ut att göra datan mer granulär och insiktsfull.
Insamling och anslutning av data
Inom varje enskilt land är adressformaten vanligtvis förutsägbara och konsekventa, tillämpliga också på brittiska adresser. Därför, när man står inför “platt”, textbaserad adressdata (såsom den som tillhandahålls av OCOD), har ett antal öppen källkodsadressparsningslösningar dykt upp för att korsreferera adresser till andra datakällor.
Men många av dessa är tränade med Open Street Map-data, som kan ge adresser som faktiskt kan hysa tiotals eller till och med hundratals nested underadresser (såsom lägenheter i en bred adress för en lägenhetsbyggnad). Följaktligen har även en berömd adressparser som libpostal haft svårigheter när de försökt parsera ofullständiga adresser.
För att skapa parsaren för sitt projekt använde de nya papperets forskare ett antal offentligt tillgängliga datamängder. Den viktigaste datan tillhandahölls av OCOD, medan datarengöringskomponenten använde Land Registry Price dataset, tillsammans med VOA ratings-listan och Office of National Statistics Postcode Directory (ONSPD).
Airbnb-datan kom från InsideAirbnb-domänen, som endast inkluderar hela hem som hyrs ut, och därmed utesluter den ursprungliga föreslagna användningen av Airbnb (dvs. att hyra ut en del av eller hela sin egen bostad på ett tillfälligt sätt).
Författarnas låg-användningsfastighetsdataset kompletterades med information som mottogs från framgångsrika Freedom of Information (FOI)-begäranden, som till stor del samlades in för ett tidigare projekt.
Basdatan för OCOD är en .CSV-kommaavgränsad fil med en god grad av struktur och förutsägbar format.

Pipelinen bestod av fem faser: märkning, parsning, utvidgning, klassificering och kontrahering. Inledningsvis kunde varje enskild adress lösa sig till flera nested fastigheter i verkligheten, även om detta inte är explicit i den regerings tillhandahållna datan.
Forskarna utförde någon lätt syntaktisk förbehandling, sedan importerade de datan till programmatic, en plattform utformad för att skapa annoterade NLP-datasets utan handmärkning. Här märktes entiteter med hjälp av reguljära uttryck (Regex) för att beskriva åtta typer av namngivna entiteter (se bild nedan):

Med dessa märken tillagda, extraherades datamängden som en JSON-fil, med märkesöverlappning borttagen genom enkla regelbaserade rutiner.
Dessutom användes programmatisk utdata för att träna en prediktiv modell för SpaCy, underbyggd av Facebooks RoBERTa. När den väl var avrenad skapade forskarna en grundtruth-jämförelsemängd av 1000 slumpmässigt märkta observationer. Noggrannhetsscoren för oövervakad data skulle slutligen utvärderas mot denna grundtruth.
Adressparsning presenterade ett antal utmaningar. Författarna tilldelade varje teckenomfång sin egen rad och varje märkklass sin egen kolumn, och sedan backpropagerade kolumnerna för att generera fullständiga adressrader.
Eftersom vissa enskilda adresser innehöll flera distinkta bostäder, var det nödvändigt att utöka databasen genom att underindela enskilda adresser i under-fastigheter som finns i kompletterande databaser.
Efter detta var adressklassificeringssteget att korsreferera alla belägna postkoder med hjälp av ONSPD-databasen. Denna process ansluter adressdatan till folkräkning och annan demografisk data, och individuerar också under-fastigheter som tidigare varit dolda bakom de opaka adresserna i OCOD-datan.
Slutligen filtrerade adresskontraktionsprocessen bort alla icke-inhemska fastigheter (dvs. kommersiella lokaler) från nested fastighetsgrupper.
Analys
För att testa noggrannheten i den utökade datan skapade författarna, som tidigare nämnts, en provmängd som hölls tillbaka från den allmänna analysen, och användes endast för att testa noggrannheten i förutsägelserna och analyserna.
Manuell kontroll för grundtruthen inkluderade användning av kartprogramvara, samt analys av bilder av fastigheterna som presenterades i den tillbakahållna mängden, och internet-sökningar för att utvärdera fastighetstypen. Därefter mättes datans prestanda mot precision, återkallande och F1-poäng.
Värdet av låg-användnings- och inhemska fastigheter erhölls med en grundläggande grafisk modell, samma metod som användes för att härleda UDP-egenskaper.
NER-uppgiften, testad mot den höginsats, manuellt märkta grundtruthen, erhöll en F1-poäng på 0,96 (nära “100 %”, i termer av noggrannhet).

F1-poäng för NER-märkningsuppgiften. Någon ojämnhet finns, eftersom processen något överskattar antalet inhemska fastigheter och underskattar det totala antalet företag, på grund av datans struktur.
Vad gäller UDP i London visar de slutliga resultaten en total på 138 000 poster – 44 % fler än de 94 000 som finns i den ursprungliga OCOD-dataseten (dvs. de senaste officiella siffrorna).

Fördelningen av fastighetstyper under typ 2-klassificering.
Resultaten visar att det totala värdet av offshore-fastigheterna uppgår till cirka 56 miljarder GBP, medan det totala värdet av låg-användningsfastigheter uppskattas till 85 miljarder GBP.
Författarna noterar:
‘[Alla] UDP är mycket dyrare än den genomsnittliga konventionella fastighetspriset på 600 000 pund.’
Denna typ av förbättrad data kan vara nödvändig för att bekämpa användningen av fastighets spekulation som en penningtvättsaktivitet i Storbritannien. Författarna noterar den växande mängden forskning och allmän litteratur som tyder på att förbättrad data kan hjälpa till att bekämpa AML-fastighetsspekulation, och slutsatsen:
‘Denna data kan användas av sociologer, ekonomer och beslutsfattare för att säkerställa att försök att minska penningtvätt och höga fastighetspriser baseras på detaljerad data som återspeglar den verkliga situationen.’
* Min omvandling av författarnas inline-citat till hyperlänkar.
Publicerad första gången den 25 juli 2022.












