Kunstig intelligens
AI tilbyr forbedret sporingsverktøy for utenlandske eiendommer i Storbritannia

Ny forskning fra to britiske universiteter har som mål å kaste mer lys over den potensielle tilstanden for eiendomsbasert hvitvasking av penger i Storbritannia, og særlig i den høyt prisede London-eiendomsmarkedet.
Ifølge prosjektets resultater, er det totale antallet “uconventionelle” hjemmeeiendommer (dvs. eiendommer som ikke brukes over lengre perioder som boliger av eiere eller leietakere) på rundt 138 000 i London alene.
Dette tallet er 44% høyere enn de offisielle tallene, som leveres og oppdateres jevnlig av den britiske regjeringen.
Forskerne brukte ulike tekniker for naturlig språkbehandling (NLP), sammen med ekstra data og støttende forskning, for å utvide den begrensede offisielle informasjonen som den britiske regjeringen gir om prosenten, verdi, plassering og typer eiendommer eid av utenlandske selskaper i Storbritannia, hvor de mest lukrative er i hovedstaden.
Forskningen fant at det totale antallet utenlandske, lavt utnyttede og airbnb-liknende (dvs. “tilfeldig okkupasjon”) eiendommer i Storbritannia er samlet verdt mellom £145-174 milliarder GBP over omtrent 144 000-164 000 eiendommer.
Det ble også funnet at utenlandske eiendommer av denne typen er typisk mer dyre og har signaturmønster i forhold til hvor de er plassert i Storbritannia.
Forskerne anslår at utenlandske eid “uconventionell hjemmeeiendom” (UDP) representerer 7,5% av den totale hjemmeverdien, og at £56 milliarder av den anslåtte verdien er begrenset til bare 42 000 boliger.
Papiret sier:
‘Enkeltstående utenlandske eiendommer er svært dyre, selv etter UDP-standarder, i tillegg er de konsentrert i sentrum av London med sterk romlig autocorrelasjon.
‘I motsetning er innlejrede utenlandske eiendommer noe mindre konsentrert i sentrum av London, men mer høyt konsentrert generelt, og det finnes nesten ingen romlig korrelasjon.’
Analyse av den utvidede datoen viser at et stort antall utenlandske eiendommer tilhører enheter i Crown Dependencies (CD), med det nest største antallet representert av britiske oversjøiske territorier (i diagrammet nedenfor, betegnes “PWW2” land som oppnådde uavhengighet fra Storbritannia etter andre verdenskrig).

Fordeling av utenlandske eid eiendommer, ifølge resultater fra den nye artikkelen. Kilde: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf
Papiret observerer:
‘I virkeligheten er det bare 4 territorier, De britiske jomfruøyene, Jersey, Guernsey og øya Man, som er assosiert med 78% av alle eiendommer.’
Den nye forbedrede datoen har gjort det mulig å bestemme under-eiendommer som eksisterer innen en kjent utenlandsk eid eiendom – en evne som vanligvis hindres av den flate og begrensede datoen som den britiske regjeringen gir.
Resultatene indikerer også at utenlandske, airbnb og lavt utnyttede eiendommer er mer geografisk konsentrert enn vanlige hjem, og er i tillegg konsentrert i høyere verdier.

Visualisert konsentrasjonskart relatert til ulike typer utenlandske eid eiendommer i London. Kilde: https://arxiv.org/pdf/2207.10931.pdf
Om ovennevnte graf, kommenterer forfatterne:
‘Utenlandsk hjemmeeiendom har noen ekstremt høye konsentrasjoner hvor en hel boligutvikling eies av et utenlandsk selskap.’
Forfatterne har gjort kode for deres prosesseringssystem.
Den nye artikkelen har tittelen Hva er i vaskemaskinen? Kartlegging og karakterisering av utenlandsk eid hjemmeeiendom i London, og kommer fra forskere ved The Bartlett Faculty of the Built Environment ved University College London, og Kingston Universitys økonomiavdeling.
Å løse problemet
Forfatterne påpeker at etter tiår med innsats for å kontrollere bruken av eiendom til hvitvasking av penger i Storbritannia, tok det utgivelsen av en lekket liste over utenlandsk eid britisk eiendom av den britiske publikasjonen Private Eye i 2015 til å få den britiske regjeringen til å publisere en jevnlig oppdatert liste over utenlandsk eid eiendom i de fleste deler av Storbritannia, kjent som Utenlandske selskaper som eier eiendom i England og Wales (OCOD).
Forskerne observerer at selv om OCOD er et skritt i riktig retning for forskning og analyse av utenlandsk eierskap og potensiell hvitvasking i Storbritannia, har datoen en rekke begrensninger, noen av dem kritiske:
‘Disse adressene kan være ufullstendige, inneholde innlejrede eiendommer, hvor flere eiendommer eksisterer innen en enkelt rad eller tittelnummer, det inneholder også ingen informasjon om hvorvidt eiendommen er hjemme, forretning eller noe annet.
‘Slike dårlige kvalitetsdata gjør det vanskelig å forstå distribusjonen og karakteristikkene til utenlandsk eid eiendom i Storbritannia.’
Det er særlig vanskelig å få tak i data om tilfeldig leide eiendom, som airbnb-eiendommer, siden offentlig tilgjengelig data er begrenset eller ikke eksisterer. I tillegg gjør Skottland (en del av Storbritannia) ikke sin egen register over eiendomssalg offentlig tilgjengelig, i motsetning til England og Wales.
For å motvirke noen av inkonsistensene rundt eiendomsklassifisering, innførte den britiske regjeringen systemet for Unik Eiendomsreferansenummer (UPRN), designet for å muliggjøre tydeligere relasjoner over diverse eiendomsdatakilder. Forskerne påpeker imidlertid ‘at selv om bruk av UPRN er pålagt, bruker nesten ingen regjeringsavdeling det, noe som gjør at kobling av data krever avanserte databehandling ferdigheter‘.
Derfor satte den nye forskningen ut å gjøre datoen mer granulert og innsiktsfull.
Samling og kobling av data
Innenfor et enkelt land er adresseformat vanligvis forutsigbare og konsistente, og dette gjelder også for britiske adresser. Derfor, når man konfronteres med “flate”, tekstbaserte adresse-data (slik som den som leveres av OCOD), har en rekke åpne kildeadresse-parsingsløsninger dukket opp for å krysseferere adresser til andre datakilder.
Men mange av disse er trent ved hjelp av Open Street Map-data, som kan føre til adresser som faktisk kan inneholde titalls eller endat hundrevis av innlejrede under-adresser (slik som leiligheter i en bred adresse for en leilighetsblokk). Derfor har selv en anerkjent adresse-parser som libpostal hatt vanskeligheter når de prøver å parsere ufullstendige adresser.
For å lage parseren for deres prosjekt, brukte de nye artikkelforfatterne en rekke offentlig tilgjengelige dataserier. Den viktigste datoen ble levert av OCOD, mens datarensningkomponenten brukte Land Registry Price dataset, sammen med VOA-ratings-listing dataset, og Office of National Statistics Postcode Directory (ONSPD).
Airbnb-dataene kom fra InsideAirbnb-domenet, som bare inkluderer hele hjem som leies, og dermed ekskluderer den opprinnelige foreslåtte bruksmåten for Airbnb (dvs. å leie ut hele eller deler av sin egen hjem på en tilfeldig basis).
Forfatternes lavt utnyttede eiendomsdataset ble supplert med informasjon mottatt fra vellykkede FoI-forespørsler, hovedsakelig samlet inn for et tidligere prosjekt.
Grunnlaget for OCOD-daten er en .CSV-kommaadskilt fil med en god del struktur og forutsigbar format.

Prosessen bestod av fem stadier: labeling, parsing, utvidelse, klassifisering og kontrahering. I utgangspunktet kunne en enkelt adresse løse seg i virkeligheten til flere innlejrede eiendommer, selv om dette ikke er eksplisitt i den regjeringsleverte datoen.
Forskerne utførte noen lette syntaktiske forbehandlinger, og importerte deretter datoen til programmatic, en plattform designet for å lage annoterte NLP-datasett uten håndmerking. Her ble enheter merket med regulære uttrykk (Regex) for å beskrive åtte typer navngitte enheter (se bildet nedenfor):

Med disse merkene lagt til, ble datoen eksportert som en JSON-fil, med merk-overlapp fjernet ved hjelp av enkle regelbaserte rutiner.
I tillegg ble programmatisk output brukt til å trene en prediktiv modell for SpaCy, underbygget av Facebooks RoBERTa. Når den ble renset, skapte forskerne en sammenligningssett med 1000 tilfeldig merkte observasjoner. Nøyaktighetspoeng for uovervåket data ville til slutt bli evaluert mot denne sammenligningssettet.
Adresse-parsing presenterte en rekke utfordringer. Forfatterne tildelte hver tegnspann sin egen rad og hver labelklasse sin egen kolonne, og deretter backpropagerte kolonnene for å generere fullstendige adresse-rader.
Ettersom enkelte enkeltadresser hadde flere distinkte boliger, var det nødvendig å utvide databasen ved å underdele enkeltadresser til under-eiendommer tilstede i komplementære databaser.
Etter dette, kryssefererte adresse-klassifiseringsstadiet alle plasserte postkoder ved hjelp av ONSPD-databasen. Denne prosessen kobler adresse-data til folketelling og andre demografiske data, og individuerer også under-eiendommer som tidligere hadde vært skjult bak den uklare adressen til OCOD-daten.
Til slutt filtrerte adresse-kontraktionsprosessen ut alle ikke-hjemmeeiendommer (dvs. kommersielle eiendommer) fra innlejrede eiendommer.
Analyse
For å teste nøyaktigheten av den forbedrede datoen, skapte forfatterne, som tidligere nevnt, en prøve-sammenligningssett som ble holdt tilbake fra den generelle analysen, og bare brukt til å teste nøyaktigheten av forutsagn og analyser.
Manuell sjekking for sammenligningssettet inkluderte bruk av kartprogramvare, samt analyse av bilder av eiendommene presentert i det tilbakeholdte settet, og av internett-søk for å evaluere typen eiendom. Deretter ble datatilgjengelighetens ytelse målt mot presisjon, gjentakelse og F1-poeng.
Verdien av lavt utnyttede og hjemme-eiendommer ble oppnådd med en grundig grafisk modell, samme metode som ble brukt til å slutte seg til UDP-eiendommer.
NER-oppgaven, testet mot den høye innsatsen, manuelt merket sammenligningssettet, oppnådde en F1-poeng på 0,96 (nær ‘100%’, i forhold til nøyaktighet).

F1-poeng for NER-merkingoppgaven. Noen uregelmessigheter finnes, siden prosessen lett overestimerer antallet hjemme-eiendommer og underestimerer det totale antallet bedrifter, på grunn av datatilgjengelighetens struktur.
I forhold til UDP-er i London, viser de endelige resultater en total på 138 000 oppføringer – 44% mer enn de 94 000 presentert i den originale OCOD-datasett (dvs. nylige offisielle tall).

Oppdeling av eiendomstyper under type 2-klassifisering.
Resultatene indikerer at den totale verdien av utenlandske eiendommer ligger på rundt £56 milliarder, mens den totale verdien av lavt utnyttede eiendommer estimeres til £85 milliarder.
Forfatterne påpeker:
‘[Alle] UDP-er er mye dyrere enn gjennomsnittsprisen for konvensjonelle eiendommer på £600 000.’
Denne type forbedret data kan være nødvendig for å bekjempe bruken av eiendomsspekulasjon som en hvitvaskingsaktivitet i Storbritannia. Forfatterne påpeker den voksende mengden forskning og generell litteratur som antyder at forbedret data kan hjelpe med å bekjempe AML-eiendomsspekulasjon, og konkluderer:
‘Denne datoen kan brukes av sosiologer, økonomer og politiske beslutningstakere for å sikre at forsøk på å redusere hvitvasking og høye eiendomspriser er basert på detaljert data som reflekterer den virkelige situasjonen.’
* Min konvertering av forfatternes inline-citater til hyperlenker.
Først publisert 25. juli 2022.












