Connect with us

AI tilbyder forbedret sporingsmulighed for ejendomsbesiddelse i Storbritannien

Kunstig intelligens

AI tilbyder forbedret sporingsmulighed for ejendomsbesiddelse i Storbritannien

mm

Ny forskning fra to britiske universiteter sigter mod at kaste mere lys over det potentielle niveau af ejendomsbaseret hvidvaskning i Storbritannien, og især på den højt værdsatte London-ejendomsmarked.

Ifølge projektets resultater er det totale antal ‘ukonventionelle’ boliger (dvs. ejendomme, der ikke bruges som fast bopæl af ejere eller lejere) på omkring 138.000 i London alene.

Dette tal er 44% højere end de officielle tal, som leveres og opdateres periodisk af den britiske regering.

Forskerne anvendte forskellige Natural Language Processing (NLP)-teknikker sammen med yderligere data og bekræftende forskning for at udvide den begrænsede officielle information, som den britiske regering stillede til rådighed om andelen, værdien, beliggenheden og typerne af ejendomme ejet af offshore-selskaber i Storbritannien, hvoraf de mest lukrative er i hovedstaden.

Forskningen fandt, at det samlede antal offshore-, lavt brugt og Airbnb-lignende ejendomme (dvs. ’tilfældig besættelse’) i Storbritannien er samlet set værd omkring 145-174 milliarder GBP over omkring 144.000-164.000 ejendomme.

Den fandt også, at offshore-ejendomme af denne type typisk er mere dyre og har signaturmønstre i forhold til, hvor de er beliggende i Storbritannien.

Forskerne estimerer, at offshore-ejet Ukonventionel Bolig (UDP) udgør 7,5% af den samlede boligværdi, og at 56 milliarder GBP af den estimerede værdi er begrænset til kun 42.000 boliger.

I artiklen står der:

‘Enkeltstående offshore-ejendomme er meget dyre, selv efter UDP-standarder, og de er koncentreret omkring centrum af London med stærk spatial autocorrelation.

‘Til gengæld er nestede offshore-ejendomme noget mindre koncentreret omkring central-London, men mere højt koncentreret i almindelighed, og der er næsten ingen spatial korrelation.’

Analyse af den udvidede data viser, at et stort antal offshore-ejendomme tilhører enheder i Crown Dependencies (CD), og det næststørste antal er repræsenteret af britiske oversøiske territorier (i diagrammet nedenfor betegnes ‘PWW2’ lande, der opnåede uafhængighed fra Storbritannien efter 2. verdenskrig).

Disposition af udenlandsk ejendom ifølge resultaterne fra den nye artikel. Kilde: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf

Disposition af udenlandsk ejendom ifølge resultaterne fra den nye artikel. Kilde: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf

I artiklen står der:

‘I virkeligheden er kun 4 territorier, British Virgin Islands, Jersey, Guernsey og Isle of Man, forbundet med 78% af alle ejendomme.’

Den nye forbedrede data har gjort det muligt at bestemme under-ejendomme, der findes inden for en kendt udenlandsk ejendom – en mulighed, der normalt er hæmmet af den flade og begrænsede data, der leveres i de officielle tal.

Resultaterne viser også, at offshore-, Airbnb- og lavt brugt ejendomme er bemærkelsesværdigt mere geografisk koncentreret end normale hjem, og er desuden koncentreret i højere værdi områder.

Heat-kort relateret til forskellige typer af udenlandsk ejendom i London. Kilde: https://arxiv.org/pdf/2207.10931.pdf

Visualiseret koncentrationskort relateret til forskellige typer af udenlandsk ejendom i London. Kilde: https://arxiv.org/pdf/2207.10931.pdf

Om ovenstående diagram skriver forfatterne:

‘Offshore boligejendom har nogle ekstremt høje koncentrationer, hvor en hel boligudvikling ejes af et offshore-selskab.’

Forfatterne har frigivet kode for deres procespipeline.

Den nye artikel har titlen Hvad er der i vaskemaskinen? Kortlægning og karakterisering af udenlandsk ejede boligejendom i London og kommer fra forskere ved The Bartlett Faculty of the Built Environment på University College London og Kingston University’s Department of Economics.

At løse problemet

Forfatterne bemærker, at efter årtiers bestræbelser for at kontrollere brugen af fast ejendom til hvidvaskningsformål i Storbritannien, tog det frigivelsen af en lækket liste over udenlandsk ejede britiske ejendomme af den britiske udgivelse Private Eye i 2015 for at få den britiske regering til at offentliggøre en regelmæssigt opdateret liste over udenlandsk ejede ejendomme i størstedelen af Storbritannien, kendt som Udenlandsk selskaber, der ejer ejendom i England og Wales (OCOD).

Forskerne observerer, at selvom OCOD er et skridt i retning af forskning og analyse af udenlandsk ejerskab og potentiel hvidvaskning i Storbritannien, har dataene en række begrænsninger, hvoraf nogle er afgørende:

‘Disse adresser kan være ufuldstændige, indeholde nestede ejendomme, hvor multiple ejendomme findes inden for en enkelt række eller titelnummer, og den indeholder ingen information om, hvorvidt ejendommen er bolig, forretning eller noget andet.

‘Sådanne dårlige kvalitetsdata gør det vanskeligt at forstå fordelingen og karakteristikken af udenlandsk ejede ejendom i Storbritannien.’

Det er særligt svært at få data om lejlighedsvist udlejet ejendom, såsom Airbnb-ejendomme, da offentligt tilgængelige data er begrænsede eller ikke-eksisterende. Derudover gør Skotland (en del af Storbritannien) ikke sin egen ejendomsregister offentligt tilgængelig, til forskel fra England og Wales.

For at modvirke nogle af de inkonsistenser omkring ejendomsklassificering introducerede den britiske regering Unique Property Reference Number (UPRN)-systemet, designet til at muliggøre klarere relationer på tværs af diverse ejendomsdatakilder. Forfatterne bemærker dog ‘mens brugen af UPRN er påkrævet, bruger næsten ingen regeringsafdeling det, hvilket betyder, at sammenkædning af data kræver avancerede dataprocesseringsfærdigheder færdigheder.

Derfor satte den nye forskning sig for at gøre dataene mere detaljerede og indsigtsgivende.

At indsamle og sammenkæde data

Inden for ethvert enkelt land er adresseformater normalt forudsigelige og konsistente, og dette gælder også for britiske adresser. Derfor, når man står over for ‘flade’, tekstbaserede adresse-data (såsom dem, der leveres af OCOD), er der opstået en række åbne kilde-adresse-parsningsløsninger til at krydskoble adresser med andre datakilder.

Men mange af disse er trænet med Open Street Map-data, som kan give adresser, der i virkeligheden kan rumme titals eller endda hundredvis af nestede underadresser (såsom lejligheder i en bred adresse for en lejlighedsbygning). Følgelig har selv en anerkendt adresse-parser som libpostal haft svært ved at parse ufuldstændige adresser.

For at oprette parseren til deres projekt anvendte artiklens forfattere en række offentligt tilgængelige datasæt. Den vigtigste data blev leveret af OCOD, mens datarensningskomponenten anvendte Land Registry Price dataset, sammen med VOA-ratings-listen og Office of National Statistics Postcode Directory (ONSPD).

Airbnb-data kom fra InsideAirbnb-domænet, som kun omfatter hele hjem, der udlejes, og derfor udelukker den oprindelige foreslåede brugsform for Airbnb (dvs. udlejning af hele eller dele af sin egen bolig på en lejlighedsvis basis).

Forfatternes lavt brugt ejendomsdataset blev suppleret med informationer, der blev modtaget via succesfulde Freedom of Information (FOI)-anmodninger, hovedsagelig indsamlet til et tidligere projekt.

Den grundlæggende data i OCOD er en .CSV-kommaadskilt fil med en god grad af struktur og forudsigelig format.

Procespipelinen bestod af fem faser: mærkning, parsing, udvidelse, klassificering og kontraktion. I begyndelsen kunne enhver enkelt adresse i virkeligheden svare til multiple nestede ejendomme, selvom dette ikke er eksplitt i den regeringsleverede data.

Forskerne udførte nogen let syntaktisk forarbejdning, derefter importerer de data til programmatic, en platform designet til at oprette annoterede NLP-datasæt uden håndmærkning. Her blev enheder mærket med regulære udtryk (Regex) for at beskrive otte typer navngivne enheder (se billedet nedenfor):

Med disse mærker tilføjet, blev datasættet extractor som en JSON-fil, med mærkeoverlappende fjernet ved simple regelbaserede rutiner.

Derudover blev programmatic’s output anvendt til at træne en prædictiv model for SpaCy, underbygget af Facebooks RoBERTa. Når den var renset, oprettede forskerne en grundsandssætning på 1000 tilfældigt mærkede observationer. Nøjagtighedsscoren for usuperviseret data ville til sidst blive evalueret mod denne grundsandssætning.

Adresseparsing præsenterede en række udfordringer. Forfatterne tildelte hver tegnspalet sin egen række og hver mærkeklasse sin egen kolonne, og derefter backpropagatede de kolonnerne for at generere komplette adresserækker.

Da nogle enkeltadresser havde multiple distinkte boliger, var det nødvendigt at udvide databasen ved at underopdele enkeltadresser i under-ejendomme, der er til stede i supplerende databaser.

Efter dette fulgte adresseklassificeringsfasen, der krydskoblede alle beliggende postnumre ved hjælp af ONSPD-databasen. Denne proces forbinder adresse-data til folketællings- og andre demografiske data og individuerer også under-ejendomme, der tidligere var skjult bag de uigennemsigtige adresser i OCOD-data.

Til sidst filtrerede adressekontraktionsprocessen alle ikke-boligejendomme (dvs. erhvervsejendomme) fra nestede ejendomsgrupper.

Analyse

For at teste nøjagtigheden af den forbedrede data oprettede forfatterne, som nævnt tidligere, en grundsandssætning, der blev holdt tilbage fra den generelle analyse, og kun blev brugt til at teste nøjagtigheden af forudsigelserne og analyserne.

Manuel kontrol for grundsandssætningen inkluderede brug af kortsoftware samt analyse af billeder af ejendommene, der var med i den tilbageholdte sæt, og af internetsøgninger for at evaluere ejendomstypen. Derefter blev dataens præstation målt mod præcision, recall og F1-scores.

Værdien af lavt brugt og boligejendom blev opnået med en grundlæggende grafisk model, samme metode, der blev anvendt til at slutte UDP-ejendomme.

NER-opgaven, testet mod den højindsats, manuelt mærkede grundsandssætning, opnåede en F1-score på 0,96 (tæt på ‘100%’, i forhold til nøjagtighed).

Med hensyn til UDP’er i London viser de endelige resultater et samlet antal på 138.000 poster – 44% mere end de 94.000, der er med i den oprindelige OCOD-datasæt (dvs. de seneste officielle tal).

Resultaterne viser, at den samlede værdi af offshore-ejendomme ligger omkring 56 milliarder GBP, mens den samlede værdi af lavt brugt ejendom estimeres til 85 milliarder GBP.

Forfatterne bemærker:

‘[Alle] UDP’er er meget mere dyre end gennemsnitsprisen for konventionelle ejendomme på 600.000 pund.’

Denne type forbedret data kan være nødvendig for at bekæmpe brugen af ejendomsspekulation som en hvidvaskningsaktivitet i Storbritannien. Forfatterne bemærker den voksende mængde forskning og almindelig litteratur, der antyder, at forbedret data kan hjælpe med at bekæmpe AML-ejendomsspekulation, og konkluderer:

‘Denne data kan bruges af sociologer, økonomer og beslutningstagerne til at sikre, at bestræbelserne på at reducere hvidvaskning og høje ejendomspriser er baseret på detaljeret data, der afspejler den virkelige situation.’

 

* Min konvertering af forfatterens inline-citation til hyperlinks.

Først udgivet den 25. juli 2022.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.