stub AI tilbyr forbedret sporing av offshore eiendomseierskap i Storbritannia - Unite.AI
Kontakt med oss

Kunstig intelligens

AI tilbyr forbedret sporing av offshore eiendomseierskap i Storbritannia

mm
oppdatert on

Ny forskning fra to britiske universiteter tar sikte på å kaste et større lys over den potensielle tilstanden for eiendomsbasert hvitvasking i Storbritannia, og spesielt i det høyt verdsatte London-eiendomsmarkedet.

I følge prosjektets resultater er det totale antallet 'ukonvensjonelle' boligeiendommer (dvs. eiendommer som ikke brukes langsiktig som boliger av eiere eller leietakere) på rundt 138,000 XNUMX bare i London.

Dette tallet er 44 % høyere enn de offisielle tallene, som leveres og periodisk oppdateres av den britiske regjeringen.

Forskerne brukte ulike Natural Language Processing (NLP)-teknikker, sammen med tilleggsdata og bekreftende forskning, for å utvide den begrensede offisielle informasjonen som den britiske regjeringen gjør tilgjengelig om prosentandelen, verdien, plasseringen og typene eiendom som eies av offshore-selskaper i Storbritannia , hvorav de mest lukrative er i hovedstaden.

Undersøkelsen fant at den totale mengden offshore-, lavbruks- og airbnb-lignende (dvs. "tilfeldig okkupasjon") eiendommer i Storbritannia til sammen er verdt et sted mellom £145-174 milliarder GBP fordelt på omtrent 144,000-164,000 eiendommer.

Den fant også at offshore-eiendommer av denne typen typisk er dyrere og har signaturmønstre i forhold til hvor de er lokalisert i Storbritannia.

Forskerne anslår at offshore-eide Ukonvensjonell boligeiendom (UDP) representerer 7.5% av den totale innenlandske verdien, og at 56 milliarder pund av den estimerte verdien er begrenset til bare 42,000 XNUMX boliger.

Papiret sier:

"Individuelle offshore-eiendommer er svært dyre selv etter standardene til UDP, i tillegg er de konsentrert om London sentrum med sterk romlig autokorrelasjon.

"Derimot er nestet offshore-eiendom noe mindre konsentrert til London sentrum, men mer konsentrert generelt, det er heller nesten ingen romlig korrelasjon."

Analyse av de utvidede dataene viser at et stort antall offshore-eiendommer tilhører enheter i Publikumsavhengigheter (CD), med det nest største antallet som står for av britiske oversjøiske territorier (i diagrammet nedenfor betyr 'PWW2' land som oppnådde uavhengighet fra Storbritannia etter andre verdenskrig).

Disponering av utenlandsk eid eiendom, ifølge resultatene fra det nye papiret. Kilde: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf

Disponering av utenlandsk eid eiendom, ifølge resultatene fra det nye papiret. Kilde: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf

Avisen observerer:

"Faktisk er bare 4 territorier, British Virgin Islands, Jersey, Guernsey og The Isle of Man, assosiert med 78 % av alle eiendommer."

De nye forbedrede dataene har gjort det mulig å bestemme undereiendommer som eksisterer innenfor en kjent utenlandseid eiendom – en evne som vanligvis hindres av de flate og begrensede dataene gitt i de offisielle tallene.

Resultatene indikerer også at offshore-, Airbnb- og lavbrukseiendommer er spesielt mer geografisk konsentrert enn vanlige boliger, og er i tillegg konsentrert til områder med høyere verdi.

Varmekart relatert til ulike typer utenlandseide eiendommer i London. Kilde: https://arxiv.org/pdf/2207.10931.pdf

Visualiserte konsentrasjonskart relatert til ulike typer utenlandseide eiendommer i London. Kilde: https://arxiv.org/pdf/2207.10931.pdf

Av grafen ovenfor kommenterer forfatterne:

"Offshore innenlandsk eiendom har noen ekstremt høye konsentrasjoner der en hel boligutvikling eies av et offshoreselskap."

Forfatterne har utgitt kode for deres prosesseringsrørledning.

De nytt papir har tittelen Hva er i vaskeriet? Kartlegging og karakterisering av offshore-eid innenlandsk eiendom i London, og kommer fra forskere ved The Bartlett Faculty of the Built Environment ved University College London, og Kingston Universitys Department of Economics.

Løser problemet

Forfatterne bemerker at etter tiår med innsats for å kontrollere bruken av fast eiendom til hvitvaskingsformål i Storbritannia, tok det slipp av en lekket liste over offshore-eid britisk eiendom av den britiske publikasjonen Private Eye i 2015 for å anspore den britiske regjeringen til å publisere en jevnlig oppdatert liste over offshore-eide eiendommer i det meste av Storbritannia, kjent som Oversjøiske selskaper som eier eiendom i England og Wales (OCOD).

Forskerne observerer at selv om OCOD er ​​et skritt fremover for forskning og analyse av utenlandsk eierskap og potensiell hvitvasking av penger i Storbritannia, har dataene en rekke begrensninger, noen av dem avgjørende:

'Disse adressene kan være ufullstendige, inneholde nestede eiendommer, der det finnes flere eiendommer innenfor en enkelt rad eller tittelnummer, inneholder den heller ingen informasjon om eiendommen er innenlands, bedrift eller noe annet.

"Slike data av dårlig kvalitet gjør det vanskelig å forstå distribusjonen og egenskapene til offshore-eid eiendom i Storbritannia."

Det er spesielt vanskelig å få tak i data om tilfeldig leid eiendom som Airbnb-eiendommer, siden offentlig tilgjengelig data er begrenset eller ikke-eksisterende. I tillegg gjør ikke Skottland (en del av Storbritannia) sitt eget register over eiendomssalg offentlig tilgjengelig, i motsetning til England og Wales.

For å motvirke noen av inkonsekvensene rundt eiendomsklassifisering, introduserte den britiske regjeringen Unique Property Reference Number (UPRN)-system, designet for å muliggjøre klarere relasjoner på tvers av ulike eiendomsdatakilder. Imidlertid bemerker forfatterne* «Selv om bruken av UPRN er pålagt, bruker nesten ingen myndighetsdepartement det, noe som betyr at kobling av dataene krever avansert databehandling ferdigheter'.

Derfor tok den nye forskningen ut på å gjøre dataene mer detaljerte og innsiktsfulle.

Innsamling og tilkobling av data

I ethvert enkelt land er adresseformater vanligvis forutsigbare og konsistente, og gjelder også for adresser i Storbritannia. I møte med 'flate', tekstbaserte adresserte data (slik som det levert av OCOD), har det dukket opp en rekke åpen kildekode-adresseparsingløsninger for å kryssreferanseadresser til andre datakilder.

Imidlertid er mange av disse trent i bruk Åpne gatekart data, som kan gi adresser som faktisk kan være vert for titalls eller til og med hundrevis av nestede underadresser (for eksempel leiligheter i en bred adresse for en boligblokk). Følgelig kan selv en anerkjent adresseparser som f.eks libpostal har hadde vanskeligheter når du prøver å analysere ufullstendige adresser.

For å lage parseren for prosjektet deres brukte den nye artikkelens forskere en rekke offentlig tilgjengelige datasett. Nøkkeldataene ble levert av OCOD, mens datarensekomponenten brukte Matrikkelprisen datasett, Sammen med den VOA-vurderinger listedatasett, og Office of National Statistics postnummerkatalog (ONSPD).

Airbnb-dataene kom fra InsideAirbnb domene, som kun inkluderer hele boliger som leies ut, derfor ekskluderer den opprinnelige foreslåtte brukssaken for Airbnb (dvs. utleie av hele eller deler av egen bolig av og til).

Forfatternes lite brukte eiendomsdatasett ble utvidet med informasjon mottatt fra vellykkede Freedom of Information (FOI)-forespørsler, hovedsakelig samlet inn for en tidligere prosjekt.

Grunndataene til OCOD er ​​en .CSV kommadelt fil med god grad av struktur og forutsigbart format.

Rørledningen besto av fem stadier: merking, parsing, utvidelse, klassifisering og kontraktering. Til å begynne med kunne enhver individuell adresse i det virkelige liv løses til flere nestede egenskaper, selv om dette ikke er eksplisitt i de offentlige dataene.

Forskerne utførte litt syntaktisk forbehandling, og importerte deretter dataene til programma, en plattform designet for å lage kommenterte NLP-datasett uten håndmerking. Her ble enheter merket med regulære uttrykk (Regex) for å beskrive åtte typer navngitte enheter (se bildet nedenfor):

Med disse etikettene lagt til, ble datasettet trukket ut som en JSON-fil, med etikettoverlappinger fjernet av enkle regelbaserte rutiner.

I tillegg ble programmatics utgang brukt til å trene en prediktiv modell for SpaCy, underbygget av Facebooks ROBERTA. Når forskerne først ble fornektet, laget de et sammenligningssett med 1000 tilfeldig merkede observasjoner. Nøyaktighetspoengsummen til uovervåket data vil til slutt bli evaluert mot denne grunnsannheten.

Adresseparsing ga en rekke utfordringer. Forfatterne tildelte hvert tegn spenner over sin egen rad og hver etikettklasse sin egen kolonne, og forplantet deretter kolonnene tilbake for å generere komplette adresserader.

Siden noen enkeltadresser inneholdt flere distinkte boliger, var det nødvendig å utvide databasen ved å dele inn eneste adresser i underegenskaper som er tilstede i komplementære databaser.

Etter dette kryssrefererte adresseklassifiseringsstadiet alle lokaliserte postnumre ved å bruke ONSPD-databasen. Dette prosess kobler opp adressedataene til folketelling og andre demografiske data, og individualiserer også underegenskaper som tidligere hadde vært skjult bak de ugjennomsiktige adressene til OCOD-dataene.

Til slutt filtrerte adressesammentrekningsprosessen ut alle ikke-husholdningseiendommer (dvs. kommersielle lokaler) fra nestede eiendomsgrupper.

Analyse

For å teste nøyaktigheten til de forbedrede dataene, skapte forfatterne, som nevnt tidligere, et prøvegrunnsannhetssett som ble holdt tilbake fra den generelle analysen, og kun brukt til å teste nøyaktigheten til spådommene og analysene.

Manuell sjekking av grunnsannheten inkluderte bruk av kartprogramvare, samt analyse av bilder av eiendommene i det tilbakeholdte settet, og av internettsøk for å evaluere typen eiendom. Deretter ble ytelsen til dataene målt mot presisjon, tilbakekalling og F1-score.

Verdien av lavbruks- og huseiendom ble oppnådd med en grunnleggende grafisk modell, samme metode som også ble brukt for å utlede UDP-egenskaper.

NER-oppgaven, testet mot den høye innsatsen, manuelt merket bakkesannhet, oppnådde en F1-score på 0.96 (nær '100%', når det gjelder nøyaktighet).

F1-score for NER-merkingsoppgaven. Noen ujevnheter er funnet, siden prosessen litt overvurderer antallet innenlandske eiendommer og undervurderer det totale antallet virksomheter, på grunn av strukturen til de forbedrede dataene.

F1-score for NER-merkingsoppgaven. Noen ujevnheter er funnet, siden prosessen litt overvurderer antallet innenlandske eiendommer og undervurderer det totale antallet virksomheter, på grunn av strukturen til de forbedrede dataene.

Når det gjelder UDP-er i London, viser de endelige resultatene totalt 138,000 44 oppføringer – 94,000 % flere enn de XNUMX XNUMX som er omtalt i det originale OCOD-datasettet (dvs. nylige offisielle tall).

Fordelingen av eiendomstyper under type 2-klassifisering.

Fordelingen av eiendomstyper under type 2-klassifisering.

Resultatene indikerer at den totale verdien av offshore-eiendommene er på rundt 56 milliarder pund, mens den totale verdien av eiendom med lavt bruk er estimert til 85 milliarder pund.

Forfatterne bemerker:

"[Alle] UDP-er er mye dyrere enn den gjennomsnittlige konvensjonelle eiendomsprisen på £600 tusen."

Denne typen forbedrede data kan være nødvendig for å bekjempe bruken av eiendomsspekulasjon som en hvitvaskingsaktivitet i Storbritannia. Forfatterne legger merke til den økende mengden av forskning og generell litteratur som antyder at forbedrede data kan hjelpe til med å bekjempe spekulasjon i AML-eiendom, og konkluderer:

"Disse dataene kan brukes av sosiologer, økonomer og beslutningstakere for å sikre at forsøk på å redusere hvitvasking og høye eiendomspriser er basert på detaljerte data som gjenspeiler den virkelige situasjonen."

 

* Min konvertering av forfatternes inline sitering til hyperkoblinger.

Først publisert 25. juli 2022.