Tekoäly
Tekoäly tarjoaa parannettua offshore-kiinteistön omistuksen seurantaa Isossa-Britanniassa

Kahden brittiläisen yliopiston uusi tutkimus pyrkii valaisemaan paremmin kiinteistöpohjaisen rahanpesun mahdollisuutta Isossa-Britanniassa ja erityisesti arvostetuilla Lontoon kiinteistömarkkinoilla.
Hankkeen tulosten mukaan "epätavanomaisten" asuinkiinteistöjen (eli kiinteistöjen, joita omistajat tai vuokralaiset eivät käytä pitkäaikaisesti asuntoina) kokonaismäärä on pelkästään Lontoossa noin 138,000 XNUMX.
Tämä luku on 44 % korkeampi kuin viralliset luvut, jotka Yhdistyneen kuningaskunnan hallitus toimittaa ja päivittää säännöllisesti.
Tutkijat käyttivät erilaisia Natural Language Processing (NLP) -tekniikoita sekä lisätietoa ja vahvistavaa tutkimusta laajentaakseen rajoitettua virallista tietoa, jonka Yhdistyneen kuningaskunnan hallitus antaa saataville offshore-yritysten Isossa-Britanniassa omistamien kiinteistöjen prosenttiosuudesta, arvosta, sijainnista ja tyypeistä. , joista tuottoisimpia ovat pääkaupungissa.
Tutkimuksessa havaittiin, että Yhdistyneessä kuningaskunnassa sijaitsevien offshore-, vähän käytettyjen ja Airbnb-tyyppisten (eli satunnaisesti työllistettyjen) kiinteistöjen kokonaisarvo on noin 145–174 miljardia puntaa noin 144,000 164,000–XNUMX XNUMX kiinteistössä.
Se havaitsi myös, että tämän tyyppiset offshore-kiinteistöt ovat tyypillisesti kalliimpia ja niillä on ominaisia malleja sen suhteen, missä ne sijaitsevat Isossa-Britanniassa.
Tutkijat arvioivat, että offshore-omistuksessa Epätavallinen kotimainen omaisuus (UDP) edustaa 7.5 prosenttia kotimaan kokonaisarvosta, ja arvioidusta 56 miljardin punnan arvosta on rajoitettu vain 42,000 XNUMX asuntoon.
Paperissa todetaan:
”Yksittäiset offshore-kiinteistöt ovat erittäin kalliita jopa UDP:n mittakaavassa, lisäksi ne ovat keskittyneet Lontoon keskustaan, jossa on vahva spatiaalinen autokorrelaatio.
"Sitä vastoin sisäkkäiset offshore-kiinteistöt ovat jonkin verran vähemmän keskittyneitä Lontoon keskustaan, mutta yleisesti ottaen voimakkaammin keskittyneitä, eikä niiden välillä ole juurikaan paikallista korrelaatiota."
Lisättyjen tietojen analyysi osoittaa, että suuri määrä offshore-kiinteistöjä kuuluu yhteisöille Joukkoriippuvuudet (CD), ja toiseksi suurin määrä on Britannian merentakaisilla alueilla (alla olevassa kaaviossa 'PWW2' tarkoittaa maita, jotka itsenäistyivät Britanniasta toisen maailmansodan jälkeen).

Ulkomaalaisomistuksessa olevan omaisuuden luovutus uuden lehden tulosten mukaan. Lähde: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf
Lehti huomauttaa:
"Itse asiassa vain neljä territoriota, Brittiläiset Neitsytsaaret, Jersey, Guernsey ja Mansaari, liittyvät 4 prosenttiin kaikista kiinteistöistä."
Uudet parannetut tiedot ovat mahdollistaneet tunnetun ulkomaisessa omistuksessa olevien kiinteistöjen alikiinteistöjen määrittämisen – tätä kykyä yleensä haittaavat virallisten lukujen sisältämät tasaiset ja rajalliset tiedot.
Tulokset osoittavat myös, että offshore-, Airbnb- ja vähäkäyttöiset kiinteistöt ovat maantieteellisesti huomattavasti keskittyneempiä kuin tavalliset kodit, ja lisäksi ne ovat keskittyneet arvokkaammille alueille.

Visualisoidut keskittymiskartat, jotka liittyvät erilaisiin ulkomailla omistettuihin kiinteistöihin Lontoossa. Lähde: https://arxiv.org/pdf/2207.10931.pdf
Yllä olevasta kaaviosta kirjoittajat kommentoivat:
"Offshore-asuinkiinteistöjen keskittymä on erittäin korkea, ja koko asuntorakentamisen omistaa offshore-yritys."
Tekijöillä on julkaistu koodi niiden käsittelyputkeen.
- uusi paperi on otsikko Mitä pesulassa on? Lontoon offshore-omistuksessa olevan kotimaisen omaisuuden kartoittaminen ja karakterisointi, ja se on peräisin University College Londonin Bartlettin rakennetun ympäristön tiedekunnan ja Kingstonin yliopiston taloustieteen laitoksen tutkijoilta.
Ongelman ratkaiseminen
Kirjoittajat huomauttavat, että vuosikymmenien ponnistelujen jälkeen kiinteistöjen rahanpesutarkoituksiin käyttämisen valvomiseksi Yhdistyneessä kuningaskunnassa se vei vapauta brittijulkaisun vuotamasta luettelosta Yhdistyneen kuningaskunnan offshore-omistetuista kiinteistöistä Yksityisetsivä vuonna 2015 kannustaakseen Yhdistyneen kuningaskunnan hallitusta julkaisemaan säännöllisesti päivitettävän luettelon offshore-omistetuista kiinteistöistä suurimmassa osassa Yhdistynyttä kuningaskuntaa. Ulkomaiset yritykset, jotka omistavat kiinteistöjä Englannissa ja Walesissa (OCOD).
Tutkijat huomauttavat, että vaikka OCOD on edistysaskel ulkomaisen omistuksen ja mahdollisen rahanpesun tutkimuksessa ja analysoinnissa Yhdistyneessä kuningaskunnassa, tiedoilla on useita rajoituksia, joista osa on ratkaisevia:
'Nämä osoitteet voivat olla epätäydellisiä, sisältävät sisäkkäisiä ominaisuuksia, joissa on useita kiinteistöjä yhden rivin tai otsikkonumeron sisällä, se ei myöskään sisällä tietoa siitä, onko kiinteistö koti-, liike- vai jotain muuta.
"Näin heikkolaatuinen data tekee offshore-omistuksessa olevan kiinteistön jakautumisen ja ominaisuuksien ymmärtämisen haastavaksi Isossa-Britanniassa."
On erityisen vaikeaa saada tietoja satunnaisesti vuokratuista kiinteistöistä, kuten Airbnb-kiinteistöistä, koska julkisesti saatavilla olevia tietoja on rajoitetusti tai niitä ei ole ollenkaan. Lisäksi Skotlanti (osa Yhdistynyttä kuningaskuntaa) ei julkaise omaa kiinteistöjen myyntirekisteriään, toisin kuin Englannissa ja Walesissa.
Kiinteistöjen luokittelussa esiintyvien epäjohdonmukaisuuksien poistamiseksi Yhdistyneen kuningaskunnan hallitus otti käyttöön ainutlaatuisen kiinteistön viitenumeron (UPRN) -järjestelmä, joka on suunniteltu mahdollistamaan selkeämmät suhteet eri kiinteistötietolähteiden välillä. Kirjoittajat kuitenkin huomauttavat* "Vaikka UPRN:n käyttö on pakollista, melkein mikään ministeriö ei käytä sitä, mikä tarkoittaa, että tietojen yhdistäminen vaatii edistyneitä tietojenkäsittely taitoja".
Siksi uusi tutkimus päätti tehdä tiedoista yksityiskohtaisempia ja oivaltavampia.
Tietojen kerääminen ja yhdistäminen
Yksittäisen maan sisällä osoitemuodot ovat yleensä ennustettavia ja yhdenmukaisia, ja ne soveltuvat myös Ison-Britannian osoitteisiin. Niinpä "tasaisten", tekstipohjaisten osoitetietojen (kuten OCOD:n tarjoaman) edessä on syntynyt useita avoimen lähdekoodin osoitteiden jäsennysratkaisuja osoitteiden ristiviittaamiseksi muihin tietolähteisiin.
Monet heistä ovat kuitenkin koulutettuja käyttämään Avaa katukartta dataa, joka voi tuottaa osoitteita, jotka voivat itse asiassa isännöidä kymmeniä tai jopa satoja sisäkkäisiä aliosoitteita (kuten asuntoja kerrostalon laaja-alaisessa osoitteessa). Näin ollen jopa ylistämä osoitteen jäsentäjä, kuten libpostal on oli vaikeuksia kun yritetään jäsentää epätäydellisiä osoitteita.
Uuden artikkelin tutkijat käyttivät projektinsa jäsentimen luomiseen useita julkisesti saatavilla olevia datajoukkoja. Keskeiset tiedot saatiin OCOD:lta, kun taas datanpuhdistuskomponentissa käytettiin Land Registry Price -tietokantaa. aineistoYhdessä VOA:n luokitukset listaustietojoukko ja kansallisen tilastotoimiston postinumerohakemisto (ONSPD).
Airbnb-tiedot tulivat InsideAirbnb verkkotunnus, joka sisältää vain kokonaisia vuokrattuja asuntoja, joten se ei sisällä Airbnb:n alkuperäistä käyttötarkoitusta (eli oman kodin tai sen osan vuokraamista satunnaisesti).
Kirjoittajien vähäkäyttöisten kiinteistöjen tietokantaa täydennettiin onnistuneista tiedonvapauspyynnöistä (FOI) saaduilla tiedoilla, jotka oli enimmäkseen kerätty aikaisempi projekti.
OCOD:n perustieto on .CSV-pilkuilla eroteltu tiedosto, jolla on hyvä rakenne ja ennustettava muoto.
Putkilinja koostui viidestä vaiheesta: merkitseminen, jäsentäminen, laajentaminen, luokittelu ja sopimus. Aluksi mikä tahansa yksittäinen osoite saattoi muodostua todellisessa elämässä useiksi sisäkkäisiksi omaisuuksiksi, vaikka tämä ei ole selvä valtion toimittamissa tiedoissa.
Tutkijat suorittivat kevyen syntaktisen esikäsittelyn ja toivat tiedot sitten ohjelmallinen, alusta, joka on suunniteltu luomaan huomautettuja NLP-tietojoukkoja ilman käsin merkitsemistä. Tässä entiteetit nimettiin käyttämällä säännöllisiä lausekkeita (Regex) kuvaamaan kahdeksan tyyppiä nimettyjä entiteettejä (katso kuva alla):
Kun nämä tunnisteet lisättiin, tietojoukko purettiin JSON-tiedostona, ja otsikon päällekkäisyydet poistettiin yksinkertaisilla sääntöihin perustuvilla rutiinilla.
Lisäksi ohjelmallisen analysoinnin tuotosta käytettiin ennustavan mallin kouluttamiseen Kylpylä, jota Facebookin tukena Roberta. Kun havainto oli poistettu, tutkijat loivat pohjatotuusvertailujoukon 1000 satunnaisesti merkittyä havaintoa. Valvomattomien tietojen tarkkuuspisteitä arvioitaisiin lopulta tämän totuuden perusteella.
Osoitteen jäsentäminen esitti useita haasteita. Kirjoittajat määrittelivät kullekin merkkialueelle oman rivinsä ja kullekin tarraluokalle oman sarakkeen, minkä jälkeen sarakkeet levisivät takaisin kokonaisten osoiterivien luomiseksi.
Koska joissakin yksittäisissä osoitteissa oli useita erillisiä asuntoja, tietokantaa oli tarpeen laajentaa jakamalla ainoat osoitteet alikiinteistöihin, jotka ovat läsnä täydentävissä tietokannassa.
Tämän jälkeen osoitteiden luokitteluvaihe ristiviittaus kaikkiin löydettyihin postinumeroihin ONSPD-tietokannan avulla. Tämä prosessi yhdistää osoitetiedot väestönlaskenta- ja muihin väestötietoihin sekä yksilöi myös ali-omaisuudet, jotka olivat aiemmin olleet piilossa OCOD-tietojen läpinäkymättömien osoitteiden takana.
Lopuksi osoitteen supistusprosessi suodatti sisäkkäisistä kiinteistöryhmistä pois kaikki ulkopuoliset kiinteistöt (eli liiketilat).
analyysi
Testaakseen paranneltujen tietojen tarkkuutta, kirjoittajat loivat, kuten aiemmin mainittiin, näytepohjan totuusjoukon, joka pidettiin pois yleisestä analyysista ja jota käytettiin vain ennusteiden ja analyysien tarkkuuden testaamiseen.
Totuuden manuaaliseen tarkistamiseen sisältyi karttaohjelmiston käyttö sekä pidätettyyn sarjaan sisältyvien kiinteistöjen kuvien analysointi ja Internet-haut kiinteistön tyypin arvioimiseksi. Sen jälkeen datan suorituskykyä mitattiin tarkkuutta, muistamista ja F1-pisteitä vastaan.
Vähäkäyttöisen ja kotimaisen omaisuuden arvo saatiin graafisella perusmallilla, samalla menetelmällä pääteltiin myös UDP-ominaisuudet.
NER-tehtävä, jota testattiin suurta vaivaa vaativaa, manuaalisesti merkittyä ground truth -testiä vasten, sai F1-pistemäärän 0.96 (lähes '100 %' tarkkuuden suhteen).

F1-pisteet NER-merkintätehtävästä. Epätasaisuutta löytyy, koska prosessi yliarvioi hieman kotimaisten kiinteistöjen lukumäärän ja aliarvioi yritysten kokonaismäärän parannetun datan rakenteesta johtuen.
Mitä tulee Lontoon UDP:ihin, lopulliset tulokset osoittavat yhteensä 138,000 44 merkintää – 94,000 % enemmän kuin alkuperäisessä OCOD-tietojoukossa (eli viimeaikaisissa virallisissa luvuissa) esitellyt XNUMX XNUMX.

Kiinteistötyyppien erittely tyypin 2 luokituksen mukaan.
Tulokset osoittavat, että offshore-kiinteistöjen kokonaisarvo on noin 56 miljardia puntaa, kun taas vähän käytettyjen kiinteistöjen kokonaisarvo on arviolta 85 miljardia puntaa.
Kirjailijat huomauttavat:
"[Kaikki] UDP:t ovat paljon kalliimpia kuin keskimääräinen perinteinen kiinteistöhinta, joka on 600 XNUMX puntaa."
Tällaiset parannetut tiedot voivat olla tarpeen omaisuuskeinottelun käytön torjumiseksi rahanpesutoimintana Yhdistyneessä kuningaskunnassa. Kirjoittajat panevat merkille kasvavan tutkimuksen ja yleisen kirjallisuuden, joka viittaa siihen, että parannetut tiedot voivat auttaa torjumaan AML-kiinteistöspekulaatiota, ja päättelevät:
"Sosiologit, taloustieteilijät ja poliittiset päättäjät voivat käyttää tätä dataa varmistaakseen, että rahanpesun ja korkeiden kiinteistöhintojen vähentämiseen tähtäävät toimet perustuvat yksityiskohtaisiin tietoihin, jotka heijastavat todellista tilannetta."
* Muunnani kirjoittajien tekstiviittaukset hyperlinkeiksi.
Julkaistu ensimmäisen kerran 25.