Inteligență artificială
Inteligența Artificială Oferea O Urmărire Îmbunătățită a Proprietăților Offshore în Regatul Unit

O nouă cercetare din partea a două universități din Regatul Unit urmărește să arunce o lumină mai puternică asupra stării potențiale a spălării de bani bazate pe proprietăți în Regatul Unit, și în special pe piața imobiliară londoneză, foarte apreciată.
Conform rezultatelor proiectului, numărul total de proprietăți “neconvenționale” (adică proprietăți care nu sunt folosite pe termen lung ca locuințe de către proprietari sau chiriași) se ridică la aproximativ 138.000 în Londra.
Acest număr este cu 44% mai mare decât cifrele oficiale, care sunt furnizate și actualizate periodic de guvernul Regatului Unit.
Cercetătorii au utilizat diverse tehnici de Procesare a Limbajului Natural (NLP), împreună cu date suplimentare și cercetări coroborative, pentru a extinde informațiile limitate oficiale pe care guvernul Regatului Unit le pune la dispoziție despre procentul, valoarea, locația și tipurile de proprietăți deținute de companii offshore în Regatul Unit, cele mai profitabile fiind în capitală.
Cercetarea a descoperit că totalul proprietăților offshore, cu utilizare redusă și de tip Airbnb (adică “ocupare ocazională”) din Regatul Unit sunt, în total, evaluate la aproximativ 145-174 miliarde de lire sterline, distribuite pe aproximativ 144.000-164.000 de proprietăți.
De asemenea, s-a constatat că proprietățile offshore de acest tip sunt, în general, mai scumpe și prezintă modele specifice în ceea ce privește locația lor în Regatul Unit.
Cercetătorii estimează că proprietățile “neconvenționale” deținute de offshore (UDP) reprezintă 7,5% din valoarea totală a proprietăților, iar 56 de miliarde de lire sterline din valoarea estimată se limitează la doar 42.000 de locuințe.
Articolul afirmă:
‘Proprietățile individuale offshore sunt foarte scumpe, chiar și în comparație cu standardele UDP, și, în plus, sunt concentrate în centrul Londrei, cu o puternică corelație spațială.’
‘În contrast, proprietățile offshore încorporate sunt mai puțin concentrate în centrul Londrei, dar mai mult concentrate în general, și există aproape nicio corelație spațială.’
Analiza datelor augmentate arată că un număr mare de proprietăți offshore aparțin entităților din Dependențele Coroanei (CD), iar al doilea număr ca mărime este reprezentat de Teritoriile Britanice de Peste Mări (în diagrama de mai jos, “PWW2” semnifică țări care au obținut independența de la Marea Britanie după al Doilea Război Mondial).

Dispoziția proprietăților străine, conform rezultatelor din noul articol. Sursă: https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf
Articolul observă:
‘De fapt, doar 4 teritorii, Insulele Virgine Britanice, Jersey, Guernsey și Insula Man, sunt asociate cu 78% din toate proprietățile.’
Noile date îmbunătățite au făcut posibilă determinarea sub-proprietăților care există în cadrul unei proprietăți offshore cunoscute – o capacitate de obicei împiedicată de datele oficiale plate și limitate.
Rezultatele arată, de asemenea, că proprietățile offshore, Airbnb și cele cu utilizare redusă sunt mult mai concentrate geografic decât locuințele normale și sunt concentrate, în plus, în zone cu valoare mai ridicată.

Hărți de concentrare vizualizate legate de diverse tipuri de proprietăți străine în Londra. Sursă: https://arxiv.org/pdf/2207.10931.pdf
Despre diagrama de mai sus, autorii comentează:
‘Proprietățile domestice offshore au concentrații extrem de ridicate, unde o întreagă dezvoltare imobiliară este deținută de o companie offshore.’
Autorii au lansat codul pentru pipeline-ul lor de procesare.
Noul articol se intitulează Ce se află în spălătorie? Hartografierea și caracterizarea proprietăților domestice deținute offshore în Londra, și provine de la cercetători de la Facultatea de Mediu Construit a Universității Colegiului din Londra, și de la Departamentul de Economie al Universității Kingston.
Abordarea Problemei
Autorii notează că, după decenii de eforturi pentru a controla utilizarea imobiliară în scopul spălării de bani în Regatul Unit, a fost nevoie de lansarea unei liste confidențiale de proprietăți offshore deținute în Regatul Unit de către publicația britanică Private Eye în 2015, pentru a determina guvernul Regatului Unit să publice o listă actualizată regulat a proprietăților offshore, cunoscută sub numele de Companii offshore care dețin proprietăți în Anglia și Țara Galilor (OCOD).
Cercetătorii observă că, deși OCOD reprezintă un pas înainte în cercetarea și analiza proprietăților offshore și a potențialei spălări de bani în Regatul Unit, datele au o serie de limitări, unele dintre ele fiind cruciale:
‘Aceste adrese pot fi incomplete, pot conține proprietăți încorporate, unde multiple proprietăți există într-un singur rând sau număr de titlu, și nu conțin nicio informație despre faptul că proprietatea este domestică, de afaceri sau altceva. ‘
‘Asemenea date de calitate slabă fac dificilă înțelegerea distribuției și caracteristicilor proprietăților offshore deținute în Regatul Unit.’
Este deosebit de dificil să se obțină date despre proprietăți închiriate ocazional, cum ar fi cele de tip Airbnb, deoarece datele publice disponibile sunt limitate sau inexistente. În plus, Scoția (o parte a Regatului Unit) nu pune la dispoziție propria sa înregistrare a vânzărilor de proprietăți în mod public, spre deosebire de Anglia și Țara Galilor.
Pentru a contracara unele dintre incoerențele din jurul clasificării proprietăților, guvernul Regatului Unit a introdus sistemul de Referință Unică a Proprietății (UPRN), destinat să permită relații mai clare între diverse surse de date imobiliare. Cu toate acestea, autorii notează* ‘deși utilizarea UPRN este obligatorie, aproape niciun departament guvernamental nu o utilizează, ceea ce face necesară o procesare avansată a datelor pentru a lega datele abilități‘.
Astfel, noua cercetare a urmărit să facă datele mai granulare și mai revelatoare.
Colectarea și Conectarea Datelor
În cadrul oricărui stat, formatele de adrese sunt, de obicei, previzibile și consistente, aplicabile și adreselor din Regatul Unit. Astfel, confruntate cu date textuale “plate” (cum ar fi cele furnizate de OCOD), au apărut o serie de soluții open-source de parsare a adreselor pentru a corela adresele cu alte surse de date.
Cu toate acestea, multe dintre acestea sunt antrenate utilizând datele Open Street Map, ceea ce poate duce la adrese care pot găzdui zeci sau chiar sute de sub-adrese încorporate (cum ar fi apartamente într-o adresă largă pentru un bloc de apartamente). Prin urmare, chiar și un parser de adrese lăudat, cum ar fi libpostal, a întâmpinat dificultăți atunci când a încercat să parseze adrese incomplete.
Pentru a crea parserul pentru proiectul lor, cercetătorii noii lucrări au utilizat o serie de seturi de date disponibile public. Datele cheie au fost furnizate de OCOD, în timp ce componenta de curățare a datelor a utilizat setul de date Prețul Plătit al Registrului de Înregistrare a Prețurilor, împreună cu lista de evaluare a VOA și Directorul Poștal al Oficiului Național de Statistică (ONSPD).
Datele Airbnb au provenit de la domeniul InsideAirbnb, care include doar case întregi care sunt închiriate, excluzând astfel cazul de utilizare inițial propus pentru Airbnb (de exemplu, închirierea unei părți din propria casă pe o bază ocazională).
Setul de date al proprietăților cu utilizare redusă a fost completat cu informații primite prin solicitări de informații în baza Legii privind Libertatea de Informație (FOI), majoritatea colectate pentru un proiect anterior.
Datele de bază ale OCOD sunt un fișier CSV delimitat de virgule, cu o structură bună și un format previzibil.

Pipeline-ul a constat din cinci etape: etichetare, parsare, extindere, clasificare și contractare. La început, orice adresă individuală putea să se rezolve în viața reală la multiple proprietăți încorporate, deși acest lucru nu este explicit în datele guvernamentale.
Cercetătorii au efectuat o prelucrare sintactică ușoară, apoi au importat datele în programmatic, o platformă destinată creării de seturi de date NLP annotate fără etichetare manuală. Aici, entitățile au fost etichetate utilizând expresii regulate (Regex) pentru a descrie opt tipuri de entități numite (a se vedea imaginea de mai jos):

Cu aceste etichete adăugate, setul de date a fost extras sub formă de fișier JSON, cu suprapuneri de etichete eliminate prin rutine simple bazate pe reguli.
În plus, ieșirea programmatică a fost utilizată pentru a antrena un model predictiv pentru SpaCy, sprijinit de RoBERTa de la Facebook. Odată ce datele au fost curățate, cercetătorii au creat un set de date de referință de 1000 de observații etichetate aleatoriu. Scorul de acuratețe al datelor nesupervizate va fi evaluat, în cele din urmă, împotriva acestui set de date de referință.
Parsarea adreselor a prezentat o serie de provocări. Autorii au atribuit fiecărui caracter intervalul său propriu și fiecărei clase de etichetă coloana sa, și apoi au propagat coloanele înapoi pentru a genera rânduri de adrese complete.
Deoarece unele adrese individuale au prezentat mai multe locuințe distincte, a fost necesar să se extindă baza de date, subdivizând adrese unice în sub-proprietăți prezente în baze de date complementare.
După aceea, etapa de clasificare a adreselor a corelat toate codurile poștale localizate utilizând baza de date ONSPD. Acest proces conectează datele de adrese la date demografice și la alte date, și individuează, de asemenea, sub-proprietățile care fuseseră anterior ascunse în spatele adreselor opace ale datelor OCOD.
În final, procesul de contractare a adreselor a filtrat toate proprietățile non-rezidențiale (adică proprietăți comerciale) din grupurile de proprietăți încorporate.
Analiză
Pentru a testa acuratețea datelor îmbunătățite, autorii, așa cum s-a menționat anterior, au creat un set de date de referință care a fost reținut din analiza generală, și a fost utilizat doar pentru a testa acuratețea predicțiilor și analizei.
Verificarea manuală a setului de date de referință a inclus utilizarea de software de hartă, precum și analiza de imagini ale proprietăților prezentate în setul de date de referință reținut, și a căutărilor pe internet pentru a evalua tipul de proprietate. Ulterior, performanța datelor a fost măsurată împotriva scorurilor de precizie, de rechemare și F1.
Valoarea proprietăților cu utilizare redusă și a celor domestice a fost obținută cu un model grafic de bază, aceeași metodă utilizată și pentru a infera proprietățile UDP.
Sarcina de recunoaștere a entităților numite (NER), testată împotriva setului de date de referință etichetate manual cu efort, a obținut un scor F1 de 0,96 (aproape de “100%”, în ceea ce privește acuratețea).

Scoruri F1 pentru sarcina de etichetare NER. Se observă o anumită neregularitate, deoarece procesul supraestimează ușor numărul de proprietăți domestice și subestimează numărul total de afaceri, din cauza structurii datelor îmbunătățite.
În ceea ce privește UDP-urile din Londra, rezultatele finale arată un total de 138.000 de intrări – cu 44% mai mult decât cele 94.000 prezentate în setul de date OCOD original (adică cifrele oficiale recente).
Rezultatele indică faptul că valoarea totală a proprietăților offshore se ridică la aproximativ 56 de miliarde de lire sterline, în timp ce valoarea totală a proprietăților cu utilizare redusă este estimată la 85 de miliarde de lire sterline.
Autorii notează:
‘[Toate] UDP-urile sunt mult mai scumpe decât prețul mediu al unei proprietăți convenționale de 600.000 de lire sterline.’
Acest tip de date îmbunătățite poate fi necesar pentru a combate utilizarea speculațiilor imobiliare ca activitate de spălare de bani în Regatul Unit. Autorii notează literatura de cercetare și literatura generală în creștere care sugerează că datele îmbunătățite pot ajuta la combaterea speculațiilor imobiliare AML, și conchid:
‘Aceste date pot fi utilizate de sociologi, economiști și factori de decizie pentru a asigura că încercările de a reduce spălarea de bani și prețurile ridicate ale proprietăților sunt bazate pe date detaliate care reflectă situația reală.’
* Conversia mea a citării inline a autorilor în legături.
Publicat pentru prima dată pe 25 iulie 2022.













