Connect with us

L’IA offre un suivi amélioré de la propriété offshore au Royaume-Uni

Intelligence artificielle

L’IA offre un suivi amélioré de la propriété offshore au Royaume-Uni

mm

De nouvelles recherches menées par deux universités britanniques visent à jeter une lumière plus grande sur l’état potentiel du blanchiment d’argent basé sur la propriété au Royaume-Uni, en particulier sur le marché immobilier très prisé de Londres.

Selon les résultats du projet, le nombre total de propriétés domestiques « non conventionnelles » (c’est-à-dire des propriétés qui ne sont pas utilisées à long terme comme résidences par les propriétaires ou les locataires) s’élève à environ 138 000 à Londres seul.

Ce chiffre est 44 % supérieur aux chiffres officiels, qui sont fournis et mis à jour périodiquement par le gouvernement britannique.

Les chercheurs ont utilisé diverses techniques de traitement du langage naturel (NLP), ainsi que des données et des recherches complémentaires, pour étendre les informations officielles limitées que le gouvernement britannique met à disposition sur le pourcentage, la valeur, l’emplacement et les types de propriétés détenus par des sociétés offshore au Royaume-Uni, les plus lucratives étant dans la capitale.

La recherche a révélé que le montant total de propriétés offshore, à faible utilisation et de type Airbnb (c’est-à-dire « occupation occasionnelle ») au Royaume-Uni est estimé entre 145 et 174 milliards de livres sterling, répartis sur environ 144 000 à 164 000 propriétés.

Il a également été constaté que les propriétés offshore de ce type sont généralement plus chères et présentent des modèles de signature en ce qui concerne leur emplacement au Royaume-Uni.

Les chercheurs estiment que les propriétés domestiques non conventionnelles (UDP) détenues par des sociétés offshore représentent 7,5 % de la valeur domestique totale, et que 56 milliards de livres sterling de la valeur estimée sont limités à seulement 42 000 logements.

Le document indique :

‘Les propriétés offshore individuelles sont très chères, même par rapport aux normes des UDP, en outre, elles sont concentrées dans le centre de Londres avec une forte corrélation spatiale.’

‘En revanche, les propriétés offshore imbriquées sont moins concentrées dans le centre de Londres, mais plus fortement concentrées en général, il n’y a pratiquement aucune corrélation spatiale.’

L’analyse des données augmentées montre qu’un grand nombre de propriétés offshore appartiennent à des entités dans les Dépendances de la Couronne (CD), avec le deuxième plus grand nombre comptabilisé par les Territoires britanniques d’outre-mer (dans le graphique ci-dessous, « PWW2 » signifie les pays qui ont obtenu leur indépendance de la Grande-Bretagne après la Seconde Guerre mondiale).

Disposition des propriétés étrangères, selon les résultats de la nouvelle étude. Source : https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf

Disposition des propriétés étrangères, selon les résultats de la nouvelle étude. Source : https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf

Le document observe :

‘En fait, seuls 4 territoires, les Îles Vierges britanniques, Jersey, Guernesey et l’île de Man, sont associés à 78 % de toutes les propriétés.’

Les nouvelles données améliorées ont permis de déterminer les sous-propriétés qui existent dans une propriété offshore connue – une capacité généralement entravée par les données officielles plates et limitées fournies par le gouvernement britannique.

Les résultats indiquent également que les propriétés offshore, Airbnb et à faible utilisation sont nettement plus concentrées géographiquement que les logements normaux, et sont en outre concentrées dans des zones à plus forte valeur.

Cartes de chaleur liées à différents types de propriétés étrangères à Londres. Source : https://arxiv.org/pdf/2207.10931.pdf

Cartes de concentration visualisées liées à différents types de propriétés étrangères à Londres. Source : https://arxiv.org/pdf/2207.10931.pdf

À propos du graphique ci-dessus, les auteurs commentent :

‘Les propriétés domestiques offshore ont des concentrations extrêmement élevées où un ensemble de logements entiers est détenu par une société offshore.’

Les auteurs ont publié le code pour leur pipeline de traitement.

La nouvelle étude est intitulée Qu’y a-t-il dans la laverie ? Cartographie et caractérisation des propriétés domestiques détenues par des sociétés offshore à Londres, et provient de chercheurs de la Faculté de l’environnement bâti de l’University College de Londres, et du Département d’économie de l’Université de Kingston.

Résoudre le problème

Les auteurs notent qu’après des décennies d’efforts pour contrôler l’utilisation de l’immobilier à des fins de blanchiment d’argent au Royaume-Uni, il a fallu la publication d’une liste fuite de propriétés britanniques détenues par des sociétés offshore par la publication britannique Private Eye en 2015 pour inciter le gouvernement britannique à publier une liste mise à jour régulièrement des propriétés détenues par des sociétés offshore dans la plupart du Royaume-Uni, connue sous le nom de Sociétés étrangères qui détiennent des propriétés en Angleterre et au Pays de Galles (OCOD).

Les chercheurs observent que même si l’OCOD est un pas en avant pour la recherche et l’analyse de la propriété offshore et du blanchiment d’argent potentiel au Royaume-Uni, les données ont un certain nombre de limites, dont certaines sont cruciales :

‘Ces adresses peuvent être incomplètes, contenir des propriétés imbriquées, où plusieurs propriétés existent dans une seule ligne ou numéro de titre, elles ne contiennent aucune information sur le fait que la propriété est domestique, commerciale ou autre chose.’

‘De telles données de mauvaise qualité rendent difficile la compréhension de la distribution et des caractéristiques des propriétés détenues par des sociétés offshore au Royaume-Uni.’

Il est particulièrement difficile d’obtenir des données sur les propriétés louées occasionnellement, telles que les propriétés Airbnb, car les données publiques sont limitées ou inexistantes. De plus, l’Écosse (une partie du Royaume-Uni) ne rend pas son propre registre des ventes de propriétés publiquement disponible, contrairement à l’Angleterre et au Pays de Galles.

Pour contrer certaines des incohérences autour de la classification des propriétés, le gouvernement britannique a introduit le système de Numéro de référence de propriété unique (UPRN), conçu pour permettre des relations plus claires entre les sources de données sur les propriétés diverses. Cependant, les auteurs notent* ‘bien que l’utilisation de l’UPRN soit obligatoire, presque aucun département gouvernemental ne l’utilise, ce qui signifie que le lien des données nécessite des compétences avancées en traitement de données et de compétences.

Ainsi, la nouvelle recherche a cherché à rendre les données plus granulaires et plus éclairantes.

Collecte et connexion des données

Dans n’importe quel pays, les formats d’adresse sont généralement prévisibles et cohérents, applicables également aux adresses britanniques. Ainsi, face à des données d’adresses « plates » et basées sur du texte (telles que celles fournies par l’OCOD), un certain nombre de solutions de parsing d’adresses open source ont émergé pour faire correspondre les adresses à d’autres sources de données.

Cependant, beaucoup de ces solutions sont formées à l’aide de données Open Street Map, qui peuvent produire des adresses qui peuvent en réalité héberger des dizaines ou même des centaines de sous-adresses imbriquées (telles que des appartements dans une adresse large pour un immeuble d’appartements). Par conséquent, même un parseur d’adresses réputé tel que libpostal a des difficultés lorsqu’il tente de parser des adresses incomplètes.

Pour créer le parseur pour leur projet, les chercheurs de la nouvelle étude ont utilisé un certain nombre de jeux de données publics. Les données clés ont été fournies par l’OCOD, tandis que le composant de nettoyage des données a utilisé le jeu de données Prix payés du Registre des terres, ainsi que le jeu de données VOA ratings et le Répertoire des codes postaux de l’Office for National Statistics (ONSPD).

Les données Airbnb provenaient du domaine InsideAirbnb, qui ne comprend que des logements entiers loués, excluant ainsi l’utilisation initialement prévue pour Airbnb (c’est-à-dire la location d’une partie de sa propre maison à l’occasion).

Le jeu de données de propriétés à faible utilisation des auteurs a été augmenté par des informations reçues à la suite de demandes de renseignements réussies, principalement collectées pour un projet antérieur.

La base de données de l’OCOD est un fichier CSV délimité par des virgules avec un bon degré de structure et de format prévisible.

Le pipeline se composait de cinq étapes : étiquetage, parsing, expansion, classification et contraction. Au départ, toute adresse individuelle pouvait correspondre dans la vie réelle à plusieurs propriétés imbriquées, bien que cela ne soit pas explicite dans les données gouvernementales.

Les chercheurs ont effectué un léger prétraitement syntaxique, puis ont importé les données dans programmatic, une plate-forme conçue pour créer des jeux de données NLP annotés sans étiquetage manuel. Ici, les entités ont été étiquetées à l’aide d’expressions régulières (Regex) pour décrire huit types d’entités nommées (voir image ci-dessous) :

Avec ces étiquettes ajoutées, le jeu de données a été extrait sous forme de fichier JSON, avec les chevauchements d’étiquettes supprimés par des routines basées sur des règles simples.

En outre, la sortie de programmatic a été utilisée pour former un modèle prédictif pour SpaCy, sous-tendu par RoBERTa de Facebook. Une fois débruité, les chercheurs ont créé un ensemble de comparaison de vérité terrain de 1000 observations étiquetées aléatoirement. Le score de précision des données non supervisées serait éventuellement évalué par rapport à ce vérité terrain.

Le parsing d’adresses a présenté un certain nombre de défis. Les auteurs ont attribué à chaque plage de caractères sa propre ligne et à chaque classe d’étiquette sa propre colonne, puis ont rétropropagé les colonnes pour générer des lignes d’adresses complètes.

Puisque certaines adresses uniques comportaient plusieurs logements distincts, il a été nécessaire d’étendre la base de données en subdivisant les adresses uniques en sous-propriétés présentes dans des bases de données complémentaires.

Après cela, l’étape de classification des adresses a fait correspondre tous les codes postaux localisés à l’aide de la base de données ONSPD. Ce processus relie les données d’adresses aux données démographiques et de recensement, et individue également les sous-propriétés qui étaient précédemment cachées derrière les adresses opaques des données de l’OCOD.

Enfin, le processus de contraction des adresses a filtré toutes les propriétés non domestiques (c’est-à-dire les locaux commerciaux) des groupes de propriétés imbriquées.

Analyse

Pour tester l’exactitude des données améliorées, les auteurs, comme mentionné précédemment, ont créé un ensemble de vérité terrain échantillonné qui a été retenu de la course générale d’analyse, et n’a été utilisé que pour tester l’exactitude des prédictions et des analyses.

La vérification manuelle pour le vérité terrain a inclus l’utilisation de logiciels de cartographie, ainsi que l’analyse de photos des propriétés présentées dans l’ensemble retenu, et de recherches sur Internet pour évaluer le type de propriété. Par la suite, les performances des données ont été mesurées par rapport aux scores de précision, de rappel et F1.

La valeur des propriétés à faible utilisation et domestiques a été obtenue à l’aide d’un modèle graphique de base, la même méthode utilisée également pour déduire les propriétés UDP.

La tâche NER, testée par rapport au vérité terrain étiqueté manuellement avec beaucoup d’efforts, a obtenu un score F1 de 0,96 (près de « 100 % » en termes de précision).

Scores F1 pour la tâche d'étiquetage NER. Une certaine irrégularité est constatée, puisque le processus surestime légèrement le nombre de propriétés domestiques et sous-estime le nombre total de entreprises, en raison de la structure des données améliorées.

Scores F1 pour la tâche d’étiquetage NER. Une certaine irrégularité est constatée, puisque le processus surestime légèrement le nombre de propriétés domestiques et sous-estime le nombre total de entreprises, en raison de la structure des données améliorées.

En ce qui concerne les UDP à Londres, les résultats finaux montrent un total de 138 000 entrées – 44 % de plus que les 94 000 présentées dans le jeu de données original de l’OCOD (c’est-à-dire les chiffres officiels récents).

Répartition des types de propriétés sous la classification de type 2.

Répartition des types de propriétés sous la classification de type 2.

Les résultats indiquent que la valeur totale des propriétés offshore s’élève à environ 56 milliards de livres sterling, tandis que la valeur totale des propriétés à faible utilisation est estimée à 85 milliards de livres sterling.

Les auteurs notent :

‘[Toutes] les UDP sont beaucoup plus chères que le prix moyen des propriétés conventionnelles de 600 000 livres.’

Ce type de données améliorées peut être nécessaire pour lutter contre l’utilisation de la spéculation immobilière comme activité de blanchiment d’argent au Royaume-Uni. Les auteurs notent le corpus de recherche et de littérature générale croissant qui suggère que des données améliorées peuvent aider à lutter contre la spéculation immobilière AML, et concluent :

‘Ces données peuvent être utilisées par des sociologues, des économistes et des décideurs politiques pour s’assurer que les tentatives de réduction du blanchiment d’argent et des prix élevés des propriétés sont basées sur des données détaillées qui reflètent la situation réelle.’

 

* Ma conversion de la citation en ligne des auteurs en hyperliens.

Publié pour la première fois le 25 juillet 2022.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.