Anderson 视角

人工智能改进了对英国离岸房产所有权的跟踪

mm

英国两所大学的新研究旨在更深入地了解英国房地产洗钱的潜在情况,特别是在备受追捧的伦敦房地产市场。

根据项目的结果,伦敦单独的“非传统”国内房产(即不被业主或租户长期用作住所的房产)数量约为138,000栋。

这一数字比英国政府提供的官方数字高出44%。

研究人员使用各种自然语言处理(NLP)技术,结合其他数据和佐证研究,扩展了英国政府关于英国离岸公司拥有的房产百分比、价值、位置和类型的有限官方信息。

研究发现,英国的离岸、低使用率和Airbnb风格(即“偶尔居住”)房产的总价值约为145-174亿英镑,分布在约144,000-164,000处房产中。

它还发现,这类离岸房产通常更昂贵,具有明显的位置模式。

研究人员估计,离岸拥有的“非传统国内房产”(UDP)代表了国内价值的7.5%,而估计的价值中有560亿英镑仅限于42,000套住房。

论文指出:

‘个别离岸房产即使按照UDP的标准也是非常昂贵的,而且它们集中在伦敦中心,具有强烈的空间自相关性。 ‘

‘相比之下,嵌套的离岸房产在中央伦敦的集中度较低,但整体而言更加集中,而且几乎没有空间相关性。 ‘

增强数据的分析显示,许多离岸房产属于皇家属地(CD),其次是英国海外领土(在下图中,“PWW2”表示第二次世界大战后从英国获得独立的国家)。

外国拥有的房产的分布情况,根据新论文的结果。来源:https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf

外国拥有的房产的分布情况,根据新论文的结果。 来源:https://arxiv.org/src/2207.10931v1/anc/Offshore_London_Supplementary_Material.pdf

论文观察到:

‘事实上,只有4个领土,英国维尔京群岛、泽西岛、根西岛和马恩岛,与所有房产的78%相关。 ‘

新的增强数据使得可以确定在已知的外国拥有的房产中存在的子房产——这是通常由于官方数据的平面和有限而受到阻碍的能力。

结果还表明,离岸、Airbnb和低使用率的房产在地理上比普通住宅更为集中,并且集中在更高价值的地区。

与伦敦各类外国拥有的房产相关的热力图。来源:https://arxiv.org/pdf/2207.10931.pdf

与伦敦各类外国拥有的房产相关的热力图。 来源:https://arxiv.org/pdf/2207.10931.pdf

关于上述图表,作者评论道:

‘离岸国内房产具有极高的集中度,整个住宅区都由一家离岸公司拥有。 ‘

作者已经发布了代码用于他们的处理管道。

新论文的标题为《洗钱机中的什么?——伦敦离岸拥有的国内房产的映射和特征》,由伦敦大学学院的环境与建设学院和金斯顿大学的经济系的研究人员撰写。

解决问题

作者指出,经过几十年的努力来控制英国房地产用于洗钱的目的,直到2015年英国出版物《私人眼》发布一份泄露的英国离岸拥有的房产列表,英国政府才开始发布英国大部分地区离岸拥有的房产的定期更新列表,称为《英格兰和威尔士的离岸公司拥有的房产》(OCOD)。

研究人员观察到,尽管OCOD是一个向前迈出的一步,以研究和分析英国的海外所有权和潜在的洗钱活动,但数据有一些局限性,其中一些是至关重要的:

‘这些地址可能是不完整的,包含嵌套的房产,其中多个房产存在于一个单行或标题号中,它们也不包含有关房产是否为国内、商业或其他类型的信息。 ‘

‘这种糟糕的数据质量使得理解英国离岸拥有的房产的分布和特征变得具有挑战性。 ‘

尤其是获取有关偶然租赁房产(如Airbnb房产)的数据很困难,因为公开可用的数据有限或不存在。另外,苏格兰(英国的一部分)与英格兰和威尔士不同,不公开其房产销售注册。

为了解决一些房产分类的不一致性,英国政府引入了独特的房产参考号(UPRN)系统,旨在使不同房产数据源之间的关系更加明确。然而,作者指出* ‘尽管使用UPRN是强制性的,但几乎没有政府部门使用它,这意味着链接数据需要高级的数据处理 技能

因此,新的研究旨在使数据更细致和富有洞察力。

收集和连接数据

在任何单个国家,地址格式通常是可预测和一致的,这也适用于英国的地址。因此,面对“平面”的基于文本的地址数据(如OCOD提供的),已经出现了一些开源的地址解析解决方案,以便将地址与其他数据源进行交叉引用。

然而,其中许多解决方案都是使用Open Street map数据进行训练的,这可能会产生实际上包含十几个甚至数百个嵌套子地址(如公寓楼的广泛地址)的地址。因此,甚至像libpostal这样的著名地址解析器也曾在尝试解析不完整的地址时遇到困难。

为了创建他们的项目解析器,新论文的研究人员使用了多个公开可用的数据集。关键数据由OCOD提供,而数据清理组件使用了土地注册局价格数据集,以及VOA评级列表数据集和国家统计局邮政编码目录(ONSPD)。

Airbnb数据来自InsideAirbnb域,仅包括整套出租的房屋,因此排除了最初为Airbnb提出的使用案例(即偶尔出租自己的全部或部分房屋)。

作者的低使用率房产数据集得到了来自成功的信息自由请求的信息的补充,主要是为早期项目收集的。

OCOD的基础数据是一个具有良好结构和可预测格式的逗号分隔的CSV文件。

管道由五个阶段组成:标记、解析、扩展、分类和收缩。在开始时,任何单个地址都可能在现实生活中对应多个嵌套房产,尽管这在政府提供的数据中并不是明确的。

研究人员进行了一些轻量级的句法预处理,然后将数据导入programmatic,一种旨在无需手动标记即可创建注释的NLP数据集的平台。在这里,实体使用正则表达式(Regex)标记以描述八种命名实体(见下图):

添加这些标签后,数据集被提取为一个JSON文件,通过简单的规则删除标签重叠。

另外,programmatic的输出用于训练一个基于Facebook的SpaCy的预测模型,底层使用RoBERTa。一旦去噪,研究人员创建了一个真实比较集,包含1000个随机标记的观察结果。未监督数据的准确性得分最终将与这个真实比较集进行评估。

地址解析提出了几个挑战。作者为每个字符跨度分配了自己的行,为每个标签类分配了自己的列,然后反向传播列以生成完整的地址行。

由于一些单个地址包含多个不同的住宅,因此有必要通过将单个地址细分为存在于互补数据库中的子属性来扩展数据库。

之后,地址分类阶段使用ONSPD数据库交叉引用所有找到的邮政编码。这一过程将地址数据连接到人口普查和其他人口统计数据,并将之前隐藏在OCOD数据不透明地址后面的子属性个性化。

最后,地址收缩过程从嵌套房产组中过滤掉所有非国内房产(即商业场所)。

分析

为了测试增强数据的准确性,作者(如前所述)创建了一个样本真实比较集,这个集在分析的总运行中被保留下来,只用于测试预测和分析的准确性。

手动检查真实比较集包括使用地图软件,以及对保留集中的房产进行图片分析和互联网搜索,以评估房产类型。之后,数据的性能被测量,使用精度、召回率和F1评分。

低使用率和国内房产的价值是使用基本图形模型获得的,同样的方法也用于推断UDP房产。

NER任务在高强度、手动标记的真实比较集上进行了测试,获得了0.96的F1评分(接近“100%”,从准确性的角度来看)。

关于伦敦的UDP,最后的结果显示总共有138,000个条目——比原始OCOD数据集(即最近的官方数字)中的94,000个条目多了44%。

结果表明,离岸房产的总价值约为560亿英镑,而低使用率房产的总价值估计为850亿英镑。

作者指出:

‘所有UDP都比平均传统房产价格600,000英镑要贵得多。 ‘

这种改进的数据可能是必要的,以打击英国房产投机洗钱活动。作者指出,研究和一般文献的日益增长的体积表明,改进的数据可能有助于打击洗钱房产投机,并得出结论:

‘这些数据可以被社会学家、经济学家和政策制定者用来确保减少洗钱和高房价的努力是基于反映实际情况的详细数据。 ‘

 

* 我将作者的内联引用转换为超链接。

首次发表于2022年7月25日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai