Entrevistas

Sam Stone, PM, Preços na Opendoor – Série de Entrevistas

mm

Sam é apaixonado por criar produtos na interseção de finanças e aprendizado de máquina. Ele é atualmente o Chefe de Produto para o Grupo de Preços da Opendoor, uma startup em estágio tardio que usa algoritmos para comprar e vender casas instantaneamente, economizando aos donos de casas o incômodo e a incerteza de listar sua casa e receber visitas.

O que inicialmente o atraiu para o aprendizado de máquina e ciência de dados?

Depois da faculdade, eu trabalhei para uma grande empresa de serviços profissionais que contratou centenas de formandos para a mesma posição de entrada. À medida que me envolvi no processo de contratação, fiquei impressionado e desanimado com a grande diferença de opiniões dentro da empresa sobre quais atributos dos candidatos levavam ao sucesso. Parecia um problema muito importante, onde a clareza estava faltando. Mas eu estava animado com o fato de termos muitos dados sobre candidatos anteriores e resultados de novas contratações que nunca haviam sido conectados ou profundamente analisados. Então, comecei a trabalhar nisso, tratando-o como um problema estatístico, usando ferramentas básicas como regressão linear. Com o tempo, o projeto cresceu e se tornou uma startup, e os métodos que usamos se tornaram mais sofisticados. Por exemplo, queríamos processar áudio e texto não estruturados de entrevistas diretamente, e isso nos levou a adotar modelos de aprendizado de máquina mais poderosos, como redes neurais.

Pode discutir o modelo de valoração automatizado da Opendoor (OVM) e como ele calcula o valor estimado de uma propriedade?

O Modelo de Valoração da Opendoor (OVM) é uma parte fundamental do nosso negócio e alimenta muitas aplicações de preços downstream.

De muitas maneiras, o OVM se comporta como um comprador ou vendedor típico – ele olha para um bairro, incluindo os tipos e preços de casas vendidas recentemente. No entanto, quando se trata de precificar casas, especialmente dado a diversidade de casas nos EUA, não é suficiente olhar apenas para os preços de vendas comparáveis. É muito mais complexo do que isso. Consideramos uma variedade de fatores, desde a área em metros quadrados e o espaço do quintal até o número de banheiros e quartos, layout, ruas movimentadas, melhorias e muito mais. O OVM é alimentado por uma variedade de fontes de dados, incluindo informações de impostos sobre propriedades, tendências do mercado, bem como muitos sinais específicos de casas e bairros. Também procuramos ajustes humanos anteriores em casas para calcular o valor de ajuste médio. E podemos refinar esses valores com escala. À medida que coletamos mais dados de ajustes humanos para mercados, o conjunto de dados cresce e melhora o desempenho do OVM. É um loop de feedback que melhora continuamente o desempenho ao longo do tempo.

Além de ser altamente preciso, ele precisa executar com baixa latência e alta cobertura. Isso significa que, toda vez que entramos em um novo mercado, precisamos expandir as capacidades do OVM para garantir que ele possa atender donos de casas em todos os bairros e tipos de casas.

Quais são algumas das diferentes metodologias de aprendizado de máquina utilizadas?

Quando começamos a construir o OVM, dependíamos principalmente de modelos estatísticos lineares para entender melhor o processo de tomada de decisão de nossos compradores e vendedores. Mas, com o tempo, o OVM evoluiu e agora é baseado em uma rede neural, especificamente em uma arquitetura chamada Rede Siamese. Usamos isso para incorporar comportamentos de compradores e vendedores, incluindo a seleção de casas comparáveis, ajustes e ponderações. Isso é vital porque descobrimos que, para alcançar alta precisão, os modelos precisam refletir esses passos-chave que os participantes do mercado seguem em sua arquitetura.

Uma das muitas vantagens de usar uma rede neural é que ela tem a precisão e flexibilidade para digerir dados em todos os mercados e detectar nuances locais granulares. Como resultado, quando a Opendoor lança em um novo mercado ou expande o inventário em um mercado existente, podemos usar o mesmo modelo, contornando grande parte do trabalho de infraestrutura de engenharia que vem de instanciar um novo modelo de produção. Em vez disso, executamos novos dados pelo modelo existente, o que reduz significativamente o tempo que nossos engenheiros gastam no processo.

Há também muitas outras metodologias de aprendizado de máquina que usamos na Opendoor, além de redes neurais. Isso inclui, mas não se limita a, árvores de decisão, técnicas de agrupamento, sistemas de classificação e algoritmos de otimização.

A Opendoor depende de enormes quantidades de dados, onde esses dados são coletados?

Os dados que nossos algoritmos consideram mais valiosos também são frequentemente os dados mais difíceis de encontrar. São os dados que geramos internamente ou desenvolvemos por meio de relacionamentos proprietários. Usamos uma combinação de dados internos e dados de terceiros sobre imóveis, incluindo pontos de dados de listagens, como data de venda, número de quartos e banheiros, área em metros quadrados e mais. Além disso, olhamos para recursos que indicam a singularidade das casas, que são coisas que apenas a expertise humana pode fornecer, como iluminação, ruído de rua, qualidade de eletrodomésticos e acabamentos e muito mais. Coletamos dados de casas que já estão no mercado, bem como de casas fora do mercado onde os proprietários compartilharam informações conosco.

Pode discutir alguns dos esforços da Opendoor para melhorar a velocidade e confiabilidade da infraestrutura que alimenta a ingestão de dados brutos?

Antes de qualquer lançamento de novo mercado, ingerimos muitos anos de dados históricos. Dados de alta qualidade são essenciais para treinar tanto nossos algoritmos quanto nossos operadores locais para garantir que eles entendam as variações dentro daquele mercado. Para melhorar a velocidade, a qualidade e a confiabilidade, construímos ferramentas de mapeamento de dados flexíveis e ferramentas para avaliar automaticamente a cobertura de novos campos de dados. Com essas ferramentas em vigor, leva apenas algumas horas ou dias para ingerir e validar grandes quantidades de dados de transações imobiliárias históricas, em vez de semanas.

Outra estratégia em que investimos é o monitoramento proativo e automatizado da qualidade dos dados. Configuramos sistemas que verificam as distribuições dos dados que estamos ingerindo e transformando a cada etapa do processo, em tempo real. Por exemplo, se esperamos que, em um determinado mercado, 20% das novas listagens sejam, em média, apartamentos, e então hoje 50% das novas listagens são classificadas como apartamentos, isso dispara um alerta para que um engenheiro investigue.

Como o julgamento humano especializado é combinado com os algoritmos de aprendizado de máquina para criar loops de feedback de desempenho cada vez melhor?

Nossos especialistas em preços internos desempenham um papel enorme em nossas decisões de preços, trabalhando em conjunto com nossos algoritmos. Onde as máquinas ainda têm pontos cegos, nossos operadores especializados preenchem, e dependemos deles em várias etapas. Por exemplo, eles adicionam ou verificam dados de entrada, como a qualidade de certos projetos de reforma. Eles tomam decisões intermediárias sobre quais recursos podem ser difíceis de valorar, e também tomam decisões de interface do usuário, como quais ofertas devemos aceitar. O elemento humano sempre será crítico para nossa estratégia, e acreditamos que casar especialistas e algoritmos é o melhor.

Pode definir backtesting e discutir sua importância na Opendoor?

Backtesting é uma forma de avaliar a precisão de um modelo usando dados históricos. Por exemplo, podemos treinar o Modelo de Valoração da Opendoor com dados de janeiro de 2015 a janeiro de 2021. Nesse contexto, “treinar” significa que alimentamos o modelo com entradas históricas, como atributos de casas, e resultados, como preços de casas vendidas. E, em seguida, o modelo aprende uma relação entre entradas e resultados. Em seguida, pegamos esse modelo, que reflete essas novas relações aprendidas, e o alimentamos com outro conjunto de dados históricos, digamos, de fevereiro de 2021. Como os dados são históricos, sabemos os resultados, e podemos medir quanto esses divergem das previsões.

Esse processo é muito importante na Opendoor, e é usado para todos os nossos produtos de aprendizado de máquina. Ele reduz o risco de um problema chamado sobreajuste, que é quando um modelo de aprendizado de máquina identifica padrões em dados históricos que não estão realmente lá. Por exemplo, correlações espúrias que não ajudam na previsão do mundo real. Ele também nos salva de realizar testes A/B caros no mundo real para novos produtos e estratégias que podem ser eliminados com base em dados históricos.

Há algo mais que você gostaria de compartilhar sobre a Opendoor?

Estamos contratando! Se você estiver interessado em construir o futuro do setor imobiliário e/ou trabalhar na interseção de fintech, aprendizado de máquina e produtos de consumo, por favor, candidate-se! Temos vagas abertas em várias funções e cidades. Confira nossa página de carreiras aqui.

Obrigado pela ótima entrevista, leitores que desejam aprender mais devem visitar Opendoor.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável por moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI.

Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.