Connect with us

Entrevistas

Sam Stone, PM, Pricing at Opendoor – Interview Series

mm

Sam é apaixonado por construir produtos na interseção de finanças e aprendizado de máquina. Ele é atualmente o Head de Produto para o Grupo de Preços da Opendoor, uma startup em estágio avançado que usa algoritmos para comprar e vender casas instantaneamente, economizando aos proprietários de casas o incômodo e a incerteza de listar sua casa e hospedar.

O que o atraiu inicialmente para o aprendizado de máquina e ciência de dados?

Depois da faculdade, eu trabalhei para uma grande empresa de serviços profissionais que contratou centenas de graduados em faculdade para a mesma posição de entrada. À medida que me envolvi no processo de contratação, fiquei impressionado e desanimado com o quão amplamente as opiniões das pessoas dentro da empresa diferiam sobre quais atributos de candidato levavam ao sucesso. Parecia um problema realmente importante, onde a clareza estava faltando. Mas eu estava animado com o fato de que tínhamos dados abundantes sobre candidatos anteriores e resultados de novas contratações que nunca haviam sido conectados ou profundamente analisados. Então, comecei a trabalhar nisso, tratando-o como um problema estatístico, usando ferramentas básicas como regressão linear. Com o tempo, o projeto cresceu em uma startup, e os métodos que usamos se tornaram mais sofisticados. Por exemplo, queríamos processar áudio e texto não estruturados de entrevistas diretamente, e isso nos levou a adotar modelos de aprendizado de máquina mais poderosos, como redes neurais.

Poderia discutir o modelo de valoração automatizado da Opendoor (OVM) e como ele calcula o valor estimado de uma propriedade?

O Modelo de Valoração da Opendoor (OVM) é uma peça fundamental do nosso negócio e alimenta muitas aplicações de preços downstream.

De muitas maneiras, o OVM se comporta como um comprador ou vendedor típico – ele olha para um bairro, incluindo os tipos e preços de casas vendidas recentemente. No entanto, quando se trata de precificar casas, especialmente dado a diversidade de casas nos EUA, não é suficiente olhar apenas para os preços de vendas comparáveis. É muito mais complexo do que isso. Nós levamos em consideração uma variedade de fatores, que vão desde o tamanho em metros quadrados e espaço de quintal até o número de banheiros e quartos, layout, ruas movimentadas, melhorias e muito mais. O OVM é alimentado por uma multidão de fontes de dados, incluindo informações de impostos sobre propriedades, tendências do mercado, bem como muitos sinais específicos de casa e bairro. Nós também procuramos ajustes humanos anteriores em casas para calcular o valor de ajuste médio. E podemos refinar esses valores com escala. À medida que coletamos mais dados de ajuste humano para mercados, o conjunto de dados cresce e melhora o desempenho do OVM. É um loop de feedback que melhora continuamente o desempenho com o tempo.

Além de ser altamente preciso, ele precisa ser executado com baixa latência e alta cobertura. Isso significa que, a cada vez que entramos em um novo mercado, precisamos expandir as capacidades do OVM para garantir que ele possa atender aos proprietários de casas em todos os bairros e tipos de casas.

Quais são algumas das diferentes metodologias de aprendizado de máquina utilizadas?

Quando começamos a construir o OVM, nos baseamos principalmente em modelos estatísticos lineares para entender melhor o processo de tomada de decisão dos nossos compradores e vendedores. Mas, com o tempo, o OVM evoluiu e agora é baseado em uma rede neural, especificamente uma arquitetura chamada Rede Siamesa. Nós usamos isso para incorporar comportamentos de compradores e vendedores, incluindo a seleção de casas comparáveis, ajustes e ponderações. Isso é vital porque descobrimos que, para alcançar alta precisão, os modelos precisam refletir esses passos importantes que os participantes do mercado seguem em sua arquitetura.

Uma das muitas vantagens de usar uma rede neural é que ela tem a precisão e a flexibilidade para digerir dados em todos os mercados e detectar nuances locais granulares. Como resultado, quando a Opendoor lança em um novo mercado ou expande o inventário em um mercado existente, podemos usar o mesmo modelo, contornando grande parte do trabalho de infraestrutura de engenharia que vem com a instância de um novo modelo de produção. Em vez disso, executamos novos dados pelo modelo existente, o que reduz significativamente o tempo que os nossos engenheiros passam no processo.

Existem também muitas outras metodologias de aprendizado de máquina que usamos na Opendoor, além de redes neurais. Isso inclui, mas não se limita a, árvores de decisão, técnicas de agrupamento, sistemas de classificação e algoritmos de otimização.

A Opendoor depende de enormes quantidades de dados, onde esses dados são coletados?

Os dados que os nossos algoritmos consideram mais valiosos também são frequentemente os mais difíceis de encontrar. São os dados que geramos internamente ou desenvolvemos por meio de relacionamentos proprietários. Nós usamos uma combinação de dados internos e dados de terceiros sobre imóveis, incluindo pontos de dados de listagens, como a data de venda, número de quartos e banheiros, metros quadrados e mais. Além disso, olhamos para recursos que indicam a singularidade das casas, que são coisas que apenas a expertise humana pode fornecer, como iluminação, ruído de rua, qualidade de aparelhos e acabamentos e muito mais. Nós coletamos dados de casas que já estão no mercado, bem como de casas fora do mercado onde os proprietários compartilharam informações conosco.

Poderia discutir alguns dos esforços da Opendoor para melhorar a velocidade e a confiabilidade da infraestrutura que alimenta a ingestão bruta de dados?

Antes de qualquer lançamento de novo mercado, ingerimos muitos anos de dados históricos. Dados de alta qualidade são vitais para treinar tanto os nossos algoritmos quanto os nossos operadores locais para garantir que eles entendam as variações dentro daquele mercado. Para melhorar a velocidade, a qualidade e a confiabilidade, construímos ferramentas de mapeamento de dados flexíveis e ferramentas para avaliar automaticamente a cobertura de novos campos de dados. Com essas ferramentas no lugar, leva apenas algumas horas ou dias para ingerir e validar grandes quantidades de dados de transações imobiliárias históricas, em vez de semanas.

Outra estratégia que investimos é o monitoramento proativo e automatizado da qualidade dos dados. Nós configuramos sistemas que verificam as distribuições dos dados que estamos ingerindo e transformando em cada etapa do processo, em tempo real. Por exemplo, se esperamos que, em um mercado específico, 20% das novas listagens sejam, em média, apartamentos, e então hoje 50% das novas listagens são classificadas como apartamentos, isso dispara um alerta para que um engenheiro investigue.

Como o julgamento humano especializado é combinado com os algoritmos de aprendizado de máquina para criar loops de feedback de desempenho cada vez melhor?

Nossos especialistas em preços internos desempenham um papel enorme em nossas decisões de preços, trabalhando em conjunto com os nossos algoritmos. Onde as máquinas ainda têm pontos cegos, os nossos operadores especializados preenchem, e contamos com eles em várias etapas. Por exemplo, eles adicionam ou verificam dados de entrada, como a qualidade de certos projetos de reforma. Eles tomam decisões intermediárias sobre quais recursos podem ser difíceis de valorar, e também tomam decisões de interface do usuário, como quais ofertas devemos aceitar. O elemento humano sempre será crítico para a nossa estratégia, e acreditamos que casar especialistas e algoritmos é o melhor.

Poderia definir backtesting e discutir sua importância na Opendoor?

Backtesting é uma maneira de avaliar a precisão de um modelo usando dados históricos. Por exemplo, podemos treinar o Modelo de Valoração da Opendoor em dados de janeiro de 2015 a janeiro de 2021. Nesse contexto, “treinar” significa que alimentamos entradas históricas, como atributos de casas, e resultados, como preços de casas vendidas, para o modelo. E, por sua vez, o modelo aprende uma relação entre entradas e resultados. Então, pegamos esse modelo, que reflete essas novas relações aprendidas, e alimentamos outro conjunto de dados históricos, digamos, de fevereiro de 2021. Como os dados são históricos, sabemos os resultados, e podemos medir o quanto esses divergem das previsões.

Esse processo é muito importante na Opendoor, e é usado para todos os nossos produtos de aprendizado de máquina. Ele reduz o risco de um problema chamado sobreajuste, que é quando um modelo de aprendizado de máquina identifica padrões em dados históricos que não estão realmente lá. Por exemplo, correlações espúrias que não ajudam na previsão do mundo real. Ele também nos salva de executar caros testes A/B no mundo real em novos produtos e estratégias que podem ser eliminados com base em dados históricos.

Há algo mais que você gostaria de compartilhar sobre a Opendoor?

Estamos contratando! Se você estiver interessado em construir o futuro do setor imobiliário e/ou trabalhar na interseção de fintech, aprendizado de máquina e produtos de consumo, por favor, candidate-se! Temos vagas abertas em várias funções e cidades. Confira nossa página de carreiras aqui.

Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Opendoor.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.