Entrevistas

Sam Stone, PM, Precios en Opendoor – Serie de entrevistas

Actualizado on Sábado, Junio 2, 2021

A Sam le apasiona crear productos en la intersección de las finanzas y el aprendizaje automático. Actualmente es el Jefe de Producto del Grupo de Precios en Puerta abierta, una startup en etapa avanzada que utiliza algoritmos para comprar y vender casas al instante, ahorrando a los propietarios la molestia y la incertidumbre de poner en venta su casa y alojamiento.

¿Qué le atrajo inicialmente del aprendizaje automático y la ciencia de datos?

Después de la universidad, trabajé para una gran empresa de servicios profesionales que contrató a cientos de graduados universitarios para el mismo puesto inicial. Cuando me involucré en la contratación, me sorprendió y consternó lo mucho que diferían las opiniones de la gente dentro de la empresa sobre los atributos de los candidatos que conducían al éxito. Parecía un problema realmente importante, en el que faltaba claridad. Pero me entusiasmó el hecho de que teníamos amplia información sobre los solicitantes de empleo anteriores y los resultados de las nuevas contrataciones que nunca habían sido conectados ni analizados en profundidad. Entonces comencé a trabajar en eso, tratándolo como un problema estadístico, usando herramientas básicas como la regresión lineal. Con el tiempo, el proyecto se convirtió en una startup y los métodos que utilizamos se volvieron más sofisticados. Por ejemplo, queríamos procesar audio y texto no estructurados de entrevistas directamente, y eso nos llevó a adoptar modelos de aprendizaje automático más potentes, como las redes neuronales.

¿Podría hablar sobre el modelo de valoración automatizado (OVM) de Opendoor y cómo calcula el valor estimado de una propiedad?

El modelo de valoración de puertas abiertas (OVM) es una pieza central de nuestro negocio y se alimenta de muchas aplicaciones de fijación de precios posteriores.

En muchos sentidos, OVM se comporta como lo haría un comprador o vendedor típico: mira a través de un vecindario, incluidos los tipos y precios de las casas vendidas recientemente. Sin embargo, cuando se trata de fijar el precio de las casas, especialmente dada la diversidad de casas en los EE. UU., no es suficiente mirar únicamente los precios de ventas comparables. Es mucho más complejo que eso. Tomamos en cuenta una variedad de factores, que van desde los pies cuadrados y el espacio del patio trasero hasta la cantidad de baños y habitaciones, el diseño, las carreteras transitadas, las mejoras y más. OVM se alimenta de una multitud de fuentes de datos, que incluyen información sobre impuestos a la propiedad, tendencias del mercado y muchas señales específicas de viviendas y vecindarios. También buscamos ajustes humanos previos en los hogares para calcular el valor de ajuste promedio. Y podemos refinar estos valores con la escala. A medida que recopilamos más datos de ajuste humano para los mercados, el conjunto de datos crece y mejora el rendimiento de OVM. Es un circuito de retroalimentación que mejora continuamente el rendimiento con el tiempo.

Además de ser muy preciso, debe ejecutarse con baja latencia y alta cobertura. Eso significa que cada vez que ingresamos a un nuevo mercado, debemos expandir las capacidades de OVM para garantizar que pueda servir a los propietarios de viviendas en todos los vecindarios y tipos de viviendas.

¿Cuáles son algunas de las diferentes metodologías de aprendizaje automático que se utilizan?

Cuando comenzamos a construir OVM, confiamos principalmente en modelos estadísticos lineales para comprender mejor el proceso de toma de decisiones de nuestros compradores y vendedores. Pero con el tiempo, OVM se desarrolló y ahora se basa en una red neuronal, específicamente una arquitectura llamada Siamese Network. Usamos esto para integrar los comportamientos de compradores y vendedores, incluida la selección de viviendas comparables, ajustándolas y ponderándolas. Esto es vital porque hemos descubierto que, para lograr una alta precisión, los modelos deben reflejar estos pasos clave que siguen los participantes del mercado en su arquitectura.

Uno de los muchos beneficios de usar una red neuronal es que tiene la precisión y la flexibilidad para digerir datos en todos los mercados y detectar matices locales granulares. Como resultado, cuando Opendoor se lanza en un nuevo mercado o amplía el inventario en un mercado existente, podemos usar el mismo modelo, evitando gran parte del trabajo de infraestructura de ingeniería que se deriva de instanciar un nuevo modelo de producción. En cambio, ejecutamos nuevos datos a través del modelo existente, lo que reduce significativamente el tiempo que nuestros ingenieros dedican al proceso.

También hay muchas otras metodologías de aprendizaje automático que utilizamos en Opendoor, además de las redes neuronales. Esto incluye, entre otros, árboles de decisión, técnicas de agrupación, sistemas de clasificación y algoritmos de optimización.

Opendoor se basa en grandes cantidades de datos, ¿de dónde se recopilan estos datos?

Los datos que nuestros algoritmos encuentran más valiosos también suelen ser los datos más difíciles de encontrar. Estos son los datos que generamos nosotros mismos o desarrollamos a través de relaciones de propiedad. Usamos una combinación de datos internos y datos inmobiliarios de terceros, incluidos puntos de datos de listados, como la fecha de venta, la cantidad de habitaciones y baños, pies cuadrados y más. Además, analizamos las características que indican la singularidad de las viviendas, que son cosas que solo la experiencia humana puede proporcionar, como la iluminación, el ruido de la calle, la calidad de los electrodomésticos y los acabados, y mucho más. Recopilamos datos de las casas que ya están en el mercado, así como de las casas fuera del mercado donde los propietarios han compartido información con nosotros.

¿Podría hablar sobre algunos de los esfuerzos de Opendoor para mejorar la velocidad y la confiabilidad de la infraestructura que impulsa la ingesta de datos sin procesar?

Antes de cualquier nuevo lanzamiento al mercado, ingerimos muchos años de datos históricos. Los datos de alta calidad son vitales para capacitar tanto a nuestros algoritmos como a nuestros operadores locales para garantizar que comprendan las variaciones dentro de ese mercado. Para mejorar la velocidad, la calidad y la confiabilidad, hemos creado herramientas de mapeo de datos flexibles y herramientas para evaluar automáticamente la cobertura de nuevos campos de datos. Con estas herramientas implementadas, nos lleva horas o días ingerir y validar grandes cantidades de datos históricos de transacciones inmobiliarias, en lugar de semanas.

Otra estrategia en la que hemos invertido es el monitoreo proactivo y automatizado de la calidad de los datos. Hemos configurado sistemas que verifican las distribuciones de los datos que estamos incorporando y transformando en cada paso del proceso, en tiempo real. Por ejemplo, si esperamos que en un mercado en particular el 20% de los nuevos listados en promedio sean apartamentos, y luego hoy el 50% de los nuevos listados se clasifican como apartamentos, eso activará una alerta para que un ingeniero investigue.

¿Cómo se combina el juicio humano experto con los algoritmos de aprendizaje automático para crear bucles de retroalimentación de rendimiento cada vez mejor?

Nuestros expertos en precios internos juegan un papel muy importante en nuestras decisiones de precios, trabajando en conjunto con nuestros algoritmos. Donde las máquinas todavía tienen puntos ciegos, nuestros operadores expertos los reemplazan y confiamos en ellos a través de varias etapas. Por ejemplo, agregan o verifican datos de entrada, como la calidad de ciertos proyectos de renovación. Toman decisiones intermedias sobre qué características pueden ser difíciles de valorar y también toman decisiones de cara al usuario, como qué ofertas debemos aceptar. El elemento humano siempre será fundamental para nuestra estrategia y creemos que unir expertos y algoritmos es lo mejor.

¿Podrían definir backtesting y discutir su importancia en Opendoor?

Backtesting es una forma de evaluar la precisión de un modelo utilizando datos históricos. Por ejemplo, podemos entrenar el modelo de valoración Opendoor con datos de enero de 2015 a enero de 2021. En este contexto, "entrenar" significa que alimentamos el modelo con entradas históricas, como los atributos de la vivienda y los resultados, como los precios de las viviendas vendidas. Y, a su vez, el modelo aprende una relación entre entradas y resultados. Luego tomamos este modelo, que refleja esas relaciones recién aprendidas, y alimentamos otro conjunto de datos históricos, digamos de febrero de 2021. Debido a que los datos son históricos, conocemos los resultados y podemos medir cuánto se desvían de los predicciones

Este proceso es muy importante en Opendoor y se utiliza para todos nuestros productos de aprendizaje automático. Reduce el riesgo de un problema llamado sobreajuste, que es cuando un modelo de aprendizaje automático identifica patrones en datos históricos que realmente no existen. Por ejemplo, correlaciones espurias que no ayudan con el pronóstico del mundo real. También nos evita realizar costosas pruebas A/B en el mundo real sobre nuevos productos y estrategias que pueden eliminarse en función de los datos históricos.

¿Hay algo más que le gustaría compartir sobre Opendoor?

¡Estamos contratando! Si está interesado en construir el futuro de los bienes raíces y/o trabajar en la intersección de la tecnología financiera, el aprendizaje automático y los productos de consumo, ¡presente su solicitud! Tenemos puestos abiertos en todas las funciones y ciudades Consulte nuestra página de carreras esta página.

Gracias por la gran entrevista, los lectores que deseen obtener más información deben visitar Puerta abierta.