Entrevistas
Sam Stone, PM, Precios en Opendoor – Serie de Entrevistas

Sam es apasionado de construir productos en la intersección de las finanzas y el aprendizaje automático. Actualmente es el Jefe de Producto para el Grupo de Precios en Opendoor, una startup en etapa avanzada que utiliza algoritmos para comprar y vender hogares instantáneamente, ahorrando a los propietarios de hogares las molestias y la incertidumbre de listar su hogar y alojar.
¿Qué te atrajo inicialmente al aprendizaje automático y la ciencia de datos?
Después de la universidad, trabajé para una gran empresa de servicios profesionales que contrató a cientos de graduados universitarios en la misma posición de entrada. A medida que me involucré en la contratación, me sorprendió y me desanimó cómo las opiniones de las personas dentro de la empresa diferían ampliamente sobre qué atributos de los candidatos llevaban al éxito. Parecía un problema realmente importante, donde faltaba claridad. Pero me emocioné por el hecho de que teníamos abundantes datos sobre solicitudes de trabajo pasadas y resultados de nuevos empleados que nunca habían sido conectados ni analizados profundamente. Así que comencé a trabajar en eso, tratándolo como un problema estadístico, utilizando herramientas básicas como la regresión lineal. Con el tiempo, el proyecto creció en una startup, y los métodos que usamos se volvieron más sofisticados. Por ejemplo, queríamos procesar audio y texto no estructurados de entrevistas directamente, y eso nos llevó a adoptar modelos de aprendizaje automático más potentes como las redes neuronales.
¿Podrías discutir el modelo de valoración automatizado (OVM) de Opendoor y cómo calcula el valor estimado de una propiedad?
El Modelo de Valoración de Opendoor (OVM) es una parte fundamental de nuestro negocio y alimenta muchas aplicaciones de precios downstream.
De muchas maneras, OVM se comporta como un comprador o vendedor típico: busca en un vecindario, incluyendo los tipos y precios de hogares vendidos recientemente. Sin embargo, cuando se trata de precios de hogares, especialmente dado la diversidad de hogares en los EE. UU., no es suficiente mirar solo los precios de las ventas comparables. Es mucho más complejo que eso. Tenemos en cuenta una variedad de factores, que van desde el tamaño en pies cuadrados y el espacio del patio trasero hasta la cantidad de baños y dormitorios, el diseño, las carreteras concurridas, las mejoras y más. OVM se alimenta de una multitud de fuentes de datos, incluyendo información de impuestos sobre la propiedad, tendencias del mercado, así como muchas señales específicas de hogares y vecindarios. También buscamos ajustes humanos previos en hogares para calcular el valor de ajuste promedio. Y podemos refinar estos valores con escala. A medida que recopilamos más datos de ajustes humanos para los mercados, el conjunto de datos crece y mejora el rendimiento de OVM. Es un bucle de retroalimentación que mejora continuamente el rendimiento con el tiempo.
Además de ser muy preciso, debe ejecutarse con baja latencia y alta cobertura. Eso significa que cada vez que entramos en un nuevo mercado, necesitamos ampliar las capacidades de OVM para asegurarnos de que pueda servir a los propietarios de hogares en todos los vecindarios y tipos de hogares.
¿Cuáles son algunas de las diferentes metodologías de aprendizaje automático que se utilizan?
Cuando comenzamos a construir OVM, nos basamos principalmente en modelos estadísticos lineales para comprender mejor el proceso de toma de decisiones de nuestros compradores y vendedores. Pero con el tiempo, OVM se desarrolló y ahora se basa en una red neuronal, específicamente una arquitectura llamada Red Siamesa. Usamos esto para incrustar comportamientos de compradores y vendedores, incluyendo la selección de hogares comparables, ajustarlos y ponderarlos. Esto es vital porque hemos encontrado que para lograr una alta precisión, los modelos deben reflejar estos pasos clave que los participantes del mercado siguen en su arquitectura.
Una de las muchas ventajas de usar una red neuronal es que tiene la precisión y la flexibilidad para digerir datos en todos los mercados y detectar matices locales granulares. Como resultado, cuando Opendoor lanza un nuevo mercado o amplía el inventario en un mercado existente, podemos usar el mismo modelo, evitando gran parte del trabajo de infraestructura de ingeniería que conlleva instanciar un nuevo modelo de producción. En su lugar, ejecutamos nuevos datos a través del modelo existente, lo que reduce significativamente el tiempo que nuestros ingenieros pasan en el proceso.
También hay muchas otras metodologías de aprendizaje automático que usamos en Opendoor, además de las redes neuronales. Esto incluye, pero no se limita a, árboles de decisión, técnicas de agrupación, sistemas de clasificación y algoritmos de optimización.
Opendoor se basa en enormes cantidades de datos, ¿de dónde se recopila esta información?
Los datos que nuestros algoritmos encuentran más valiosos también son a menudo los más difíciles de encontrar. Esto es el dato que generamos nosotros mismos o desarrollamos a través de relaciones propietarias. Usamos una combinación de datos internos y datos de bienes raíces de terceros, incluyendo puntos de datos de listados, como la fecha de venta, el número de dormitorios y baños, el tamaño en pies cuadrados y más. Además, miramos características que indican la singularidad de los hogares, que son cosas que solo la experiencia humana puede proporcionar, como la iluminación, el ruido de la calle, la calidad de los electrodomésticos y los acabados, y mucho más. Recopilamos datos de los hogares que ya están en el mercado, así como de hogares fuera del mercado donde los propietarios han compartido información con nosotros.
¿Podrías discutir algunos de los esfuerzos de Opendoor para mejorar la velocidad y la confiabilidad de la infraestructura que alimenta la ingesta de datos crudos?
Antes de lanzar un nuevo mercado, ingerimos muchos años de datos históricos. Los datos de alta calidad son vitales para entrenar tanto a nuestros algoritmos como a nuestros operadores locales para asegurarnos de que comprendan las variaciones dentro de ese mercado. Para mejorar la velocidad, la calidad y la confiabilidad, hemos construido herramientas de mapeo de datos flexibles y herramientas para evaluar automáticamente la cobertura de nuevos campos de datos. Con estas herramientas en su lugar, nos toma solo unas horas o días ingerir y validar grandes cantidades de datos de transacciones de bienes raíces históricos, en lugar de semanas.
Otra estrategia en la que hemos invertido es el monitoreo de la calidad de los datos de forma proactiva y automatizada. Hemos configurado sistemas que verifican las distribuciones de los datos que estamos ingiriendo y transformando en cada paso del proceso, en tiempo real. Por ejemplo, si esperamos que en un mercado determinado el 20% de los nuevos listados sean apartamentos, y luego hoy el 50% de los nuevos listados están clasificados como apartamentos, eso activará una alerta para que un ingeniero lo investigue.
¿Cómo se combina el juicio humano experto con los algoritmos de aprendizaje automático para crear bucles de retroalimentación de rendimiento cada vez mejor?
Nuestros expertos en precios internos desempeñan un papel enorme en nuestras decisiones de precios, trabajando en conjunto con nuestros algoritmos. Donde las máquinas todavía tienen puntos ciegos, nuestros operadores expertos llenan el vacío, y nos basamos en ellos en varias etapas. Por ejemplo, agregan o verifican datos de entrada, como la calidad de ciertos proyectos de renovación. Toman decisiones intermedias sobre qué características podrían ser difíciles de valorar, y también toman decisiones de cara al usuario, como qué ofertas debemos aceptar. El elemento humano siempre será fundamental en nuestra estrategia y creemos que casar a expertos y algoritmos es lo mejor.
¿Podrías definir la retrovalidación y discutir su importancia en Opendoor?
La retrovalidación es una forma de evaluar la precisión de un modelo utilizando datos históricos. Por ejemplo, podemos entrenar el Modelo de Valoración de Opendoor con datos desde enero de 2015 hasta enero de 2021. En este contexto, “entrenar” significa que alimentamos entradas históricas, como atributos de hogares, y resultados, como precios de hogares vendidos, al modelo. Y, a su vez, el modelo aprende una relación entre entradas y resultados. Luego tomamos este modelo, que refleja esas relaciones recién aprendidas, y lo alimentamos con otro conjunto de datos históricos, digamos desde febrero de 2021. Como los datos son históricos, conocemos los resultados, y podemos medir cuánto se desvían de las predicciones.
Este proceso es muy importante en Opendoor, y se utiliza para todos nuestros productos de aprendizaje automático. Reduce el riesgo de un problema llamado sobreajuste, que es cuando un modelo de aprendizaje automático identifica patrones en los datos históricos que no están realmente allí. Por ejemplo, correlaciones espurias que no ayudan con la predicción del mundo real. También nos ahorra realizar costosas pruebas A/B en el mundo real de nuevos productos y estrategias que se pueden eliminar en función de los datos históricos.
¿Hay algo más que te gustaría compartir sobre Opendoor?
Estamos contratando. Si estás interesado en construir el futuro de los bienes raíces y/o trabajar en la intersección de la fintech, el aprendizaje automático y los productos de consumo, ¡por favor, solicita! Tenemos puestos abiertos en funciones y ciudades. Visita nuestra página de carreras aquí.
Gracias por la gran entrevista. Los lectores que deseen aprender más pueden visitar Opendoor.












