Connect with us

インタビュー

Sam Stone, PM, Pricing at Opendoor – Interview Series

mm

Samは、金融と機械学習の交差点で製品を構築することに情熱を傾けています。彼は現在、OpendoorのPricingグループの製品責任者で、アルゴリズムを使用して瞬間的に家を買い売りする後期スタートアップです。家主は家をリストしてホームショーを開催する手間と不確実性を避けることができます。

あなたが機械学習とデータサイエンスに最初に惹かれたのは何でしたか?

大学卒業後、私は数百人の大学新卒を同じ入社レベルのポジションに採用する大手プロフェッショナルサービス会社で働きました。採用に関与するにつれて、会社内の人々の意見は、どのような候補者属性が成功につながるかについて非常に異なっていたことに驚かされ、失望しました。明確性が欠けている重要な問題のようです。しかし、過去の求人や新入社員の成果に関する豊富なデータがまだ深く分析されたことがないという事実に興奮しました。そこで、私はそれを統計的な問題として扱い、線形回帰などの基本的なツールを使用して作業を開始しました。時間の経過とともに、プロジェクトはスタートアップに成長し、使用する方法はより洗練されました。たとえば、インタビューからの非構造化オーディオとテキストを直接処理したいと考え、ニューラルネットワークなどのより強力な機械学習モデルを採用しました。

Opendoorの自動評価モデル(OVM)について説明し、どのようにして物件の推定値を計算するかを説明してください。

Opendoor Valuation Model(OVM)は、私たちのビジネスの重要な部分であり、多くの下流の価格設定アプリケーションにフィードバックされます。

多くの点で、OVMは典型的な買い手や売り手のように動作します。近隣の最近売却された家の種類や価格を確認します。しかし、特に米国の家の多様性を考えると、価格設定の際に比較可能な売却のみを見ることは不十分です。より複雑です。平方フィート、裏庭の広さ、バスルームや寝室の数、レイアウト、道路の混雑、改修など、さまざまな要素を考慮します。OVMは、財産税情報、市場動向、および多くの家や近隣の特定の信号を含む、多数のデータソースによってフィードされます。また、家の過去の人間による調整を計算して平均調整値を計算します。スケールでこれらの値を改善できます。市場ごとに人間による調整データを収集するにつれて、データセットが成長し、OVMのパフォーマンスが向上します。これは、パフォーマンスを継続的に改善するフィードバックループです。

高い精度であるだけでなく、低遅延で高カバレッジで実行する必要があります。つまり、新しい市場に参入するたびに、OVMの機能を拡張して、近隣や家の種類を問わず、家主にサービスを提供できるようにする必要があります。

使用されるさまざまな機械学習手法について説明してください。

OVMを構築し始めたとき、私たちは、買い手と売り手の意思決定プロセスをよりよく理解するために、主に線形統計モデルに頼っていました。しかし、時間の経過とともに、OVMは発展し、現在は、特にSiamese Networkと呼ばれるアーキテクチャを使用するニューラルネットワークに基づいています。買い手と売り手の行動、包括的な家の選択、調整、重み付けを埋め込むためにこれを使用します。これは、非常に重要です。高い精度を達成するには、モデルはこれらの市場参加者が従う重要なステップをそのアーキテクチャに反映する必要があるからです。

ニューラルネットワークを使用する利点の1つは、データをすべての市場で消化し、地元のニュアンスを検出するための精度と柔軟性があることです。結果として、Opendoorが新しい市場に参入したり、既存の市場で在庫を拡大したりするときに、同じモデルを使用できます。新しいプロダクションモデルをインスタンス化することによる多くのエンジニアリングインフラストラクチャ作業をバイパスできます。代わりに、新しいデータを既存のモデルを介して実行します。これにより、エンジニアがプロセスに費やす時間が大幅に短縮されます。

Opendoorでは、ニューラルネットワーク以外にも、決定木、クラスタリング手法、ランキングシステム、最適化アルゴリズムなど、多くの機械学習手法を使用しています。

Opendoorが依存する大量のデータはどこから収集されていますか?

私たちのアルゴリズムが最も価値のあるデータを見つけるのは、最も難しいデータを見つけることです。これは、自社で生成したデータか、独自の関係を通じて開発したデータです。リストからのデータポイント、販売日、寝室とバスルームの数、平方フィートなど、自社のデータと第三者の不動産データの組み合わせを使用します。さらに、人間の専門知識のみが提供できる家のユニーク性を示す機能、つまり、照明、道路の騒音、家電製品と仕上げの品質などを見ます。既に市場に出ている家からのデータと、所有者が私たちと共有した情報を持っている非市場の家からのデータを収集します。

Opendoorの生のデータインジェストを支えるインフラストラクチャの速度と信頼性を向上させる取り組みについて説明してください。

新しい市場の立ち上げ前に、私たちは数年分の歴史データをインジェストします。高品質のデータは、アルゴリズムとローカルオペレーターのトレーニングに不可欠です。速度、品質、信頼性を向上させるために、柔軟なデータマッピングツールと新しいデータフィールドのカバレッジを自動的に評価するツールを構築しました。これらのツールを使用すると、数週間ではなく、数時間または数日で大量の歴史的な不動産取引データをインジェストおよび検証できます。

もう1つの戦略は、プロアクティブな自動データ品質モニタリングに投資することです。プロセスの各ステップで、インジェストおよび変換されるデータの分布をリアルタイムでチェックするシステムを設定しました。たとえば、特定の市場で新しいリストの平均20%がアパートであると予想していて、今日新しいリストの50%がアパートとして分類されている場合、エンジニアが調査するためにアラートが設定されます。

専門家の人間の判断と機械学習アルゴリズムを組み合わせて、パフォーマンスを向上させるフィードバックループを作成する方法について説明してください。

私たちのインハウスの価格設定専門家は、アルゴリズムとともに、価格設定の決定を行っています。機械がまだ盲点を持っている場所では、専門家のオペレーターが補います。入力データの追加または検証、特定の改修プロジェクトの品質などの例があります。中間決定、特定の機能の価値が難しい場合の決定、ユーザー向けの決定、受け入れるべきオファーなどを行います。人間の要素は私たちの戦略に常に重要であり、専門家とアルゴリズムを組み合わせることを最も良いと考えています。

バックテストの定義とOpendoorでのその重要性について説明してください。

バックテストは、歴史データを使用してモデルの精度を評価する方法です。たとえば、2015年1月から2021年1月のデータでOpendoor Valuation Modelをトレーニングする場合があります。「トレーニング」とは、歴史的な入力、家の属性、結果、売却された家の価格をモデルにフィードすることを意味します。モデルは入力と結果の関係を学習し、さらに別の歴史データセット、たとえば2021年2月のデータをモデルにフィードします。データは歴史的なものなので、結果を知っているため、予測とどれだけ乖離するかを測定できます。

このプロセスはOpendoorでは非常に重要であり、すべての機械学習製品で使用されています。過学習という問題のリスクを軽減します。過学習とは、実際には存在しない歴史データのパターンを機械学習モデルが特定することです。たとえば、現実の予測には役立たない、実在しない相関関係です。また、実世界のA/Bテストを実行する必要性を排除し、歴史データに基づいて排除できる新しい製品や戦略のコストを削減します。

Opendoorについてさらに共有したいことはありますか?

私たちは採用しています!あなたが不動産の未来を築くこと、またはフィンテック、機械学習、消費者向け製品の交差点で働くことに興味がある場合は、ぜひ応募してください。機能や都市を問わず、さまざまな役職を募集しています。キャリアページをこちらでご覧ください。

素晴らしいインタビュー、詳しく知りたい読者はOpendoorを訪問してください。

アントワーヌは、Unite.AIの創設パートナーであり、ビジョナリーなリーダーです。彼は、AIとロボティクスの未来を形作り、推進するという、揺るぎない情熱に突き動かされています。シリアルエントレプレナーである彼は、AIは電気と同じように社会に大きな変革をもたらすと信じており、破壊的な技術やAGIの潜在能力について熱く語ることがよくあります。

As a futurist、彼は、これらのイノベーションが私たちの世界をどのように形作るかを探求することに尽力しています。さらに、彼は、Securities.ioの創設者であり、未来を再定義し、全セクターを再構築する最先端技術への投資に焦点を当てたプラットフォームです。