์ธํฐ๋ทฐ
Roshanak Houmanfar, VP of Machine Learning Products at Integrate.ai – ์ธํฐ๋ทฐ ์๋ฆฌ์ฆ

Roshanak (Ro) Houmanfar는 integrate.ai의 머신 러닝 제품 부사장입니다. integrate.ai는 개발자가 민감한 데이터를 위험에 빠뜨리지 않고 세계에서 가장 중요한 문제를 해결하도록 도와주는 회사입니다. Ro는 복잡한 AI 개념을 새롭게 단순화하고 사용자需求과 연결하는 특별한 재능을 가지고 있습니다. 이러한 전문 지식을 활용하여, 그녀는 integrate.ai의 사명인 개인 정보 보호를 강화하는 기술에 대한 접근을 민주화하는 최전선에 있습니다.
데이터 과학 및 머신 러닝에 처음 관심을 가졌던 것은 무엇입니까?
저는 로봇공학에서 시작했습니다. 로봇공학의 다양한 각도에서 실험을 한 후, 용접 연구실을 태워 버렸고, 저는 로봇공학의 인공 지능 측면에 더 매료되었다는 것을 알게 되었습니다. 그리고 그것이 저를 멋진 머신 러닝 세계로 이끌었습니다.
현재 역할과 평균적인 일日の 모습을 설명해 주시겠습니까?
저는 integrate.ai의 제품 부사장입니다. integrate.ai는 개발자가 세계에서 가장 중요한 문제를 해결하도록 도와주는 SaaS 회사입니다. 민감한 데이터를 위험에 빠뜨리지 않고, 우리는 분산된 미래의 데이터를 위한 프라이버시 안전한 머신 러닝과 분석을 위한 도구를 구축하고 있습니다.
제 일일 업무에서는, 저는 세 가지 것을 달성하기 위해 기능별 팀과 함께 일합니다.
미래의 지능이 어떤 모습일 수 있는지 생각하고, 어떻게 그 미래를 형성할 수 있는지 생각합니다. 그리고 지능이 가장 중요한 문제를 해결하도록 합니다.
고객의痛点을 이해하고, 어떻게 혁신하여 고객의 작업을 더 영향력 있게하고 효율적으로 만들 수 있는지 생각합니다.
제품 개발에서 비전과 고객 피드백이 항상 고려되도록 하기 위해, 저는 팀과 협력하여 최고의 기능을 제공합니다.
합성 데이터는 현재 머신 러닝에서 모든 화제입니다. 그러나 integrate.ai는 조금 다른 접근 방식을 취합니다. 합성 데이터가 바람직하지 않은 옵션이 되는 몇 가지 응용 프로그램은 무엇입니까?
합성 데이터가 언제 가장 적합한지 이해하기 위해서는, 먼저 합성 데이터가 언제 가장 적합한지 이해해야 합니다. 합성 데이터는 모델링 대상에 실제 데이터가 거의 없거나 전혀 없는 경우에 가장 잘 사용됩니다. 예를 들어, 콜드 스타트 문제와 텍스트 및 이미지 기반 모델 훈련에서 합성 데이터는 해결책으로 빛나게 됩니다.
그러나 합성 데이터는 실제 데이터가 충분히 존재하지만, 프라이버시 규정, 중앙화 비용 또는 기타 상호 운용성 장벽으로 인해 실로된 상황에서 점점 더 많이 사용되고 있습니다. 이것은 합성 데이터의 오남용입니다. 이러한 사용 사례에서, 합성 데이터 생성을 위한 적절한 추상화 수준을 결정하는 것이 어렵습니다. 이는 낮은 품질의 합성 데이터로 이어지며, 이는 내재된 편향 또는 디버깅이 어려운 다른 문제를 초래할 수 있습니다. 또한, 합성 데이터에 훈련된 모델은 실제、高품질、세부적인 소스 데이터에 훈련된 모델과 비교할 수 없습니다.
Integrate.ai는 연합 학습 솔루션을 제공합니다. 연합 학습이 무엇인지 설명해 주시겠습니까?
전통적인 머신 러닝에서는, 모든 모델 훈련 데이터가 하나의 데이터베이스에 중앙화되어야 합니다. 연합 학습에서는, 모델이 분산된 데이터 세트 또는 데이터가 쉽게 이동할 수 없는 두 개 이상의 별도 데이터베이스에 있는 데이터에서 훈련할 수 있습니다. 작동 방식은 모델의 일부가 데이터가 위치한 곳에서 훈련되고, 모델 매개 변수가 참여 데이터 세트 간에 공유되어 개선된 전역 모델을 생성합니다. 그리고 시스템 내에서 데이터가 이동하지 않기 때문에, 조직은 프라이버시 및 보안 규정, 비용 또는 기타 중앙화 문제와 같은 장벽 없이 모델을 훈련할 수 있습니다.
일반적으로, 연합 학습에서 액세스할 수 있는 훈련 데이터는 중앙화된 데이터가 하나의 위치에서 액세스容易성을 희생하여 일부 세부 정보를 잃을 수 있기 때문에, 훨씬 더 높은 품질입니다.
기업은 연합 학습을 위한 최선의 사용 사례를 어떻게 식별할 수 있습니까?
연합 학습은 머신 러닝 기술 스택으로, 데이터에 액세스하거나 전통적인 머신 러닝 인프라에 중앙화된 데이터 레이크로 데이터를 가져오는 것이 고통스러운 상황을 위한 것입니다. 다음 증상 중 하나를 경험한다면, 연합 학습이適合합니다:
- 분석 및 머신 러닝으로 구동되는 스마트 제품을 제공하지만, 데이터가 고객에게 속하기 때문에 네트워크 효과를 만들 수 없습니다.
- 데이터에 액세스하기 위해 파트너와의 마스터 서비스 계약 또는 데이터 공유 계약을 통해 작업하고 있습니다.
- 특히 데이터 파트너십의 결과가 명확하지 않은 상황에서 파트너와의 협력 계약을 형성하는 데 많은 시간을 소요하고 있습니다.
- 데이터 세트를 보유하고 있으며 데이터 세트를 수익화하고 싶지만, 명성이 손상될 것을 우려합니다.
- 이미 데이터를 수익화하고 있지만, 데이터를 공유하기 전에 안전하게 만드는 데 많은 시간, 노력 및 돈을 투자하고 있습니다.
- 클라우드로의 이동 중에 인프라가 뒤처졌지만, 여전히 분석 및 머신 러닝이 필요합니다.
- 同じ 조직에 속하는 자회사들이 있지만, 직접 데이터를 공유할 수 없습니다.
- 처리하는 데이터 세트가 너무 크거나 이동하기에 비용이 많이 소요되므로, 사용하지 않거나 ETL 파이프라인이 많은 비용을 소요합니다.
- 데이터를 직접 보유하지는 못하지만, 큰 영향을 미칠 수 있는 응용 프로그램이나 기회가 있으며, 이를 위해 데이터가 필요합니다.
- 머신 러닝 모델이 정체되어 있으며, 어떻게 개선할 수 있는지 모릅니다.
차등 프라이버시는 종종 연합 학습과 함께 사용됩니다. 이것은 무엇입니까?
차등 프라이버시는 프라이버시를 보장하면서 동시에 머신 러닝의 힘을 활용하는 기술입니다. 표준匿名화 기술과 다른 수학을 사용하여, 차등 프라이버시는 로컬 모델 훈련 중에 노이즈를 추가하여, 대부분의 데이터 세트의 통계적 특성을 보존하면서, 개인의 데이터가 식별될 위험을 제한합니다.
理想的な 구현에서는, 차등 프라이버시가 위험을 거의 0에 가깝게 만듭니다. 그리고 머신 러닝 모델의 성능은 비슷하게 유지됩니다. 이는 데이터匿名화에 필요한 모든 보안을 제공하면서, 모델 결과의 품질을 낮추지 않습니다.
차등 프라이버시는 integrate.ai의 플랫폼에 기본적으로 포함되어 있으므로, 개발자는 모델 매개 변수에서 개인 데이터를 추론할 수 없도록 보장할 수 있습니다.
Integrate.ai의 연합 학습 플랫폼이 어떻게 작동하는지 설명해 주시겠습니까?
우리의 플랫폼은 연합 학습 및 차등 프라이버시 기술을 활용하여, 프라이버시, 기밀성 또는 기술적인 장벽으로 인해 접근하기 어려운 데이터에서 머신 러닝 및 분석 기능을 잠금 해제합니다. 모델 훈련 및 분석과 같은 작업은 로컬에서 수행되며, 오직 최종 결과만 보안적이고 기밀적으로 집계됩니다.
integrate.ai는 개발자 도구로 패키지화되어 있으며, 개발자는 쉽게 사용할 수 있는 소프트웨어 개발 키트(SDK)와 종단간 관리를 위한 클라우드 서비스를 통해 이러한 기능을 거의 모든 솔루션에无缝하게 통합할 수 있습니다. 플랫폼이 통합되면, 최종 사용자는 민감한 데이터 세트를跨越하여 협력할 수 있으며, 데이터 관리자는 전체적인 제어를 유지합니다. integrate.ai를 통합한 솔루션은 효과적인 실험 도구와 프로덕션 준비 서비스 모두로 사용될 수 있습니다.
정밀 진단에서 이 플랫폼을 사용할 수 있는 몇 가지 예는 무엇입니까?
우리가 협력하는 파트너 네트워크 중 하나인 자폐증 공유 이니셔티브(Autism Sharing Initiative)는 자폐증 진단과 관련된 정보 및 유전체 데이터 샘플을 수집하여, 자폐증 진단과 관련된 다양한 유전형과 표현형의 연결을 이해합니다. 각 개인 데이터 사이트에는 모델을 훈련하기에 충분한 데이터 세트가 없지만, 집합적으로 의미 있는 샘플 크기를 생성합니다. 그러나 데이터를 이동시키는 것은 보안 및 프라이버시에 높은 위험을 초래하며, 규정 및 병원 정책으로 인해, 이러한 연구 기관은 데이터를 공유하지 않도록 기본적으로 설정되어 있습니다.
다른 네트워크에서는, 유사한 설정에서, 연구자들은 더 전체적인 환자 기록을 사용하여 임상 시험을 환자에게 할당하는 것을 개선하려고 합니다.
관련 연구 기관은 각 환자에 대한 다양한 정보에 액세스할 수 있습니다. 한 연구소는 의료 스캔에, 다른 연구소는 유전 정보에, 또 다른 기관은 임상 시험 결과에 액세스할 수 있습니다. 그러나 이러한 다양한 기관은 직접 정보를 공유할 수 없습니다.
integrate.ai 솔루션을 사용하면, 각 기관은 데이터를 이동시키지 않고, 데이터 관리자로부터 데이터를遠隔으로 액세스하여, 목표를 달성할 수 있습니다.
프라이버시를 이해할 수 있게 만드는 것의 중요성과 integrate.ai가 이를 어떻게 가능하게 하는지에 대해 논의해 주시겠습니까?
프라이버시를 이해할 수 있게 만드는 것은, 역사적으로 위험의 모호한 성질로 인해 폐쇄된 doanh nghiệp 및 조직에게 많은 문을 열어줍니다. GDPR, CCPA 및 HIPPA와 같은 프라이버시 규정은 매우 복잡하며, 산업, 지역 및 데이터 유형에 따라 다를 수 있으므로, 조직은 어떤 데이터 프로젝트가 프라이버시 안전한지 결정하기가 어렵습니다. 체크리스트의 모든 항목을 확인하는 데 시간과 인력을 낭비하는 대신, integrate.ai의 연합 학습 플랫폼에는 차등 프라이버시, 호모모르픽 암호화 및 보안 다자간 계산이 기본적으로 포함되어 있으므로, 개발자와 데이터 관리자는 프로젝트가 규제 요구 사항을 자동으로 준수한다는 것을 안심할 수 있습니다.
Integrate.ai에 대해 더 공유하고 싶은 내용이 있습니까?
integrate.ai의 솔루션은 개발자 친화적인 도구로, 민감한 데이터 소스에서 머신 러닝 및 분석을 위한 프라이버시 보호 및 보안을 제공합니다. 쉽게 사용할 수 있는 API를 통해, 민감한 데이터 위에 대한 규제 준수 및 계약의 모든 복잡성이 추상화됩니다. integrate.ai의 솔루션은 데이터 과학자 및 소프트웨어 개발자가 작업량을 안전하게 관리할 수 있도록 하며, 현재 인프라 및 워크플로에 최소한의 영향을 미칩니다.
멋진 인터뷰 감사합니다. 더 많은 정보를 배우고 싶은 독자는 integrate.ai를 방문해야 합니다.












