Connect with us

Alex Ratner, Snorkel AI의 CEO & 공동 설립자 – 인터뷰 시리즈

인터뷰

Alex Ratner, Snorkel AI의 CEO & 공동 설립자 – 인터뷰 시리즈

mm

Alex Ratner는 Snorkel AI</a》的 CEO 및 공동 설립자입니다. Snorkel AI는 스탠퍼드 AI 연구소에서 탄생한 회사입니다.

Snorkel AI 는 수동적인 AI 개발 프로세스를 프로그래밍 솔루션으로 변환하여 AI 개발을 빠르고 실제적인 것으로 만듭니다. Snorkel AI를 통해 기업은 자체 데이터와 지식을 사용하여 고유한 작업에 적합한 AI를 10~100배 빠르게 개발할 수 있습니다.

컴퓨터 과학에 처음 관심을 가졌던 것은 무엇입니까?

컴퓨터 과학에는 젊은 시절에 두 가지 매우 흥미로운 측면이 있습니다. 하나는 즉각적인 피드백을 받을 수 있기 때문에 기다리지 않고 원하는 만큼 빠르게 배우고 빌드할 수 있다는 것입니다. 다른 하나는 허가 없이 빌드를 많이 할 수 있다는 것입니다!

나는 이러한 이유로 어렸을 때 프로그래밍에 관심을 가졌습니다. 또한 필요한 정밀성을 yêu했습니다. 복잡한 프로세스와 루틴을 추상화하고 모듈식으로 인코딩하는 과정을 즐겼습니다.

나중에 성인으로서, 나는 일부 기본 분석을 수행하기 위한 스크립트를 작성하는 일을 맡은 컨설팅 직업을 통해 전문적으로 컴퓨터 과학으로 돌아왔습니다.誰든지 특허로 간주한 모든 인간 지식은 쉽게 접근할 수 있지만 기술 텍스트와 멀티모달 데이터에 대한 심플한 분석을 수행하기가 매우 어려워서 접근할 수 없다는 사실에 매료되었습니다.

이것이 나를 스탠퍼드의 대학원으로, 자연어 처리(NLP) 분야, 즉 자연어에 대한 기계 학습/인공지능을 사용하는 분야로 돌아가게 만든 계기입니다.

스탠퍼드에서 Snorkel 오픈소스 프로젝트를 처음 시작하고 리드한 경험이 있습니까? 초기日の 여정을 설명해 주시겠습니까?

당시 우리는 산업계의 많은 사람들과 마찬가지로 새로운 알고리즘 개발에 집중했습니다. 즉, 사람들 공동체에서 연구하고 논문을 발표하는 모든 “화려한” 기계 학습 스태프입니다.

그러나 우리는 항상 실제 문제에 기반을 두고 있었습니다. 주로 스탠퍼드의 의사와 과학자와 함께 말이죠. 그러나 새로운 모델이나 알고리즘을 제안할 때마다 반응은 “당연히 시도해 볼 수 있지만 없으면 시간이 없어서 만들 수 없는 모든 레이블된 훈련 데이터가 필요합니다!”되었습니다

레이블링과 훈련 데이터를 구축하는 과정에 대한 큰 언급되지 않은 문제를 보게 되었습니다. 그래서 모든 관심을 그것에 집중했습니다. 이것이 Snorkel 프로젝트와 “데이터 중심 AI”라는 개념이 시작된 방법입니다.

Snorkel은 데이터 중심 AI 접근 방식을 가지고 있습니다. 이것이 무엇을 의미하는지 및 모델 중심 AI 개발과 어떻게 다른지 정의해 주시겠습니까?

데이터 중심 AI는 더 나은 데이터를 구축하여 더 나은 모델을 구축하는 것을 의미합니다.

이것은 모델 중심 AI와는 대조적으로 작동하지만 함께 작동합니다. 모델 중심 AI에서 데이터 과학자 또는 연구자는 데이터가 정적이라고 가정하고 모델 아키텍처와 매개변수를 조정하여 더好的 결과를 얻는 데 에너지를 쏟습니다.

연구자들은 모델 중심 AI에서 여전히 훌륭한 작업을 수행하지만, 오프-더-쉘프 모델과 자동 ML 기술이 इतन나 많이 개선되어 모델 선택이 생산 시간에 대량화되었습니다. 그렇게되면 이러한 모델을 개선하는 가장好的 방법은 더 많은 데이터와 더好的 데이터를 공급하는 것입니다.

데이터 중심 AI 접근 방식의 핵심 원칙은 무엇입니까?

데이터 중심 AI의 핵심 원칙은 간단합니다: 더好的 데이터는 더好的 모델을 구축합니다.

우리의 학술 작품에서, 우리는 이것을 “데이터 프로그래밍”이라고 불렀습니다. 아이디어는 충분히 강력한 모델에 입력과 예상 출력의 충분한 예를 공급하면 모델이 이러한 패턴을 복제하는 방법을 학습한다는 것입니다.

이것은 예상보다 더 큰 도전을 제기합니다. 대부분의 데이터에는 레이블이 없거나, 적어도 응용 프로그램에 유용한 레이블이 없습니다. 데이터를 수동으로 레이블링하는 것은 단조롭고, 시간이 걸리고, 인간의 노력이 필요합니다.

레이블된 데이터 세트를 갖는 것은 품질을 보장하지 않습니다. 인간의 오류는 모든 곳에서 발생합니다. 각 잘못된 예는 최종 모델의 성능을 저하합니다. 매개변수 조정을 통해 이 현실을 가리울 수 없습니다. 연구자들은 심지어 공개 소스 데이터 세트에 잘못 레이블된 레코드를 발견했습니다.

데이터 중심 AI가 프로그래밍 방식이라는 것은 무엇을 의미합니까?

데이터를 수동으로 레이블링하는 것은 심각한 도전을 제기합니다. 그것은 많은 인간의 시간을 필요로 하며, 때때로 이러한 인간의 시간은 비용이 많이 들 수 있습니다. 의료 문서의 경우, 의사만이 레이블링할 수 있습니다.

또한 수동 레이블링 스프린트는 종종 단일 사용 프로젝트로 구성됩니다. 레이블러는 엄격한 스키마에 따라 데이터를 레이블링합니다. 비즈니스의 필요가 변경되고 다른 레이블 세트를 요구하면 레이블러는 처음부터 다시 시작해야 합니다.

프로그래밍 방식의 데이터 중심 AI는 이러한 두 가지 문제를 최소화합니다. Snorkel AI의 프로그래밍 레이블링 시스템은 기존 모델, 기존 레이블 및 외부 지식 베이스에서 다양한 신호를 통합하여 확률적 레이블을 대규모로 개발합니다. 우리의 주요 신호 소스는 전문가와 데이터 과학자가 협력하여 레이블링 함수를 구축하는 것입니다. 이러한 함수는 전문가의 판단을 확장 가능한 규칙으로 인코딩하여 한 번의 노력이 수십 또는 수백 개의 데이터 포인트에 영향을 미칩니다.

이 프레임워크는 또한 유연합니다. 비즈니스 요구 사항이 변경되면 사용자는 레이블을 적용하기 위해 몇 시간이 아닌 몇 일 동안 레이블링 함수를 추가, 제거 및 조정할 수 있습니다.

이 데이터 중심 접근 방식은 레이블이 없는 데이터를 빠르게 확장하는 것을 어떻게 가능하게 합니까?

프로그래밍 방식의 데이터 중심 AI 접근 방식은 각 선택의 영향을 증폭함으로써 레이블이 없는 데이터를 빠르게 확장하는 것을 가능하게 합니다. 전문가가 초기의 작은 지면 진실 세트를 설정한 후, 데이터 과학자와 협력하여 빠른 반복을 시작합니다. 레이블링 함수를 정의하고, 빠른 모델을 훈련하고, 레이블링 함수의 영향을 분석한 다음, 필요한 경우 레이블링 함수를 추가, 제거 또는 조정합니다.

각 사이클은 모델 성능을 개선하여 프로젝트 목표를 충족하거나 초과할 때까지 반복됩니다. 이것은 수동 레이블러가 10주 이상 걸릴 수 있는 데이터 레이블링 작업을 몇 시간으로 줄일 수 있습니다. Snorkel 연구 프로젝트에서, 두 명의 연구자는 하루에 20,000개의 문서를 레이블링했습니다. 수동 레이블러에게는 10주 이상 걸릴 수 있는 양입니다.

Snorkel은 Snorkel Flow, Snorkel GenGlow 및 Snorkel Foundry를 포함한 여러 AI 솔루션을 제공합니다. 이러한 제품의 차이점은 무엇입니까?

Snorkel AI 제품군을 사용하면 사용자는 레이블링 함수(예: 문서에서 키워드 또는 패턴을 찾기)를 생성하여 수동으로 하나씩 데이터 포인트를 태깅하는 대신 몇 분 안에 수백만 개의 데이터 포인트를 프로그래밍 방식으로 레이블링할 수 있습니다.

이것은 기업이 자체 데이터를 생산 준비된 모델로 번역하고 가치 추출을 시작하는 데 필요한 시간을 압축합니다. Snorkel AI를 사용하면 기업이 인간 중심 접근 방식을 확장하여 인간의 판단과 전문 지식을 효율적으로 통합할 수 있습니다.

이것은 더 투명하고 설명 가능한 AI를 제공하여 기업이 편향을 관리하고 책임 있는 결과를 제공할 수 있도록 합니다.

구체적으로, Snorkel AI를 사용하면 Fortune 500 기업이:

  • 모델을 훈련하거나 RAG를 향상시키기 위한 높은 품질의 레이블된 데이터를 개발합니다.
  • 세부 튜닝으로 LLM을 사용자 정의합니다.
  • 작은 크기와 운영 비용이 저렴한 전문 모델로 LLM을 증류합니다.
  • 사전 훈련으로 도메인 및 작업별 LLM을 구축합니다.

당신은 몇몇 개척적인 논문을 썼습니다. 당신의 의견으로는 가장 중요한 논문은 무엇입니까?

중요한 논문 중 하나는 원래 “데이터 프로그래밍”에 관한 것입니다(프로그래밍 방식으로 훈련 데이터를 레이블링하는 것) 및 Snorkel에 관한 것입니다.

Snorkel의 미래에 대한 비전은 무엇입니까?

저는 Snorkel이 모든 대규모 기업에서 진정한 AI에 대한 신뢰할 수 있는 파트너가 될 것으로 봅니다.

Snorkel Flow는 대규모 기업의 데이터 과학 팀에서 유비쿼터스 도구가 될 것입니다. 그들은 조직을 위한 사용자 정의 대규모 언어 모델을 세부 튜닝하거나 이미지 분류 모델을 구축하거나, 단순한 배포 가능한 로지스틱 회귀 모델을 구축하든 관계없이 말입니다.

어떤 종류의 모델이 필요한지 여부에 관계없이, 모델을 훈련시키기 위한 높은 품질의 레이블된 데이터가 필요합니다.

Snorkel AI를 방문하여 더 많은 정보를 얻을 수 있습니다.

앙투안은 Unite.AI의 비전있는 리더이자 공동 창립자로서, AI와 로봇공학의 미래를 형성하고 촉진하는 데 대한 불변의 열정에 의해 추동됩니다. 연쇄적인 기업가로서, 그는 AI가 사회에 대한 전기와 같은 파괴력을 가질 것이라고 믿으며, 종종 파괴적인 기술과 AGI의 잠재력에 대해 열광합니다.

作为 futurist, 그는 이러한 혁신이 우리의 세계를 어떻게 형성할지 탐구하는 데 전념하고 있습니다. 또한, 그는 Securities.io의 창립자로서, 미래를 재정의하고 전체 부문을 재형성하는 최첨단 기술에 투자하는 플랫폼입니다.