부본 Google 연구에서 AI에 대한 대규모 접근 방식의 병목 현상 식별 - Unite.AI
Rescale 미팅 예약

인공 지능

Google 연구에서 AI에 대한 대규모 접근 방식의 병목 현상 식별

mm
업데이트 on

구글 리서치(Google Research)의 새 논문에 따르면 대용량 데이터세트의 큐레이션을 향한 현재 추세는 효과적인 인공 지능 시스템 개발에 역효과를 낳을 수 있습니다. 실제로 연구에 따르면 더 나은 기계 학습 제품이 학습을 통해 나타날 수 있습니다. 적게 정확한(즉, 기술적으로 '더 나쁜') 데이터세트.

연구자들이 얻은 원리가 타당하다면, 최근 출시된 LAION-400M(400억 개의 텍스트/이미지 쌍 포함) 및 GPT-3 신경 언어 엔진(175억 개의 매개변수 포함) 뒤에 있는 데이터는 잠재적으로 전통적이고 인기 있는 머신 러닝 아키텍처에서 일종의 '열 제한'의 영향을 받습니다. 그리고 방법론을 통해 엄청난 양의 데이터가 다운스트림 애플리케이션을 '포화'시키고 유용한 방식으로 일반화하는 것을 방지합니다.

연구원들은 또한 불균형을 시정하기 위해 하이퍼스케일 데이터 세트 아키텍처를 재고하는 대체 방법을 제안합니다.

논문은 다음과 같이 말합니다.

'이러한 현상을 일으키는 이유를 이해하기 위해 더 깊이 파고들면 우리가 관찰하는 포화 동작이 모델의 레이어를 통해 표현이 진화하는 방식과 밀접한 관련이 있음을 보여줍니다. 우리는 업스트림과 다운스트림의 성능이 서로 상충하는 훨씬 더 극단적인 시나리오를 보여줍니다. 즉, 더 나은 다운스트림 성능을 얻으려면 업스트림 정확도를 떨어뜨려야 합니다.'

XNUMXD덴탈의 공부 제목이 대규모 사전 훈련의 한계 탐색, Google Research의 XNUMX명의 저자가 제공합니다.

'포화도' 조사

저자는 하이퍼스케일 데이터 시대에 기계 학습>데이터 관계에 대한 일반적인 가정에 도전합니다. 스케일링 모델과 데이터 크기는 성능을 현저하게 향상시킵니다(출시 이후 GPT-3에 대한 과대 광고에서 굳어진 믿음). 그리고 이 개선된 성능은 선형(즉, 바람직한) 방식으로 다운스트림 작업으로 '통과'하므로 결국 시장에 출시되는 온디바이스 알고리즘은 관리할 수 없는 거대한 데이터 세트와 정제되지 않은 훈련된 모델에서 파생되어 다음으로부터 완전히 이익을 얻습니다. 전체 크기의 업스트림 아키텍처에 대한 통찰력.

'이러한 견해' 연구원 노트 '거의 무료로 많은 다운스트림 작업을 해결할 수 있기 때문에 하나의 대규모 말뭉치에서 성능을 개선하는 데 컴퓨팅 및 연구 노력을 기울이는 것이 보상을 받을 것이라고 제안합니다.'

그러나 이 논문은 컴퓨팅 리소스의 부족과 이에 따른 모델 평가의 '경제적인' 방법이 데이터 볼륨과 유용한 AI 시스템 사이의 관계 역학에 대한 잘못된 인상에 기여하고 있다고 주장합니다. 저자는 이 습관을 '주요 단점'으로 식별합니다. 연구 커뮤니티는 일반적으로 지역(긍정적인) 결과가 나중에 유용한 구현으로 변환될 것이라고 가정하기 때문입니다.

'[때문에] 컴퓨팅 제한으로 인해 다양한 하이퍼 매개변수 값 선택에 대한 성능이 보고되지 않습니다. 스케일링 플롯은 각 스케일에 대해 선택된 하이퍼 매개변수가 고정되거나 단순 스케일링 함수에 의해 결정되는 경우 더 유리해 보입니다.'

연구자들은 더 나아가 많은 스케일링 연구가 절대적인 스케일에 대해 측정되는 것이 아니라 최신 기술(SotA)에 대한 점진적인 개선으로 측정되며, 연구 범위'.

사전 교육

이 논문에서는 컴퓨팅 리소스를 절약하고 대규모 데이터에 대한 모델을 처음부터 훈련하는 데 필요한 엄청난 시간을 줄이기 위해 고안된 조치인 '사전 훈련' 관행을 다룹니다. 사전 훈련 스냅샷은 훈련 중에 한 도메인 내의 데이터가 일반화되는 방식의 'ABC'를 처리하며 자연어 처리(NLP)부터 딥페이크에 이르기까지 다양한 기계 학습 분야 및 전문 분야에서 일반적으로 사용됩니다.

이전 학술 연구는 발견 사전 훈련은 모델의 견고성과 정확성을 눈에 띄게 향상시킬 수 있지만, 새로운 논문은 상대적으로 단기 훈련된 사전 훈련 템플릿에서도 기능의 복잡성이 파이프라인의 이후 프로세스로 전환되는 경우 더 많은 이점이 있을 수 있다고 제안합니다. .

그러나 연구자가 학습률 적용에서 현재 모범 사례를 사용하는 사전 훈련된 모델에 계속 의존한다면 이는 일어날 수 없으며, 연구 결과 최종 적용의 궁극적인 정확도에 현저한 영향을 미칠 수 있습니다. 이와 관련하여 저자는 '가능한 모든 다운스트림 작업에서 잘 수행되는 하나의 사전 훈련된 체크포인트를 찾기를 희망할 수 없다'고 지적합니다.

공부

포화 효과를 확립하기 위해 저자는 Vision Transformers, ResNets 및 MLP-Mixers에 대해 각각 4800만에서 10억까지 다양한 수의 매개 변수가 있는 10번의 실험을 수행했으며, 모두 해당 부문에서 사용 가능한 최대 볼륨 데이터 세트에 대해 교육을 받았습니다. 포함 이미지넷21K 그리고 구글의 자체 JFT-300M.

결과, 종이 주장은 다음을 보여줍니다. 데이터 다양성 데이터, 모델 매개변수 및 계산 시간을 '확대'하려고 할 때 추가 축으로 간주해야 합니다. 현재 상태로는 AI 파이프라인의 업스트림 섹션에 집중된 교육 리소스(및 연구원의 관심)는 '포화' 지점까지 매개변수의 눈사태로 다운스트림 애플리케이션을 효과적으로 폭파하여 탐색할 수 있는 배포된 알고리즘의 기능을 낮춥니다. 기능을 통해 추론 또는 효과 변환을 수행합니다.

이 논문은 다음과 같이 결론을 내립니다.

'광범위한 연구를 통해 우리는 확장 또는 하이퍼 매개변수 및 아키텍처 선택을 통해 업스트림 작업의 성능을 개선함에 따라 다운스트림 작업의 성능이 포화 동작을 보인다는 것을 확인했습니다. 또한 우리는 일반적인 이야기와 달리 스케일링이 단일 모델에 모두 적합한 솔루션으로 이어지지 않는다는 강력한 경험적 증거를 제공합니다.'