Connect with us

인공지능

구글, AI 학습 요구 사항을 10,000배로 줄인 방법

mm

인공지능 산업은 근본적인 역설에 직면해 있다. 기계가 대규모로 데이터를 처리할 수 있게 되었지만, 학습은 놀랍게도 비효율적이며, 감소하는 수익의 도전을 직면하고 있다. 전통적인 기계 학습 접근 방식은 수백만 달러의 비용과 수년이 걸리는 레이블이 달린 대규모 데이터셋을 요구한다. 이러한 접근 방식은 일반적으로 더 많은 데이터가 더好的 AI 모델로 이어진다는 믿음 아래 작동한다. 그러나 구글 연구진은 최근에 혁신적인 방법을 제시하여 오랜 시간 지속된 이러한 믿음을 도전했다. mereka는 유사한 AI 성능이 최대 10,000배 적은 학습 데이터로 달성될 수 있음을 보여주었다. 이 개발은 AI에 대한 우리의 접근 방식을 근본적으로改变할 수 있는 잠재력을 가지고 있다. 이 기사에서 우리는 구글 연구진이 이 획기적인 성과를 어떻게 달성했는지, 이 개발의 잠재적인 미래 영향, 그리고 앞으로의 도전과 방향을 탐구할 것이다.

AI의 대규모 데이터 도전

수십 년 동안 “더 많은 데이터는 더好的 AI”라는 구호는 산업의 AI 접근 방식을 주도해 왔다. 큰 언어 모델 seperti GPT-4는 훈련 중에 수조 개의 토큰을 소비한다. 이러한 데이터에飢餓한 접근 방식은 광범위한 자원이나 전문 데이터셋이 없는 조직들에게 상당한 장벽을 만든다. 첫째, 인간 레이블링의 비용은 상당히 높다. 전문가 어노테이터는 높은 비용을 청구하며, 필요한 데이터의 엄청난 양은 프로젝트를 비싸게 만든다. 둘째, 수집된 대부분의 데이터는 종종冗余이며 학습 과정에서 중요한 역할을 할 수 없다. 전통적인 방법은 또한 변경되는 요구 사항에 어려움을 겪는다. 정책이 변경되거나 새로운 유형의 문제가 되는 콘텐츠가 나타날 때, 회사들은 레이블링 프로세스를 처음부터 다시 시작해야 한다. 이 프로세스는 비싼 데이터 수집과 모델 재훈련의 끊임없는 순환을 만든다.

액티브 러닝을 통한 대규모 데이터 도전 해결

이러한 데이터 도전을 해결할 수 있는 알려진 방법 중 하나는 액티브 러닝을 강화하는 것이다. 이 접근 방식은 인간 레이블링을 위해 가장 가치 있는 훈련 예시를 신중하게 선별하는 프로세스에 의존한다. 기본 아이디어는 모델이 모든 사용 가능한 데이터를 수동으로 소비하는 것보다 혼란스러운 예시에서 더 잘 학습한다는 것이다. 전통적인 AI 방법과 달리 대규모 데이터셋을 요구하는 대신, 액티브 러닝은 정보를 제공하는 예시만을 수집하는 더 전략적인 접근 방식을 취한다. 이 접근 방식은 모델에 거의 가치가 없는 명확하거나冗余한 데이터의 레이블링의 비효율성을 피하는 데 도움이 된다. 대신에 액티브 러닝은 모델 성능을 크게 개선할 수 있는 불확실한 예시와 에지 케이스를 대상으로 한다.

전문가의 노력을 이러한 핵심 예시에 집중함으로써, 액티브 러닝은 모델이 훨씬 적은 데이터 포인트로 더 빠르고 더 효과적으로 학습할 수 있도록 한다. 이 접근 방식은 데이터 병목 현상과 전통적인 기계 학습 접근 방식의 비효율성을 모두 해결할 수 있는 잠재력을 가지고 있다.

구글의 액티브 러닝 접근 방식

구글의 연구 팀은 이 패러다임을 성공적으로 적용했다. их 새로운 액티브 러닝 방법론은 신중하게 선별된, 높은 품질의 예시가大量의 레이블이 달린 데이터를 대체할 수 있음을 보여준다. 예를 들어, mereka는 모델이 500개의 전문가 레이블이 달린 예시만으로 훈련된 경우, 100,000개의 전통적인 레이블이 달린 시스템의 성능과 일치하거나超过하는 것을 보여주었다.

이 프로세스는 구글이 “LLM-as-Scout” 시스템이라고 부르는 것을 통해 작동한다. 큰 언어 모델은 먼저大量의 레이블이 없는 데이터를 스캔하여 모델이 가장 불확실한 경우를 식별한다. 이러한 경계 사례는 모델이 의사 결정력을 개선하기 위해 인간의 지침이 필요한 정확한 시나리오를 나타낸다. 프로세스는 기본 모델이 시작하여 기본 프롬프트를 사용하여大量의 데이터셋을 레이블링한다. 시스템은 예시를 예측된 분류에 따라 클러스터링하고 모델이 다른 카테고리 사이에서 혼동을 보이는 영역을 식별한다. 이러한 중복 클러스터는 인간 전문 지식이 가장 가치 있는 지점을 정확하게 보여준다.

방법론은 명시적으로 레이블이 다른 예시의 쌍을 대상으로 한다. 이러한 경계 사례는 인간 전문 지식이 가장 중요하게 작용하는 시나리오를 나타낸다. 이러한 혼란스러운 예시에 전문가 레이블링 노력을 집중함으로써, 시스템은驚人的 효율성 향상을 달성한다.

품질이 양보다 중요하다

연구는 AI에서 일반적인 가정에 도전하는 데이터 품질에 대한 중요한 발견을 보여준다. 그것은 높은 신뢰도의 전문가 레이블이 일관적으로 대규모 크라우드소싱 어노테이션을超过한다는 것을 보여준다. mereka는 코헨의 카파를 사용하여 이를 측정했는데, 이는 모델의 예측과 전문가의 의견 사이의 일치度를 평가하는 통계적 도구이다. 구글의 실험에서, 전문가 어노테이터는 0.8 이상의 코헨의 카파 점수를 달성했으며, 이는 일반적으로 크라우드소싱이 제공하는 것을 훨씬超过했다.

이 높은 일관성은 모델이 훨씬 적은 예시에서 효과적으로 학습할 수 있도록 한다. Gemini Nano-1 및 Nano-2와의 테스트에서, 모델은 250~450개의 신중하게 선택된 예시만으로 전문가와의 일치度를 달성하거나超过했으며, 이는 약 100,000개의 임의의 크라우드소싱 레이블에 해당한다. 이는 3~4차례의 규모의 감소이다. 그러나 이점은 데이터의 양을 줄이는 것만이 아니다. 이 접근 방식으로 훈련된 모델은 종종 전통적인 방법으로 훈련된 모델을超过한다. 복잡한 작업과 더大的 모델의 경우, 성능 개선은 기준선보다 55~65%에 달했다. 이는 정책 전문가와의 더大き고 더 신뢰할 수 있는 일치도를 보여준다.

이번 발전이 지금 중요한 이유

이 개발은 AI 산업에 중요한 시기에 이루어졌다. 모델이 더大き고 더 정교해짐에 따라, 전통적인 학습 데이터 확장 접근 방식은 점점 더 비지속 가능해졌다. 환경적 비용은 계속해서 증가하고 있으며, 경제적 장벽은 여전히 많은 조직들에게 높다.

구글의 방법은 여러 산업의 도전을 동시에 해결한다. 레이블링 비용의 극적인 감소는 AI 개발을 더 작은 조직과 연구 팀에게 더 접근하기 쉽게 만든다. 더 빠른 반복 주기는 동적 분야에서 빠른 적응을 가능하게 한다.

AI 개발에 대한 더广泛한 함의

이번 발전은 우리는 효율성이 규모보다 더 중요해지는 AI 개발의 새로운 단계에 들어갈 수 있음을 시사한다. “더大き면 더 좋다”라는 전통적인 학습 데이터 접근 방식은 더 정교한 방법으로 대체될 수 있다. 이러한 방법은 데이터 품질과 전략적인 선택을 우선시한다.

환경적 함의만으로도重大하다. 큰 AI 모델을 훈련하는 것은 현재 막대한 컴퓨팅 자원과 에너지 소비를 필요로 한다. 유사한 성능이 훨씬 적은 데이터로 달성될 수 있다면, AI 개발의탄소足跡은 크게 줄어들 수 있다.

민주화 효과는同樣으로 중요할 수 있다. 이전에大量의 데이터 수집 노력을 감당할 수なかった 작은 연구 팀과 조직들에게 이제 경쟁력 있는 AI 시스템을 개발할 수 있는 길이 열렸다. 이 개발은 혁신을 가속화하고 AI 개발에서 더 다양한 관점을 만들 수 있다.

제한과 고려

尽管其令人鼓舞的 결과, 방법론은 여러 실제 도전을 직면한다. 전문가 어노테이터를 요구하는 0.8 이상의 코헨의 카파 점수는 전문 지식이나 명확한 평가 기준이 부족한 도메인에서 적용 가능성을 제한할 수 있다. 연구는 주로 분류 작업과 콘텐츠 안전 응용 프로그램에 중점을 둔다. 동일한 극적인 개선이 언어 생성이나 추론과 같은 다른 유형의 AI 작업에 적용되는지 여부는 아직 보이지 않는다.

액티브 러닝의 반복적 성질은 전통적인 배치 처리 접근 방식에 비해 복잡성을 도입한다. 조직들은 지속적인 모델 개선을 가능하게 하는 쿼리-응답 주기를 지원하는 새로운 워크플로와 인프라를 개발해야 한다.

미래의 연구는 자동화된 접근 방식을 개발하여 전문가 수준의 어노테이션 품질을 유지하고 핵심 방법론의 도메인별 적응을 개발하는 것을 탐구할 가능성이 있다. 액티브 러닝 원칙과 다른 효율성 기술, seperti 파라미터 효율적인 미세 조정의 통합은 추가적인 성능 개선을 가져올 수 있다.

요약

구글의 연구는 목표적이고 높은 품질의 데이터가大量의 데이터셋보다 더 효과적일 수 있음을 보여준다. 가장 가치 있는 예시만을 레이블링함으로써, mereka는 훈련 요구 사항을 최대 10,000배로 줄이면서 성능을 개선했다. 이 접근 방식은 비용을 낮추고, 개발을 가속화하며, 환경적 영향을 줄이고, 고급 AI를 더 접근하기 쉽게 만든다. 이것은 효율적이고 지속 가능한 AI 개발로의重大한 전환을 표시한다.

Dr. Tehseen Zia는 COMSATS University Islamabad의 정교수이며, 오스트리아 비엔나 기술대학교에서 인공지능 박사학위를 취득했습니다. 인공지능, 기계학습, 데이터 과학, 컴퓨터 비전을 전문으로 하며, 유명한 과학 저널에 발표된 논문으로 знач적인 기여를 했습니다. Dr. Tehseen은 주요 연구자로서 다양한 산업 프로젝트를 이끌었으며, 인공지능 컨설턴트로도 활동했습니다.