Connect with us

인공지능

오픈 소스 대 클로즈드 소스 언어 모델의 전투: 기술적 분석

mm
open source vs close source LLM

최근 몇 년 동안 대규모 언어 모델(Large Language Models, LLMs)은 자연어 처리 분야에서 혁신을 주도해 왔으며, 이에 따른 논쟁도 존재합니다. 이러한 강력한 모델은 오픈 소스인지 클로즈드 소스인지에 대한 논쟁이 있습니다.

이 포스트에서는 이러한 접근 방식의 기술적 차이를 분석하여 각 접근 방식이 제공하는 기회와 제한을 이해하겠습니다. 다음의 주요 측면을 다룰 것입니다:

  • 오픈 소스 대 클로즈드 소스 LLMs의 정의
  • 아키텍처 투명성과 사용자 정의
  • 성능 벤치마크
  • 계산 요구 사항
  • 응용 프로그램 다용도성
  • 접근성 및 라이선스
  • 데이터 개인 정보 및 기밀성
  • 상업적 지원 및 백업

이 포스트를 읽은 후, 오픈 소스와 클로즈드 소스 LLMs 사이의 기술적 트레이드오프에 대한 정보를 바탕으로 자신의 AI 전략을 결정할 수 있을 것입니다. 시작해 보겠습니다!

오픈 소스 대 클로즈드 소스 LLMs의 정의

오픈 소스 LLMs는 공개적으로 접근 가능한 모델 아키텍처, 소스 코드 및 가중치 매개변수를 가지고 있습니다. 이것은 연구자들이 내부를 검사하고, 품질을 평가하고, 결과를 재현하며, 사용자 정의 변형을 구축할 수 있도록 합니다. 대표적인 예로는 Anthropic의 ConstitutionalAI, Meta의 LLaMA, EleutherAI의 GPT-NeoX가 있습니다.

반면에, 클로즈드 소스 LLMs는 모델 아키텍처와 가중치를 사유 자산으로 취급합니다. Anthropic, DeepMind, OpenAI와 같은 상업적 엔티티들이 내부적으로 개발합니다. 접근 가능한 코드나 설계 세부 정보가 없기 때문에, 재현성과 사용자 정의는 제한을 받습니다.

아키텍처 투명성과 사용자 정의

오픈 소스 LLM 내부에 대한 접근은 사용자 정의의 기회를 제공합니다. 클로즈드 소스 대안에서는 이러한 사용자 정의가 불가능합니다.

모델 아키텍처를 조정함으로써, 연구자들은 성능을 향상시키기 위한 기법을 탐색할 수 있습니다. 예를 들어, 레이어 간의 희소 연결을 도입하거나, 성능을 향상시키기 위한 전용 분류 토큰을 추가할 수 있습니다. 가중치 매개변수에 대한 접근은 기존의 표현을 전이 학습하거나, T5 및 BERT 임베딩과 같은 사전 학습된 빌딩 블록으로 초기화할 수 있도록 합니다.

이러한 사용자 정의는 오픈 소스 LLM이 생물학 연구, 코드 생성, 교육과 같은 특수 도메인에서 더 잘 서비스할 수 있도록 합니다. 그러나, 생산품질 구현을 제공하는 데 필요한 전문 지식은 장벽을 높일 수 있습니다.

클로즈드 소스 LLMs는 기술 세부 정보가 사유이기 때문에 사용자 정의가 제한적입니다. 그러나, 그들의 백업자는 내부 연구 및 개발에 광범위한 자원을 투자합니다. 결과 시스템은 일반화된 LLM 아키텍처에서 가능한 한계를 확장합니다.

따라서, 더 유연하지는 않지만, 클로즈드 소스 LLMs는 광범위하게 적용 가능한 자연어 작업에서 우수합니다. 또한, 설립된 인터페이스 표준을 준수함으로써 통합을 단순화합니다.

성능 벤치마크

아키텍처 투명성에도 불구하고, 오픈 소스 LLM의 성능을 측정하는 것은 도전을 제기합니다. 그들의 유연성은 수많은 가능한 구성과 튜닝 전략을 허용합니다. 또한, “오픈 소스”로 표시된 모델이 실제로 비교를 왜곡하는 사유 기술을 포함할 수 있습니다.

클로즈드 소스 LLMs는 더 명확하게 정의된 성능 목표를 보유합니다. 그들의 백업자는 특정 메트릭 임계 값을 벤치마크하고 광고합니다. 예를 들어, Anthropic은 ConstitutionalAI의 정확도를 커링된 NLU 문제 세트에서公開합니다. Microsoft는 GPT-4가 SuperGLUE 언어 이해 도구킷에서 인간 기준을 초과하는 것을 강조합니다.

그러나, 이러한 협소하게 정의된 벤치마크는 실제 작업에서 성능을 과장하고, 실패를 과소평가한다는 비판을 받았습니다. 진정한 편향되지 않은 LLM 평가는 여전히 오픈 연구 문제입니다 – 오픈 소스와 클로즈드 소스 접근 방식 모두에 대해.

계산 요구 사항

대규모 언어 모델을 훈련시키는 것은 광범위한 계산 자원을 요구합니다. OpenAI는 GPT-3를 클라우드 인프라에서 수백만 달러를 투자하여 훈련시켰습니다. Anthropic은 ConstitutionalAI를 위해 1,000만 달러 이상의 GPU를 소비했습니다.

이러한 모델의 비용은 개별 연구자와 소규모 팀을 오픈 소스 커뮤니티에서 제외합니다. 실제로, EleutherAI는 호스팅 비용이 폭증함에 따라 GPT-J 모델을 공개 액세스에서 제거해야 했습니다.

깊은 지갑이 없는 경우, 오픈 소스 LLM 성공 사례는 기부된 컴퓨팅 자원을 활용합니다. LAION은 크라우드소싱된 데이터를 사용하여 기술에 중점을 둔 LAION-5B 모델을 큐레이션했습니다. 비영리 Anthropic ConstitutionalAI 프로젝트는 자원봉사자 컴퓨팅을 사용했습니다.

Google, Meta, Baidu와 같은 대규모 기술 기업의 지원은 클로즈드 소스 노력을 위한 산업화된 LLM 개발에 필요한 재정 연료를 제공합니다. 이는 그라스루츠 이니셔티브에 비해 불가한 길이로 확장할 수 있습니다 – DeepMind의 280억 매개변수 Gopher 모델을 보십시오.

응용 프로그램 다용도성

오픈 소스 LLM의 사용자 정의는 특수한 사용 사례를 해결하는 것을 가능하게 합니다. 연구자들은 성능을 향상시키기 위한 기법을 탐색할 수 있습니다. 예를 들어, 단백질 구조 예측, 코드 문서 생성, 수학적 증명 검증과 같은 작업에서 성능을 향상시킬 수 있습니다.

그러나, 코드에 대한 접근과 편집은 데이터가 없으면 효과적인 도메인 특정 솔루션을 보장하지 않습니다. 협소한 응용 프로그램을 위한 포괄적인 훈련 데이터 세트를 큐레이션하고 업데이트하는 것은 상당한 노력이 필요합니다.

여기서 클로즈드 소스 LLMs는 내부 저장소와 상업적 파트너로부터 훈련 데이터를 소싱할 수 있는 자원을 활용합니다. 예를 들어, DeepMind는 ChEMBL과 같은 데이터베이스를 라이선스하여 화학 및 UniProt와 같은 단백질에 대한 데이터를 확장하여 응용 프로그램 범위를 확장합니다. 산업 규모의 데이터 액세스는 Gopher와 같은 모델이 아키텍처 불투명성에도 불구하고驚異的な 다용도성을 달성할 수 있도록 합니다.

접근성 및 라이선스

오픈 소스 LLM의 허가 라이선스는 무료 액세스와 협력을 촉진합니다. GPT-NeoX, LLaMA, Jurassic-1 Jumbo와 같은 모델은 크리에이티브 커먼즈와 아파치 2.0와 같은 라이선스를 사용하여 비상업적 연구와 공정한 상업화를 허용합니다.

반면에, 클로즈드 소스 LLMs는 모델 액세스를 제한하는 제한적인 라이선스를 가지고 있습니다. 상업적 엔티티들은 잠재적인 수익 흐름을 보호하기 위해 모델 액세스를 엄격하게 통제합니다.

Anthropic과 Cohere와 같은 조직은 ConstitutionalAI와 Cohere-512 인터페이스에 대한 액세스를 위해 비용을 청구합니다. 그러나, 이는 중요한 연구 영역을 가격으로 내몰 수 있으며, 개발을 잘 자금을 갖춘 산업으로 기울일 수 있습니다.

오픈 라이선스는 귀속과 책임에 대한 문제를 제기합니다. 그러나, 연구 사용 사례에서는 오픈 소스 액세스의 자유가 명백한 이점을 제공합니다.

데이터 개인 정보 및 기밀성

LLMs을 위한 훈련 데이터 세트는 일반적으로 웹 페이지, 과학적 기사, 토론 포럼과 같은 다양한 온라인 소스에서 수집된 콘텐츠를 집계합니다. 이것은 모델 출력에서 개인적으로 식별 가능한 또는 기타 민감한 정보가 노출될 위험을 가지고 있습니다.

오픈 소스 LLM의 경우, 데이터 세트 구성의 검토는 기밀성 문제에 대한 최선의 방어 수단을 제공합니다. 데이터 소스, 필터링 절차 및 테스트 중에 발견된 문제 예를 문서화하여 취약성을 식별할 수 있습니다.

불행히도, 클로즈드 소스 LLMs는 이러한 공개 감사를 금지합니다. 대신, 소비자는 내부 검토 프로세스의 엄격성에 대한 발표된 정책을 믿어야 합니다. 예를 들어, Azure Cognitive Services는 개인 데이터를 필터링할 것이라고 약속하며, Google은 공식적인 개인 정보 보호 검토와 데이터 레이블링을 지정합니다.

전반적으로, 오픈 소스 LLMs는 더 적극적으로 기밀성 위험을 식별할 수 있도록 합니다. 클로즈드 소스 대안은 데이터 처리 관행에 대한 투명성이 상대적으로 제한적입니다.

상업적 지원 및 백업

클로즈드 소스 LLMs의 수익화 가능성은 개발과 유지 보수에 대한 상당한 상업적 투자를 유도합니다. 예를 들어, Azure AI 포트폴리오에서 수익을 기대하면서, Microsoft는 GPT 모델에 대한 OpenAI와 수십억 달러의 파트너십에 동의했습니다.

반면에, 오픈 소스 LLMs는 유지 보수를 위해 자원봉사자들이 개인 시간을 할애하거나, 한정된 기간 동안 자금을 제공하는 보조금에 의존합니다. 이 자원 비대칭성은 오픈 소스 프로젝트의 연속성과 장기성을 위협할 수 있습니다.

그러나, 상업화를 위한 장벽은 오픈 소스 커뮤니티가 이익보다 과학적 진행에 집중할 수 있도록 해줍니다. 또한, 오픈 소스 생태계의 분산된 특성은 단일 백업자의 지속적인 관심에 대한 의존도를 완화합니다.

궁극적으로, 각 접근 방식은 자원과 인센티브에 대한 트레이드오프를 가지고 있습니다. 클로즈드 소스 LLMs는 더 큰 자금 보장을 즐기지만, 영향력을 집중시킵니다. 오픈 소스 생태계는 다양성을 촉진하지만, 불확실성이 높습니다.

오픈 소스 대 클로즈드 소스 LLM 랜드스케이프를 탐색하기

오픈 소스 또는 클로즈드 소스 LLM을 결정하는 것은 조직의 우선순위와 모델의 능력을 일치시키는 것을 필요로 합니다. 사용자 정의, 접근성 및 확장성과 같은 우선순위를 고려해야 합니다.

연구자와 스타트업을 위한 오픈 소스는 특정 작업에 모델을 조정하는 더 많은 제어를 제공합니다. 라이선스 또한 협력자 간의 통찰력을 무료로 공유할 수 있도록 합니다. 그러나, 훈련 데이터와 인프라를 소싱하는 부담은 실제 비즈니스 타당성을 저하할 수 있습니다.

반면에, 클로즈드 소스 LLMs는 충분한 자금과 데이터로 인해 크게 향상된 품질을 약속합니다. 그러나, 액세스와 수정에 대한 제한은 과학적 투명성을 제한하며, 배포를 벤더의 로드맵에 묶습니다.

실제로, 아키텍처 사양, 모델 체크포인트 및 평가 데이터를 둘러싼 오픈 표준은 두 접근 방식의 단점을 상쇄할 수 있습니다. 공유된 기초는 재현성을 향상시킵니다. ONNX와 같은 상호 운용성 표준은 오픈 소스와 클로즈드 소스 구성 요소를 혼합할 수 있도록 합니다.

궁극적으로, 작업에 맞는 도구 – 오픈 소스 또는 클로즈드 소스 – 를 선택하는 것이 중요합니다. 클로즈드 소스 LLMs를 지원하는 상업적 엔티티는 의심할 여지없이 영향력을 가지고 있습니다. 그러나, 오픈 소스 커뮤니티의 열정과 원칙은 AI 진행을 주도하는 데 계속해서 중요한 역할을 할 것입니다.

지난 5년 동안私は Machine Learning과 Deep Learning의 매력적인 세계에 몰두해 왔습니다.私の情熱と専門知識は、AI/ML에 중점을 둔 50개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여했습니다.私の継続的な 호기심은 또한 자연어 처리 분야로私の 관심을 끌었고, 더 깊이 탐구하고 싶은 분야입니다.