인공 지능

오픈 소스와 폐쇄 소스 언어 모델의 전투: 기술적 분석

게재

3 개월 전

2024년 ２월 12일

대형 언어 모델(LLM)은 최근 몇 년 동안 자연어 처리 분야의 혁신을 주도하며 AI 커뮤니티를 사로잡았습니다. 과대광고 뒤에는 복잡한 논쟁이 있습니다. 이러한 강력한 모델은 오픈 소스여야 할까요, 아니면 폐쇄 소스여야 할까요?

이 게시물에서는 이러한 접근 방식 간의 기술적 차별화를 분석하여 각 접근 방식이 제시하는 기회와 한계를 이해하겠습니다. 우리는 다음과 같은 주요 측면을 다룰 것입니다:

오픈 소스와 폐쇄 소스 LLM 정의
아키텍처 투명성 및 사용자 정의 가능성
성능 벤치마킹
전산 요구 사항
응용 프로그램의 다양성
접근성 및 라이선스
데이터 개인 정보 보호 및 기밀 유지
상업적 후원 및 지원

결국에는 오픈 소스와 비공개 소스 LLM 간의 기술적 장단점에 대한 정보를 바탕으로 자신의 AI 전략을 안내하게 될 것입니다. 뛰어들어보자!

오픈 소스와 폐쇄 소스 LLM 정의

오픈 소스 LLM에는 공개적으로 액세스 가능한 모델 아키텍처, 소스 코드 및 가중치 매개변수가 있습니다. 이를 통해 연구자는 내부를 검사하고, 품질을 평가하고, 결과를 재현하고, 맞춤형 변형을 구축할 수 있습니다. 대표적인 예로는 Anthropic의 ConstitutionalAI, Meta의 LLaMA, EleutherAI의 GPT-NeoX 등이 있습니다.

대조적으로, 폐쇄 소스 LLM은 모델 아키텍처와 가중치를 독점 자산으로 취급합니다. Anthropic, DeepMind 및 OpenAI와 같은 상업 기관은 이를 내부적으로 개발합니다. 접근 가능한 코드나 디자인 세부 사항이 없으면 재현성과 사용자 정의에 한계가 있습니다.

아키텍처 투명성 및 사용자 정의 가능성

오픈 소스 LLM 내부에 액세스하면 폐쇄 소스 대안으로는 불가능했던 맞춤화 기회가 열립니다.

모델 아키텍처를 조정함으로써 연구원은 계층 간 희박한 연결을 도입하거나 전용 분류 토큰을 추가하여 틈새 작업의 성능을 향상시키는 등의 기술을 탐색할 수 있습니다. 가중치 매개변수에 대한 액세스를 통해 개발자는 학습된 기존 표현을 전송하거나 T5 및 BERT 임베딩과 같은 사전 훈련된 빌딩 블록을 사용하여 변형을 초기화할 수 있습니다.

이러한 사용자 정의 기능을 통해 오픈 소스 LLM은 생물 의학 연구, 코드 생성 및 교육과 같은 전문 영역에 더 나은 서비스를 제공할 수 있습니다. 그러나 필요한 전문 지식은 프로덕션 품질 구현을 제공하는 데 장벽을 높일 수 있습니다.

비공개 소스 LLM은 기술적 세부 사항이 독점 상태로 유지되므로 제한된 사용자 정의를 제공합니다. 그러나 후원자들은 내부 연구 및 개발에 광범위한 자원을 투입합니다. 결과 시스템은 일반화된 LLM 아키텍처를 통해 가능한 것의 한계를 뛰어넘습니다.

따라서 유연성은 떨어지지만 폐쇄 소스 LLM은 광범위하게 적용 가능한 자연어 작업에 탁월합니다. 또한 OpenAPI 표준과 같이 확립된 인터페이스를 준수하여 통합을 단순화합니다.

벤치마킹 수행

아키텍처 투명성에도 불구하고 오픈 소스 LLM 성능을 측정하는 데에는 어려움이 따릅니다. 이들의 유연성으로 인해 수많은 가능한 구성과 튜닝 전략이 가능해졌습니다. 또한 "오픈 소스"라는 접두사가 붙은 모델이 실제로 비교를 왜곡하는 독점 기술을 포함하도록 허용합니다.

비공개 소스 LLM은 후원자 벤치마크로서 보다 명확하게 정의된 성능 목표를 자랑하고 특정 지표 임계값을 광고합니다. 예를 들어 Anthropic은 선별된 NLU 문제 세트에 대한 ConstitutionalAI의 정확성을 공개합니다. Microsoft는 SuperGLUE 언어 이해 도구 키트에서 GPT-4가 인간의 기준을 어떻게 능가하는지 강조합니다.

즉, 이러한 좁게 정의된 벤치마크는 실제 작업에 대한 성능을 과장하고 실패를 과소평가한다는 비판에 직면했습니다. 진정한 편견이 없는 LLM 평가는 오픈 소스 접근 방식과 비공개 소스 접근 방식 모두에서 여전히 공개 연구 문제로 남아 있습니다.

전산 요구 사항

대규모 언어 모델을 훈련하려면 광범위한 계산 리소스가 필요합니다. OpenAI는 클라우드 인프라에서 GPT-3을 교육하는 데 수백만 달러를 지출했으며 Anthropic은 ConstitutionalAI를 위해 천만 달러 이상의 GPU를 소비했습니다.

이러한 모델에 대한 법안은 오픈 소스 커뮤니티에서 대부분의 개인과 소규모 팀을 제외합니다. 실제로 EleutherAI는 폭발적인 호스팅 비용으로 인해 공개 액세스에서 GPT-J 모델을 제거해야 했습니다.

넉넉한 자금이 없는 오픈 소스 LLM 성공 사례는 기부된 컴퓨팅 리소스를 활용합니다. LAION은 크라우드소싱 데이터를 사용하여 기술 중심의 LAION-5B 모델을 큐레이팅했습니다. 비영리 Anthropic ConstitutionalAI 프로젝트는 자원봉사 컴퓨팅을 활용했습니다.

Google, Meta 및 Baidu와 같은 회사의 대규모 기술 지원은 LLM 개발을 산업화하는 데 필요한 재정적 연료를 폐쇄 소스 노력에 제공합니다. 이를 통해 풀뿌리 이니셔티브에 대해 헤아릴 수 없는 길이로 확장할 수 있습니다. DeepMind의 280억 매개변수 Gopher 모델을 참조하세요.

응용 프로그램의 다양성

오픈 소스 LLM의 사용자 정의 기능을 통해 고도로 전문화된 사용 사례를 처리할 수 있습니다. 연구자들은 모델 내부를 적극적으로 수정하여 단백질 구조 예측, 코드 문서 생성, 수학적 증명 검증과 같은 틈새 작업의 성능을 높일 수 있습니다.

즉, 코드에 액세스하고 편집하는 기능은 올바른 데이터가 없으면 효과적인 도메인별 솔루션을 보장하지 않습니다. 좁은 애플리케이션을 위한 포괄적인 훈련 데이터 세트는 큐레이트하고 업데이트를 유지하는 데 상당한 노력이 필요합니다.

여기서 폐쇄 소스 LLM은 내부 저장소 및 상업 파트너의 교육 데이터 소스 리소스를 활용합니다. 예를 들어 DeepMind는 화학 분야의 ChEMBL, 단백질 분야의 UniProt와 같은 데이터베이스에 라이선스를 부여하여 응용 범위를 확장합니다. 산업 규모의 데이터 액세스를 통해 Gopher와 같은 모델은 아키텍처의 불투명성에도 불구하고 놀라운 다양성을 달성할 수 있습니다.

접근성 및 라이선스

오픈 소스 LLM의 허용 라이선스는 무료 액세스와 협업을 촉진합니다. GPT-NeoX, LLaMA 및 Jurassic-1 Jumbo와 같은 모델은 Creative Commons 및 Apache 2.0과 같은 계약을 사용하여 비상업적 연구 및 공정한 상업화를 가능하게 합니다.

대조적으로, 비공개 소스 LLM은 모델 가용성을 제한하는 제한적인 라이센스를 가지고 있습니다. 상업 기관은 액세스를 엄격하게 제어하여 예측 API 및 기업 파트너십을 통해 잠재적인 수익 흐름을 보호합니다.

당연히 Anthropic 및 Cohere와 같은 조직은 ConstitutionalAI 및 Cohere-512 인터페이스에 대한 액세스 비용을 청구합니다. 그러나 이로 인해 중요한 연구 영역의 가격이 책정되어 자금이 풍부한 산업에 대한 개발이 편향될 위험이 있습니다.

오픈 라이센싱은 특히 귀속 및 책임과 관련된 문제를 야기합니다. 그러나 연구 사용 사례의 경우 오픈 소스 접근성이 부여하는 자유는 분명한 이점을 제공합니다.

데이터 개인정보 보호 및 기밀성

LLM용 교육 데이터 세트는 일반적으로 웹 페이지, 과학 기사, 토론 포럼과 같은 다양한 온라인 소스의 콘텐츠를 집계합니다. 이로 인해 모델 출력에 개인 식별 정보 또는 기타 민감한 정보가 노출될 위험이 있습니다.

오픈 소스 LLM의 경우 데이터 세트 구성을 면밀히 조사하면 기밀성 문제에 대한 최상의 보호책을 제공합니다. 데이터 소스를 평가하고, 절차를 필터링하고, 테스트 중에 발견된 사례를 문서화하면 취약점을 식별하는 데 도움이 될 수 있습니다.

안타깝게도 비공개 소스 LLM에서는 이러한 공개 감사가 불가능합니다. 대신 소비자는 발표된 정책을 기반으로 하는 엄격한 내부 검토 프로세스에 의존해야 합니다. 맥락에 따라 Azure Cognitive Services는 개인 데이터 필터링을 약속하고 Google은 공식적인 개인 정보 검토 및 데이터 레이블 지정을 지정합니다.

전반적으로, 오픈 소스 LLM은 결함이 대규모로 나타나기 전에 AI 시스템의 기밀 위험을 보다 적극적으로 식별할 수 있도록 해줍니다. 비공개 상대방은 데이터 처리 관행에 대해 상대적으로 제한된 투명성을 제공합니다.

상업적 지원 및 지원

비공개 소스 LLM을 통해 수익을 창출할 수 있는 잠재력은 개발 및 유지 관리를 위한 상당한 상업적 투자를 장려합니다. 예를 들어, Microsoft는 Azure AI 포트폴리오에서 수익성 있는 수익을 기대하면서 GPT 모델을 중심으로 OpenAI와 수십억 달러 규모의 파트너십을 체결하기로 합의했습니다.

이와 대조적으로, 오픈 소스 LLM은 유지 관리를 위해 개인 시간을 할당하는 자원봉사자나 제한된 기간의 자금을 제공하는 보조금에 의존합니다. 이러한 리소스 비대칭성은 오픈 소스 프로젝트의 연속성과 수명을 위협합니다.

그러나 상용화 장벽으로 인해 오픈 소스 커뮤니티는 이익보다 과학적 진보에 집중할 수 없게 되었습니다. 그리고 개방형 생태계의 분산된 특성은 단일 후원자의 지속적인 관심에 대한 과도한 의존을 완화합니다.

궁극적으로 각 접근 방식은 리소스와 인센티브에 대한 절충안을 수반합니다. 폐쇄 소스 LLM은 더 큰 자금 조달 보안을 누리지만 영향력은 집중됩니다. 개방형 생태계는 다양성을 촉진하지만 불확실성이 높아집니다.

오픈 소스와 폐쇄 소스 LLM 환경 탐색

오픈 소스 LLM과 비공개 소스 LLM 중에서 결정하려면 사용자 정의 가능성, 접근성, 확장성과 같은 조직 우선순위를 모델 기능과 일치시켜야 합니다.

연구원과 스타트업의 경우 오픈 소스는 모델을 특정 작업에 맞게 조정할 수 있는 더 많은 제어권을 부여합니다. 또한 라이선스를 통해 공동작업자 간에 통찰력을 무료로 공유할 수 있습니다. 그러나 훈련 데이터와 인프라를 소싱하는 부담으로 인해 실제 실행 가능성이 훼손될 수 있습니다.

반대로, 비공개 소스 LLM은 충분한 자금과 데이터를 통해 상당한 품질 개선을 약속합니다. 그러나 액세스 및 수정에 대한 제한은 배포를 공급업체 로드맵에 바인딩하는 동시에 과학적 투명성을 제한합니다.

실제로 아키텍처 사양, 모델 체크포인트, 평가 데이터에 대한 개방형 표준은 두 접근 방식의 단점을 상쇄하는 데 도움이 될 수 있습니다. Google의 Transformer 또는 Oxford의 REALTO 벤치마크와 같은 공유 기반은 재현성을 향상시킵니다. ONNX와 같은 상호 운용성 표준을 사용하면 개방형 소스와 폐쇄형 소스의 구성 요소를 혼합할 수 있습니다.

궁극적으로 중요한 것은 현재 작업에 적합한 도구(오픈 소스 또는 비공개 소스)를 선택하는 것입니다. 비공개 소스 LLM을 지원하는 상업 단체는 부인할 수 없는 영향력을 행사합니다. 그러나 개방형 과학 커뮤니티의 열정과 원칙은 계속해서 AI 발전을 이끄는 중요한 역할을 할 것입니다.

다음 위로

2024년 신흥 기술 동향: Mastercard의 보고서에서 생성 AI가 상거래에 미치는 영향 공개

놓치지 마세요.

다국어 LLM의 현황: 영어를 넘어

아유쉬 미탈

저는 지난 50년 동안 기계 학습과 딥 러닝의 매혹적인 세계에 몰두했습니다. 저의 열정과 전문 지식은 특히 AI/ML에 중점을 둔 XNUMX개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여하도록 이끌었습니다. 나의 계속되는 호기심은 또한 내가 더 탐구하고 싶은 분야인 자연어 처리로 나를 이끌었습니다.