인공 지능

Gemini 1.5 살펴보기: Google의 최신 멀티모달 AI 모델이 이전 모델을 넘어 AI 환경을 향상시키는 방법

게재

3 개월 전

2024년 ２월 20일

빠르게 진화하는 인공 지능 환경에서 Google은 계속해서 선구적인 개발을 주도하고 있습니다. 다중 모드 AI 기술. Gemini 1.0이 데뷔한 직후, 그들의 최첨단 다중 모드 대형 언어 모델, Google이 이제 공개했습니다. 쌍둥이 자리 1.5. 이 반복은 다음에 의해 확립된 역량을 향상시킬 뿐만 아니라 쌍둥이 자리 1.0 또한 다중 모드 데이터를 처리하고 통합하는 Google의 방법론에도 상당한 개선이 이루어졌습니다. 이 기사에서는 Gemini 1.5에 대해 살펴보고 혁신적인 접근 방식과 독특한 기능을 조명합니다.

Gemini 1.0: 기초 놓기

6년 2023월 1.0일 Google DeepMind와 Google Research가 출시한 Gemini XNUMX은 텍스트, 오디오, 이미지, 비디오 등 다양한 형식의 콘텐츠를 이해하고 생성할 수 있는 새로운 종류의 다중 모드 AI 모델을 도입했습니다. 이는 AI의 중요한 단계로, 다양한 정보 유형을 관리하는 범위를 넓혔습니다.

쌍둥이자리의 가장 큰 특징 여러 데이터 유형을 원활하게 혼합할 수 있는 능력입니다. 단일 데이터 형식을 전문으로 하는 기존 AI 모델과 달리 Gemini는 텍스트, 시각 자료 및 오디오를 통합합니다. 이러한 통합을 통해 손으로 쓴 메모를 분석하거나 복잡한 다이어그램을 해독하는 등의 작업을 수행하여 광범위한 복잡한 문제를 해결할 수 있습니다.

Gemini 제품군은 복잡한 작업을 위한 Ultra 모델, Google Bard와 같은 주요 플랫폼의 속도와 확장성을 위한 Pro 모델, 1억 및 2억 1.8천만 개의 매개변수를 갖춘 Nano 모델(Nano-3.25 및 Nano-8) 등 다양한 애플리케이션을 위한 모델을 제공합니다. 는 각각 Google Pixel XNUMX Pro 스마트폰과 같은 장치에 통합되도록 설계되었습니다.

제미니 1.5로의 도약

Google의 최신 릴리스인 Gemini 1.5는 이전 버전인 Gemini 1.0의 기능과 운영 효율성을 향상시켰습니다. 이 버전은 소설을 채택합니다. 전문가 혼합 (MoE) 아키텍처는 이전 모델에서 볼 수 있었던 통합된 대규모 모델 접근 방식에서 벗어났습니다. 이 아키텍처는 더 작고 전문화된 컬렉션을 통합합니다. 변압기 모델, 각각은 특정 데이터 세그먼트 또는 고유한 작업을 관리하는 데 능숙합니다. 이 설정을 통해 Gemini 1.5는 들어오는 데이터를 기반으로 가장 적절한 전문가를 동적으로 참여시켜 모델의 정보 학습 및 처리 능력을 간소화할 수 있습니다.

이 혁신적인 접근 방식은 작업에 필요한 전문가만 활성화하여 모델의 교육 및 배포 효율성을 크게 향상시킵니다. 결과적으로 Gemini 1.5는 복잡한 작업을 빠르게 마스터하고 기존 모델보다 더 효율적으로 고품질 결과를 제공할 수 있습니다. 이러한 발전을 통해 Google 연구팀은 Gemini 모델의 개발 및 개선을 가속화하여 AI 영역 내에서 가능성을 확장할 수 있습니다.

확장 기능

Gemini 1.5의 주목할만한 발전은 정보 처리 능력의 확장입니다. 응답을 생성하기 위해 분석할 수 있는 사용자 데이터의 양인 모델의 컨텍스트 창은 이제 Gemini 1의 32,000개 토큰에서 크게 증가한 최대 1.0만 개 토큰까지 확장됩니다. 이러한 향상된 기능은 Gemini 1.5 Pro가 10시간 분량의 비디오 콘텐츠, XNUMX시간 분량의 오디오, 대규모 코드베이스 및 텍스트 문서 등 광범위한 양의 데이터를 동시에 처리할 수 있음을 의미합니다. 또한 최대 XNUMX만 개의 토큰을 사용해 성공적으로 테스트되었으며, 엄청난 데이터 세트를 이해하고 해석하는 뛰어난 능력을 보여줍니다.

Gemini 1.5의 기능 살펴보기

Gemini 1.5의 아키텍처 개선과 확장된 컨텍스트 창을 통해 대규모 정보 세트에 대해 정교한 분석을 수행할 수 있습니다. 아폴로 11호 임무의 복잡한 세부 사항을 탐구하는 것인지 여부 성적 증명서 무성 영화를 해석할 때 Gemini 1.5는 특히 긴 코드 블록에서 비교할 수 없는 문제 해결 능력을 보여줍니다.

Google의 고급 TPUv4 가속기를 기반으로 개발된 Gemini 1.5 Pro는 다양한 도메인을 포괄하고 다중 모드 및 다국어 콘텐츠를 포함한 다양한 데이터 세트에 대해 교육을 받았습니다. 인간의 선호도 데이터를 기반으로 한 미세 조정과 결합된 이 광범위한 훈련 기반은 Gemini 1.5 Pro의 출력이 인간의 인식과 잘 조화되도록 보장합니다.

을 통하여 엄격한 벤치마크 테스트 수많은 작업에 대해 Gemini 1.5 Pro는 대부분의 평가에서 이전 제품보다 성능이 뛰어날 뿐만 아니라 더 큰 Gemini 1.0 Ultra 모델과도 맞먹습니다. Gemini 1.5 Pro는 강력한 "상황 내 학습" 능력을 보여 추가 조정 없이도 상세한 프롬프트에서 새로운 지식을 효과적으로 얻을 수 있습니다. 이는 특히 이번 공연에서 확연히 드러났다. 한 권의 기계 번역 (MTOB) 벤치마크에서는 영어를 소수의 사람들이 사용하는 언어인 Kalamang으로 번역하여 인간 학습에 필적하는 능숙도를 보여 적응성과 학습 효율성을 강조했습니다.

제한된 미리보기 액세스

Gemini 1.5 Pro는 이제 다음을 통해 개발자 및 기업 고객을 위해 제한된 미리 보기로 제공됩니다. AI 스튜디오 및 버텍스 AI, 더 폭넓은 출시 계획과 사용자 정의 가능한 옵션이 곧 출시될 예정입니다. 이 미리보기 단계에서는 확장된 컨텍스트 창을 탐색할 수 있는 독특한 기회를 제공하며 처리 속도가 향상될 것으로 예상됩니다. Gemini 1.5 Pro에 관심이 있는 개발자 및 기업 고객은 AI Studio를 통해 등록하거나 Vertex AI 계정 팀에 문의하여 자세한 내용을 확인할 수 있습니다.

히프 라인

Gemini 1.5는 다중 모드 AI 개발에서 주목할 만한 진전을 나타냅니다. Gemini 1.0의 기반을 토대로 구축된 이 새 버전은 다양한 유형의 데이터를 처리하고 통합하기 위한 향상된 방법을 제공합니다. 새로운 아키텍처 접근 방식과 확장된 데이터 처리 기능의 도입은 AI 기술을 향상하려는 Google의 지속적인 노력을 강조합니다. 보다 효율적인 작업 처리 및 고급 학습 가능성을 갖춘 Gemini 1.5는 AI의 지속적인 발전을 보여줍니다. 현재 선별된 개발자 그룹과 기업 고객에게 제공되고 있는 이 제품은 AI의 미래에 대한 흥미진진한 가능성을 예고하며, 더 폭넓은 가용성과 추가 발전이 임박해 있습니다.

다음 위로

전이 학습을 통해 도메인별 작업에서 대형 비전 모델(LVM) 강화

놓치지 마세요.

OpenAI의 Sora에 대해 지금까지 우리가 알고 있는 것

테신 지아 박사

Tehseen Zia 박사는 COMSATS University Islamabad의 종신 부교수이며 오스트리아 Vienna University of Technology에서 AI 박사 학위를 취득했습니다. 인공 지능, 기계 학습, 데이터 과학 및 컴퓨터 비전을 전문으로 하는 그는 평판이 좋은 과학 저널에 출판물을 발표하며 상당한 공헌을 했습니다. Tehseen 박사는 수석 연구원으로서 다양한 산업 프로젝트를 이끌었고 AI 컨설턴트로도 활동했습니다.