인공 지능

생성 AI: CHATGPT, Dall-E, Midjourney 등의 아이디어

업데이트 on 2023 년 8 월 8 일

예술의 세계, 커뮤니케이션, 그리고 우리가 현실을 인식하는 방식은 빠르게 변화하고 있습니다. 인류 혁신의 역사를 돌아보면 바퀴의 발명이나 전기의 발견을 기념비적인 도약으로 여길지도 모릅니다. 오늘날 인간의 창의성과 기계 계산 사이의 격차를 해소하는 새로운 혁명이 일어나고 있습니다. 그것이 제너레이티브 AI입니다.

생성 모델은 인간과 기계 사이의 경계를 흐리게 했습니다. 변환기 모듈을 사용하는 GPT-4와 같은 모델의 출현으로 우리는 자연스럽고 문맥이 풍부한 언어 생성에 한 걸음 더 다가섰습니다. 이러한 발전은 문서 작성, 챗봇 대화 시스템, 심지어 합성 음악 구성 분야의 응용 프로그램에 연료를 공급했습니다.

최근의 Big-Tech 결정은 그 중요성을 강조합니다. 마이크로소프트는 이미 Cortana 앱 중단 이번 달에는 Bing Chat과 같은 새로운 제너레이티브 AI 혁신을 우선시합니다. Apple은 또한 R&D 예산 22.6억 달러 CEO 팀 쿡이 지적한 것처럼 생성 AI에.

모델의 새로운 시대: Generative Vs. 차별적

제너레이티브 AI의 이야기는 애플리케이션에 관한 것일 뿐만 아니라 근본적으로 내부 작동에 관한 것입니다. 인공 지능 생태계에는 판별 모델과 생성 모델의 두 가지 모델이 존재합니다.

차별적 모델은 대부분의 사람들이 일상 생활에서 접하는 것입니다. 이러한 알고리즘은 텍스트나 이미지와 같은 입력 데이터를 가져와 단어 번역이나 의학적 진단과 같은 대상 출력과 쌍을 이룹니다. 그들은 매핑과 예측에 관한 것입니다.

반면 생성 모델은 생성자입니다. 그들은 단지 해석하거나 예측하지 않습니다. 실제 값과 관련이 없는 경우가 많은 숫자 벡터에서 새롭고 복잡한 출력을 생성합니다.

생성 모델의 이면에 있는 기술

생성 모델은 인간 두뇌의 기능을 모방하도록 설계된 정교한 구조인 심층 신경망 덕분에 존재합니다. 데이터의 다각적인 변화를 캡처하고 처리함으로써 이러한 네트워크는 수많은 생성 모델의 중추 역할을 합니다.

이러한 생성 모델은 어떻게 실현됩니까? 일반적으로 데이터의 다각적인 변화를 캡처하도록 최적화된 심층 신경망으로 구축됩니다. 대표적인 예는 생식 적대적 네트워크 (GAN)은 두 개의 신경망인 생성자와 판별자가 고유한 교사-학생 관계에서 서로 경쟁하고 학습하는 것입니다. 그림에서 스타일 전송, 음악 작곡에서 게임 플레이에 이르기까지 이러한 모델은 이전에는 상상할 수 없었던 방식으로 진화하고 확장되고 있습니다.

이것은 GAN에서 멈추지 않습니다. 가변형 오토 인코더 (VAE)는 생성 모델 분야의 또 다른 중추적인 역할을 합니다. VAE는 무작위로 보이는 숫자에서 사실적인 이미지를 생성하는 능력이 두드러집니다. 어떻게? 잠재 벡터를 통해 이러한 숫자를 처리하면 인간 미학의 복잡성을 반영하는 예술이 탄생합니다.

생성 AI 유형: 텍스트를 텍스트로, 텍스트를 이미지로

변압기 및 LLM

종이 "주의 만 있으면됩니다” Google Brain의 텍스트 모델링에 대한 우리의 생각 방식에 변화가 생겼습니다. RNN(Recurrent Neural Networks) 또는 CNN(Convolutional Neural Networks)과 같은 복잡하고 순차적인 아키텍처 대신 Transformer 모델은 Attention 개념을 도입했습니다. 이는 본질적으로 상황에 따라 입력 텍스트의 다른 부분에 초점을 맞추는 것을 의미합니다. 이것의 주요 이점 중 하나는 병렬화의 용이성이었습니다. 텍스트를 순차적으로 처리하여 확장하기 어려운 RNN과 달리 Transformer는 텍스트의 일부를 동시에 처리할 수 있으므로 대규모 데이터 세트에서 더 빠르고 효율적으로 훈련할 수 있습니다.

: 변압기 모델 아키텍처

긴 텍스트에서 읽는 모든 단어나 문장이 동일한 중요성을 갖는 것은 아닙니다. 일부 부품은 상황에 따라 더 많은 주의가 필요합니다. 관련성에 따라 우리의 초점을 이동시키는 이 능력은 어텐션 메커니즘이 모방하는 것입니다.

이를 이해하려면 "AI Publish AI 및 Robotics 뉴스 통합"이라는 문장을 생각해 보십시오. 이제 다음 단어를 예측하려면 이전 컨텍스트에서 가장 중요한 것이 무엇인지 이해해야 합니다. 'Robotics'라는 용어는 다음 단어가 로봇 공학 분야의 특정 발전이나 이벤트와 관련될 수 있음을 암시할 수 있으며 'Publish'는 다음 컨텍스트가 최근 출판물이나 기사를 탐구할 수 있음을 나타낼 수 있습니다.

: 셀프 어텐션 일러스트레이션

트랜스포머의 어텐션 메커니즘은 이러한 선택적 포커스를 달성하도록 설계되었습니다. 그들은 입력 텍스트의 다른 부분의 중요성을 측정하고 응답을 생성할 때 "볼" 곳을 결정합니다. 이는 모든 입력 텍스트의 본질을 단일 '상태' 또는 '메모리'에 밀어넣으려는 RNN과 같은 이전 아키텍처에서 출발한 것입니다.

주의 작용은 키-값 검색 시스템에 비유할 수 있습니다. 문장의 다음 단어를 예측하려고 할 때 앞의 각 단어는 잠재적 관련성을 제안하는 '키'를 제공하고 이러한 키가 현재 컨텍스트(또는 쿼리)와 얼마나 잘 일치하는지에 따라 '값' 또는 가중치를 제공합니다. 예측.

이러한 고급 AI 딥 러닝 모델은 BERT를 사용한 Google의 검색 엔진 향상부터 GitHub의 Copilot에 이르기까지 다양한 애플리케이션에 원활하게 통합되어 간단한 코드 스니펫을 완전히 작동하는 소스 코드로 변환하는 대규모 언어 모델(LLM)의 기능을 활용합니다.

GPT-4, Bard 및 LLaMA와 같은 LLM(대형 언어 모델)은 인간의 언어, 코드 등을 해독하고 생성하도록 설계된 거대한 구조입니다. 수십억에서 수조에 이르는 매개 변수의 엄청난 크기는 정의 기능 중 하나입니다. 이러한 LLM에는 방대한 양의 텍스트 데이터가 제공되어 인간 언어의 복잡성을 파악할 수 있습니다. 이 모델의 두드러진 특징은 "몇 발" 학습. 방대한 양의 특정 교육 데이터가 필요한 기존 모델과 달리 LLM은 매우 제한된 수의 예(또는 "샷")에서 일반화할 수 있습니다.

2023년 중반 이후 LLM(대형 언어 모델) 상태

모델 이름	개발자	파라미터	가용성 및 액세스	주목할만한 기능 및 비고
GPT-4	OpenAI	1.5 조	오픈 소스 아님, API 액세스 전용	이미지와 텍스트를 처리할 수 있는 다양한 작업에 대한 인상적인 성능, 최대 입력 길이 32,768 토큰
GPT-3	OpenAI	175 억	오픈 소스 아님, API 액세스 전용	퓨샷 및 제로샷 학습 기능을 시연했습니다. 자연어로 텍스트 완성을 수행합니다.
BLOOM	빅사이언스	176 억	다운로드 가능한 모델, 호스팅된 API 사용 가능	글로벌 협업으로 개발된 다국어 LLM. 13개의 프로그래밍 언어를 지원합니다.
람다	구글	173 억	오픈 소스 아님, API 없음 또는 다운로드 없음	대화 훈련을 받으면 거의 모든 것에 대해 이야기하는 법을 배울 수 있습니다.
MT-NLG	엔비디아/마이크로소프트	530 억	애플리케이션별 API 액세스	다양한 NLP 작업에 변압기 기반 Megatron 아키텍처를 활용합니다.
야마	메타 AI	7B~65B)	애플리케이션으로 다운로드 가능	연구, 정부 및 학계에 있는 사람들에게 액세스를 제공하여 AI를 민주화하기 위한 것입니다.

LLM은 어떻게 사용됩니까?

LLM은 다음을 포함하여 여러 가지 방법으로 사용할 수 있습니다.

직접 활용: 텍스트 생성 또는 처리를 위해 사전 훈련된 LLM을 사용하기만 하면 됩니다. 예를 들어 GPT-4를 사용하여 추가 미세 조정 없이 블로그 게시물을 작성할 수 있습니다.
미세 조정: 사전 훈련된 LLM을 특정 작업에 적용하는 방법으로 전이 학습이라고 알려져 있습니다. 예를 들어 특정 업계의 문서에 대한 요약을 생성하도록 T5를 사용자 정의하는 것입니다.
정보 검색: BERT 또는 GPT와 같은 LLM을 더 큰 아키텍처의 일부로 사용하여 정보를 가져오고 분류할 수 있는 시스템을 개발합니다.

: ChatGPT 미세 조정 아키텍처

다중 헤드 주의: 여러 개를 가질 수 있는데 왜 하나입니까?

그러나 단일 어텐션 메커니즘에 의존하는 것은 제한적일 수 있습니다. 텍스트의 다른 단어 또는 시퀀스는 다양한 유형의 관련성 또는 연관성을 가질 수 있습니다. 다중 헤드 주의가 들어오는 곳입니다. 다중 헤드 주의는 한 세트의 주의 가중치 대신 여러 세트를 사용하여 모델이 입력 텍스트에서 더 다양한 관계를 캡처할 수 있도록 합니다. 각 주의 "헤드"는 입력의 다른 부분 또는 측면에 집중할 수 있으며 결합된 지식은 최종 예측에 사용됩니다.

ChatGPT: 가장 인기 있는 생성 AI 도구

2018년 GPT가 시작된 이래 모델은 본질적으로 12개의 레이어, 12개의 어텐션 헤드, 120억 XNUMX천만 개의 매개변수를 기반으로 구축되었으며 주로 BookCorpus라는 데이터 세트에서 훈련되었습니다. 이것은 언어 모델의 미래를 엿볼 수 있는 인상적인 시작이었습니다.

2년 공개된 GPT-2019는 1.5배 증가한 레이어와 주목도를 자랑했다. 의미심장하게도 매개변수 수가 40억 개로 급증했습니다. 이 향상된 버전은 다양한 Reddit 링크의 XNUMXGB 텍스트로 보강된 데이터 세트인 WebText에서 교육을 파생했습니다.

3년 2020월에 출시된 GPT-96는 96개의 레이어, 175개의 어텐션 헤드, 3억 개의 방대한 매개변수를 가지고 있었습니다. GPT-570를 차별화하는 것은 CommonCrawl, WebText, English Wikipedia, 도서 코퍼스 및 기타 소스를 포함하는 총 XNUMXGB의 다양한 학습 데이터입니다.

ChatGPT 작업의 복잡성은 철저하게 보호되는 비밀로 남아 있습니다. 그러나 '인간 피드백으로부터의 강화 학습'(RLHF)이라는 프로세스가 중추적인 것으로 알려져 있습니다. 이전 ChatGPT 프로젝트에서 시작된 이 기술은 GPT-3.5 모델을 서면 지침과 더 잘 일치하도록 연마하는 데 중요한 역할을 했습니다.

ChatGPT의 교육은 XNUMX단계 접근 방식으로 구성됩니다.

감독된 미세 조정: 기본 GPT-3.5 모델을 개선하기 위해 사람이 작성한 대화 입력 및 출력 큐레이팅이 포함됩니다.
보상 모델링: 인간은 품질을 기준으로 다양한 모델 출력의 순위를 지정하여 대화의 맥락을 고려하여 각 출력의 점수를 매기는 보상 모델을 훈련하는 데 도움을 줍니다.
강화 학습: 대화 컨텍스트는 기본 모델이 응답을 제안하는 배경 역할을 합니다. 이 응답은 보상 모델에 의해 평가되며 프로세스는 Proximal Policy Optimization(PPO)이라는 알고리즘을 사용하여 최적화됩니다.

이제 막 ChatGPT에 발을 담그고 있는 분들을 위해 포괄적인 시작 가이드를 찾을 수 있습니다. 여기에서 지금 확인해 보세요.. ChatGPT를 사용하여 프롬프트 엔지니어링에 대해 더 깊이 파고들고 싶다면 최신 및 첨단 프롬프트 기술을 조명하는 고급 가이드도 있습니다. 'ChatGPT 및 고급 프롬프트 엔지니어링: AI 진화 주도'.

확산 및 다중 모드 모델

VAE 및 GAN과 같은 모델은 단일 패스를 통해 출력을 생성하므로 생성하는 모든 것에 고정되지만 확산 모델은 '의 개념을 도입했습니다.반복적 개선'. 이 방법을 통해 그들은 이전 단계에서 실수를 수정하고 점차 더 세련된 결과를 만들어 내며 원을 그리게 됩니다.

확산 모델의 핵심은 "부패” 및 “정제”. 훈련 단계에서 일반적인 이미지는 다양한 수준의 노이즈를 추가하여 점진적으로 손상됩니다. 그런 다음 이 노이즈가 있는 버전을 모델에 제공하여 '노이즈 제거' 또는 '손상 제거'를 시도합니다. 이를 여러 번 반복하면 모델은 미묘하고 중요한 수차를 모두 이해하면서 복원에 능숙해집니다.

: Midjourney에서 생성된 이미지

훈련 후 새로운 이미지를 생성하는 과정은 흥미롭습니다. 완전히 무작위화된 입력으로 시작하여 모델의 예측을 사용하여 지속적으로 개선됩니다. 의도는 최소한의 단계로 깨끗한 이미지를 얻는 것입니다. 손상 수준 제어는 다양한 단계에서 얼마나 많은 노이즈가 적용되는지 제어하는 메커니즘인 "노이즈 일정"을 통해 수행됩니다. "와 같은 라이브러리에서 볼 수 있는 스케줄러디퓨저"는 확립된 알고리즘을 기반으로 이러한 시끄러운 변환의 특성을 나타냅니다.

많은 확산 모델의 필수 건축 백본은 유넷- 입력의 공간 차원을 미러링하는 출력이 필요한 작업에 맞게 조정된 컨벌루션 신경망. 고해상도 데이터를 유지하기 위해 복잡하게 연결된 다운샘플링 및 업샘플링 레이어가 혼합되어 있으며 이미지 관련 출력에 중추적입니다.

생성 모델의 영역을 더 깊이 파고드는 OpenAI의 달-이 2 텍스트 및 시각적 AI 기능의 융합을 보여주는 빛나는 사례로 떠오르고 있습니다. 다음과 같은 XNUMX계층 구조를 사용합니다.

DALL-E 2는 XNUMX중 구조를 보여줍니다.

텍스트 인코더: 텍스트 프롬프트를 잠재 공간 내의 개념적 임베딩으로 변환합니다. 이 모델은 그라운드 제로에서 시작하지 않습니다. OpenAI의 Contrastive Language–Image Pre-training(쥐다) 데이터 세트를 기반으로 합니다. CLIP은 자연어를 사용하여 시각적 개념을 학습함으로써 시각적 데이터와 텍스트 데이터 간의 가교 역할을 합니다. 대조 학습이라는 메커니즘을 통해 이미지를 식별하고 해당 텍스트 설명과 일치시킵니다.
The Prior: 인코더에서 파생된 텍스트 임베딩이 이미지 임베딩으로 변환됩니다. DALL-E 2는 이 작업을 위해 자동 회귀 및 확산 방법을 모두 테스트했으며 후자는 우수한 결과를 보여줍니다. Transformers 및 PixelCNN에서 볼 수 있는 자동 회귀 모델은 시퀀스에서 출력을 생성합니다. 반면에 DALL-E 2에서 사용된 것과 같은 확산 모델은 텍스트 임베딩의 도움을 받아 무작위 노이즈를 예측된 이미지 임베딩으로 변환합니다.
디코더: 프로세스의 클라이맥스인 이 부분은 텍스트 프롬프트와 이전 단계의 이미지 임베딩을 기반으로 최종 시각적 출력을 생성합니다. DALL.E 2의 디코더는 아키텍처가 다른 모델에 빚지고 있습니다. 활주, 텍스트 단서에서 사실적인 이미지를 생성할 수도 있습니다.

: DALL-E 모델의 간소화된 아키텍처

관심 있는 Python 사용자 랭체인 기초부터 고급 기술까지 모든 것을 다루는 자세한 자습서를 확인해야 합니다.

제너레이티브 AI의 응용

텍스트 도메인

텍스트로 시작하여 Generative AI는 다음과 같은 챗봇에 의해 근본적으로 변경되었습니다. ChatGPT. 자연어 처리(NLP) 및 대규모 언어 모델(LLM)에 크게 의존하는 이러한 엔터티는 코드 생성 및 언어 번역에서 요약 및 감정 분석에 이르는 작업을 수행할 수 있는 권한을 부여받습니다. 예를 들어 ChatGPT는 널리 채택되어 수백만 명의 필수 요소가 되었습니다. 이는 GPT-4와 같은 LLM에 기반을 둔 대화형 AI 플랫폼에 의해 더욱 강화됩니다. 손바닥및 BLOOM, 쉽게 텍스트를 생성하고 프로그래밍을 지원하며 수학적 추론을 제공합니다.

상업적인 관점에서 이러한 모델은 매우 중요해지고 있습니다. 기업은 위험 관리, 재고 최적화 및 수요 예측을 포함하여 무수히 많은 운영을 위해 이를 사용합니다. 몇 가지 주목할만한 예로는 Bing AI, Google의 BARD 및 ChatGPT API가 있습니다.

미술

이미지의 세계는 특히 2년 DALL-E 2022가 도입된 이후 Generative AI로 극적인 변화를 겪었습니다. 텍스트 프롬프트에서 이미지를 생성할 수 있는 이 기술은 예술적이고 전문적인 의미를 모두 가지고 있습니다. 예를 들어 midjourney는 이 기술을 활용하여 매우 사실적인 이미지를 생성했습니다. 이 최근 게시물 Midjourney를 신비화하다 자세한 가이드에서 플랫폼과 즉각적인 엔지니어링 복잡성을 모두 설명합니다. 또한 Alpaca AI 및 Photoroom AI와 같은 플랫폼은 배경 제거, 개체 삭제, 얼굴 복원과 같은 고급 이미지 편집 기능을 위해 Generative AI를 활용합니다.

동영상 제작

비디오 제작은 Generative AI 영역의 초기 단계에 있지만 유망한 발전을 보여주고 있습니다. Imagen Video, Meta Make A Video, Runway Gen-2와 같은 플랫폼은 진정으로 사실적인 출력물이 아직 나오지 않더라도 가능한 것의 경계를 넓히고 있습니다. 이러한 모델은 Synthesia 및 SuperCreator와 같은 응용 프로그램을 통해 디지털 휴먼 비디오를 만드는 데 상당한 유용성을 제공합니다. 특히 Tavus AI는 개별 청중을 위해 비디오를 개인화하여 고유한 판매 제안을 제공하여 비즈니스에 도움이 됩니다.

코드 생성

디지털 세계의 필수 불가결한 측면인 코딩은 Generative AI에 의해 그대로 유지되었습니다. ChatGPT가 선호되는 도구이지만 코딩 목적으로 여러 다른 AI 애플리케이션이 개발되었습니다. GitHub Copilot, Alphacode 및 CodeComplete와 같은 이러한 플랫폼은 코딩 도우미 역할을 하며 텍스트 프롬프트에서 코드를 생성할 수도 있습니다. 흥미로운 점은 이러한 도구의 적응성입니다. GitHub Copilot의 원동력인 Codex는 Generative AI의 개인화 잠재력을 강조하여 개인의 코딩 스타일에 맞출 수 있습니다.

결론

인간의 창의성과 기계 계산을 결합하여 ChatGPT 및 DALL-E 2와 같은 플랫폼이 상상할 수 있는 것의 한계를 뛰어넘는 귀중한 도구로 발전했습니다. 텍스트 콘텐츠 제작에서 시각적 걸작 조각에 이르기까지 응용 프로그램은 방대하고 다양합니다.

모든 기술과 마찬가지로 윤리적 의미가 가장 중요합니다. Generative AI는 무한한 창의성을 약속하지만 잠재적인 편향과 데이터 조작의 힘을 인식하고 이를 책임감 있게 사용하는 것이 중요합니다.

ChatGPT와 같은 도구의 접근성이 높아짐에 따라 지금이 물을 테스트하고 실험하기에 완벽한 시기입니다. 아티스트, 코더, 기술 애호가 등 제너레이티브 AI의 영역은 탐험을 기다리는 가능성으로 가득합니다. 혁명은 곧 일어날 일이 아니다. 지금 여기에 있습니다. 그래서 다이빙!

관련 주제 :채팅 DALL-E 깊은 학습 생성 인공 지능 LLM 중도

다음 위로

제너레이티브 AI, 2023 Ai4 컨퍼런스에서 중심 무대 차지

놓치지 마세요.

AI의 유추적 추론 능력: 도전적인 인간 지능?

아유쉬 미탈

저는 지난 50년 동안 기계 학습과 딥 러닝의 매혹적인 세계에 몰두했습니다. 저의 열정과 전문 지식은 특히 AI/ML에 중점을 둔 XNUMX개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여하도록 이끌었습니다. 나의 계속되는 호기심은 또한 내가 더 탐구하고 싶은 분야인 자연어 처리로 나를 이끌었습니다.