์ธ๊ณต์ง๋ฅ
์์ฑ์ AI: CHATGPT, DALL-E, Midjourney ๋ฐ ๊ธฐํ์ ์์ด๋์ด

예술, 의사소통, 현실의 인식 세계는 급격하게 변하고 있습니다. 인간의 혁신 역사에서 중요한 발전으로는 바퀴의 발명이나 전기의 발견을 고려할 수 있습니다. 오늘날, 새로운 혁명이 진행 중입니다. 그것은 인간의 창의성과 기계 계산 사이의 격차를 메우는 것입니다. 그것은 생성적 AI입니다.
생성적 모델은 인간과 기계 사이의 경계를 흐리게 했습니다. GPT-4와 같은 모델이 등장하면서, 자연어와 문맥이 풍부한 언어 생성이 가능해졌습니다. 이러한 발전은 문서 생성, 챗봇 대화 시스템, 심지어 합성 음악 작곡과 같은 응용 분야를 촉발했습니다.
최근의 빅테크 결정은 그 중요성을 강조합니다. 마이크로소프트는 다음 세대 AI 혁신에 집중하기 위해 코르타나 앱을 중단하고 있습니다. 애플은 또한 22.6억 달러의 연구 개발 예산 중 상당 부분을 생성적 AI에 투자했습니다.
새로운 모델의 시대: 생성적 대 판별적
생성적 AI의 이야기는 그 응용 분야에 대한 이야기만이 아닙니다. 그것은 기본적으로 그 내부 작동 방식에 관한 것입니다. 인공 지능 생태계에서 두 가지 모델이 존재합니다: 판별적 모델과 생성적 모델입니다.
판별적 모델은 대부분의 사람들이 일상 생활에서 접하는 것입니다. 이러한 알고리즘은 입력 데이터를 받아서 대상 출력과 연결합니다. 예를 들어, 텍스트나 이미지와 단어 번역 또는 의료 진단을 연결합니다. 그것들은 매핑과 예측에 관한 것입니다.
생성적 모델은 창조자입니다. 그것들은 단순히 해석하거나 예측하지 않습니다. 그것들은 새로운 복잡한 출력을 생성합니다. 이러한 출력은 실제 값과 관련이 없는 숫자 벡터에서 생성됩니다.
생성적 모델의 기술
생성적 모델은 깊은 신경망에 기초합니다. 이러한 네트워크는 인간의 뇌 기능을 모방하도록 설계되었습니다. 데이터의 다양한 변화를 포착하고 처리함으로써, 이러한 네트워크는 수많은 생성적 모델의 배경으로 작용합니다.
이러한 생성적 모델은 어떻게 만들어질까요? 일반적으로, 깊은 신경망으로 구축되며, 데이터의 다양한 변화를 포착하도록 최적화됩니다. 대표적인 예는 생성적 적대적 네트워크(GAN)입니다. 여기서 두 개의 신경망, 생성자와 판별자가 서로 경쟁하고 학습합니다. 이러한 모델은 이전에 불가능했던 방식으로 발전하고 확장하고 있습니다.
GAN을 넘어서, 변분 자동 인코더(VAE)도 생성적 모델 분야에서 중요한 역할을 합니다. VAE는 실제와 같은 이미지를 생성할 수 있습니다. 어떻게 할까요? 숫자를 잠재 벡터를 통해 처리하면 인간의 미학의 복잡성을 반영하는 예술이 탄생합니다.
생성적 AI 유형: 텍스트에서 텍스트, 텍스트에서 이미지
트랜스포머와 LLM
구글 브레인에서 발표한 “Attention Is All You Need”라는 논문은 텍스트 모델링 방식에 대한 새로운 전환점을 마련했습니다. 복잡하고 순차적인 아키텍처인 순환 신경망(RNN)이나 합성 신경망(CNN)과는 달리, 트랜스포머 모델은 주의 메커니즘을 도입했습니다. 이는 입력 텍스트의 다른 부분에 집중하는 것을 의미합니다. 이러한 주의 메커니즘은 트랜스포머의 핵심입니다.
장문의 텍스트에서, 모든 단어나 문장이 동일한 중요도를 가지는 것은 아닙니다. 일부 부분은 문맥에 따라 더 많은 주의를 필요로 합니다. 이러한 주의 메커니즘은 트랜스포머에서 구현됩니다.
예를 들어, “Unite AI는 AI와 로봇 관련 뉴스를 발행합니다.”라는 문장을 생각해 보세요. 다음 단어를 예측하려면 이전 문맥을 이해해야 합니다. ‘로봇’이라는 단어는 다음 단어가 로봇 분야의 특정 발전이나 이벤트와 관련이 있을 수 있음을 시사합니다.
트랜스포머의 주의 메커니즘은 이러한 선택적 주의를 달성하도록 설계되었습니다. 입력 텍스트의 다른 부분의 중요도를 평가하고, 어디에 ‘주의’를 기울일지 결정합니다. 이는 이전 아키텍처와는 다른 접근 방식입니다.
트랜스포머의 주의 메커니즘은 키-값 검색 시스템과 유사합니다. 각 이전 단어는 다음 단어를 예측하는 데 필요한 키를 제공하며, 이러한 키는 현재 문맥에 따라 가중치를 부여합니다.
이러한 고급 AI 딥 러닝 모델은 다양한 응용 분야에 통합되었습니다. 예를 들어, 구글의 검색 엔진 강화와 깃허브의 코파일럿이 있습니다. 코파일럿은 대규모 언어 모델(LLM)의 능력을 활용하여 간단한 코드 스니펫을 완전한 소스 코드로 변환합니다.
대규모 언어 모델(LLM)인 GPT-4, 바드, LLaMA는 인간의 언어, 코드, 그리고 더 많은 것을 이해하고 생성하기 위해 설계되었습니다. 이러한 모델의 크기는 수십억에서 수천억 개의 매개변수로 구성됩니다. 이러한 LLM은大量의 텍스트 데이터를 학습하여 인간 언어의 복잡성을 이해합니다. 이러한 모델의 특징은 ‘few-shot’ 학습 능력입니다. 기존 모델과는 달리, 이러한 모델은 매우 제한된 예제에서 일반화할 수 있습니다.
대규모 언어 모델(LLM)의 현재 상태(2023년 중반 이후)
| 모델 이름 | 개발자 | 매개변수 | 가용성 및 접근성 | 주목할 만한 특징 및 비고 |
| GPT-4 | OpenAI | 1.5 트릴리언 | 오픈 소스가 아님, API 접근만 가능 | 다양한 작업에서 인상적인 성능, 이미지와 텍스트를 처리할 수 있음, 최대 입력 길이 32,768 토큰 |
| GPT-3 | OpenAI | 175억 | 오픈 소스가 아님, API 접근만 가능 | few-shot 및 zero-shot 학습 능력展示, 자연어 텍스트 완성을 수행 |
| BLOOM | BigScience | 176억 | 다운로드 가능한 모델, 호스팅 API 사용 가능 | 글로벌 협력으로 개발된 다국어 LLM, 13개 프로그래밍 언어 지원 |
| LaMDA | 구글 | 173억 | 오픈 소스가 아님, API 또는 다운로드 없음 | 대화에서 학습하여 거의 모든 주제에 대해 대화할 수 있음 |
| MT-NLG | Nvidia/Microsoft | 530억 | 신청에 의한 API 접근 | 트랜스포머 기반 메가트론 아키텍처를 사용한 다양한 NLP 작업 |
| LLaMA | Meta AI | 7B ~ 65B | 신청에 의한 다운로드 | 연구, 정부, 학계에서 AI 접근성을 민주화하기 위해 설계됨 |
LLM을 어떻게 사용할 수 있나요?
LLM은 여러 가지 방법으로 사용될 수 있습니다.
- 직접 사용: 사전 훈련된 LLM을 텍스트 생성 또는 처리에 사용하는 것입니다. 예를 들어, GPT-4를 사용하여 블로그 게시물을 작성하는 것입니다.
- 미세 조정: 특정 작업을 위해 사전 훈련된 LLM을 미세 조정하는 것입니다. 예를 들어, T5를 특정 산업의 문서 요약을 생성하도록 사용하는 것입니다.
- 정보 검색: LLM을 더 큰 아키텍처의 일부로 사용하여 정보를 검색하고 분류하는 시스템을 개발하는 것입니다. 예를 들어, BERT 또는 GPT를 사용하여 정보를 검색하는 것입니다.
다중 헤드 주의: 하나가 아닌 여러 개를 사용하는 이유
그러나 단일 주의 메커니즘에만 의존하는 것은 제한적일 수 있습니다. 텍스트의 다른 단어나 시퀀스는 다양한 유형의 관련성이나 연관성을 가질 수 있습니다. 이것이 다중 헤드 주의가 필요한 이유입니다. 다중 헤드 주의는 하나의 주의 집중을 사용하는 대신 여러 개의 주의 집중을 사용하여 입력 텍스트의 다양한 관계를 포착할 수 있습니다. 각 주의 “헤드”는 입력의 다른 부분이나 측면에 집중할 수 있으며, 그들의 결합된 지식은 최종 예측에 사용됩니다.
ChatGPT: 가장 인기 있는 생성적 AI 도구
GPT의 시작은 2018년으로, 12개의 레이어, 12개의 주의 헤드, 1.2억 개의 매개변수로 구성되었습니다. 이는 BookCorpus라는 데이터셋으로 훈련되었습니다. 이는 언어 모델의 미래를 예측하는 데 중요한 시작이었습니다.
GPT-2는 2019년에 공개되었으며, 레이어와 주의 헤드의 수를 4배 증가시켰습니다. 또한 매개변수의 수를 15억으로 증가시켰습니다. 이는 WebText라는 데이터셋으로 훈련되었으며, 40GB의 텍스트로 구성되었습니다.
GPT-3는 2020년 5월에 공개되었으며, 96개의 레이어, 96개의 주의 헤드, 175억 개의 매개변수로 구성되었습니다. GPT-3의 훈련 데이터는 다양한 출처에서 구성되었습니다. 이는 총 570GB의 데이터로 구성되었습니다.
ChatGPT의 작동 방식은 아직 공개되지 않았습니다. 그러나 인간의 피드백에서 강화 학습(reinforcement learning from human feedback, RLHF)이라는 기술이 사용된 것으로 알려져 있습니다. 이는 GPT-3.5 모델을 훈련하는 데 사용되었습니다.
ChatGPT의 훈련에는 3단계가 있습니다.
- 감독된 미세 조정: 인간이 작성한 대화 입력과 출력을 사용하여 기본 GPT-3.5 모델을 미세 조정합니다.
- 보상 모델링: 인간이 모델의 출력을 평가하여 보상 모델을 훈련시킵니다. 이 보상 모델은 대화의 문맥을 고려하여 출력을 평가합니다.
- 강화 학습: 모델은 대화의 문맥에서 응답을 제안합니다. 이 응답은 보상 모델에 의해 평가되고, 프로세스는 최적화 알고리즘을 사용하여 최적화됩니다.
ChatGPT를 처음 사용하는 사람들을 위한 포괄적인 가이드는 여기에서 찾을 수 있습니다. ChatGPT의 프롬프트 엔지니어링에 대한 더 자세한 정보를 원한다면, 고급 가이드도 있습니다.
확산 및 다중 모달 모델
VAE와 GAN과 같은 모델은 출력을 단일 패스로 생성합니다. 그러나 확산 모델은 반복적인 개선을 도입했습니다. 이러한 모델은 이전 단계에서 발생한 오류를 수정하고, 점진적으로 더 정교한 결과를 생성합니다.
확산 모델의 핵심은 “오염”과 “정제”입니다. 훈련 단계에서, 일반적인 이미지를 점진적으로 오염시킵니다. 이 오염된 이미지는 모델에 입력되며, 모델은 이를 정제하거나 복원하려고 시도합니다. 이러한 과정을 여러 번 반복하여, 모델은 복원과 정제를 학습합니다.
이미지 생성은 모델의 훈련 이후에 발생합니다. 완전히 무작위적인 입력에서 시작하여, 모델의 예측을 사용하여 계속적으로 개선합니다. 목표는 최소한의 단계로 완벽한 이미지를 얻는 것입니다. 노이즈 스케줄이라는 메커니즘을 통해 노이즈의 수준을 제어합니다. 이 스케줄러는 확산 라이브러리에서 사용되는 알고리즘을 기반으로 합니다.
확산 모델의 핵심 아키텍처는 U-Net입니다. 이는 입력의 공간적 차원을 미러링하는 출력을 생성하는 데 사용됩니다. 이는 다운샘플링과 업샘플링 레이어의 조합으로, 높은 해상도 데이터를 유지하기 위해 설계되었습니다.
생성적 모델의 세계를 더 깊이 들어가면, OpenAI의 DALL-E 2가 텍스트와 이미지의 AI 능력을 융합한 예시로 등장합니다. 이는 3단계 구조를 가지고 있습니다.
DALL-E 2는 3단계 구조를 가지고 있습니다.
- 텍스트 인코더: 텍스트 프롬프트를 잠재 공간의 개념적 임베딩으로 변환합니다. 이는 OpenAI의 CLIP 데이터셋을 기반으로 합니다. CLIP은 시각적과 텍스트 데이터를 연결하는 데 사용됩니다.
- 프라이어: 텍스트 임베딩을 이미지 임베딩으로 변환합니다. DALL-E 2는 이 작업에 자동 회귀 모델과 확산 모델을 테스트했습니다. 확산 모델이 더 나은 결과를 보여주었습니다.
- 디코더: 최종 시각적 출력을 생성합니다. 이는 텍스트 프롬프트와 이전 단계의 이미지 임베딩을 사용하여 생성됩니다.
파이썬 사용자를 위한 Langchain에 대한 자세한 튜토리얼은 여기에서 찾을 수 있습니다.
생성적 AI의 응용
텍스트 도메인
생성적 AI는 텍스트를 통해 다양한 응용 분야를 가졌습니다. 예를 들어, ChatGPT와 같은 챗봇은 자연어 처리와 대규모 언어 모델을 사용하여 코드 생성, 언어 번역, 요약, 감정 분석 등을 수행할 수 있습니다. 이러한 모델은 商業적으로도 매우 유용합니다. 기업은 이러한 모델을 위험 관리, 재고 최적화, 수요 예측 등 다양한 작업에 사용합니다.
예술
생성적 AI는 이미지의 세계에서도劇적인 변화를 가져왔습니다. DALL-E 2의 등장으로, 텍스트 프롬프트에서 이미지를 생성하는 기술이 가능해졌습니다. 이는 예술적이고 전문적인 의미를 가집니다. 예를 들어, Midjourney는 이러한 기술을 사용하여 매우 실제적인 이미지를 생성했습니다. 이 기술은 이미지 편집 기능도 제공합니다. 예를 들어, Alpaca AI와 Photoroom AI는 생성적 AI를 사용하여 배경 제거, 객체 삭제, 얼굴 복원 등 다양한 편집 기능을 제공합니다.
비디오 제작
비디오 제작은 아직 생성적 AI의 초기 단계에 있습니다. 그러나 Imagen Video, Meta Make A Video, Runway Gen-2와 같은 플랫폼은 실제적인 비디오 생성을 위한 가능성을 보여주고 있습니다. 이러한 모델은 디지털 인간 비디오 생성과 같은 응용 분야에서 유용합니다. Synthesia와 SuperCreator와 같은 플랫폼이 이러한 분야에서 선도하고 있습니다. Tavus AI는 개인화된 비디오 생성을 제공하여 기업에게 유용한 솔루션을 제공합니다.
코드 생성
코드 생성은 생성적 AI의 또 다른 중요한 응용 분야입니다. ChatGPT와 같은 모델은 코드 생성을 위한 도구로 사용될 수 있습니다. 이러한 모델은 텍스트 프롬프트에서 코드를 생성할 수 있습니다. Codex는 GitHub Copilot의 핵심 기술입니다. 이는 개인의 코딩 스타일에 맞게 맞춤형 코드를 생성할 수 있습니다.
결론
인간의 창의성과 기계 계산을 결합하여, 생성적 AI는 매우 유용한 도구가 되었습니다. ChatGPT와 DALL-E 2와 같은 플랫폼은 이러한 기술의 가능성을 보여주고 있습니다. 텍스트 생성에서 이미지 생성까지, 이러한 응용 분야는 매우 다양합니다.
그러나, 이러한 기술을 사용할 때, 윤리적인 의미를 고려해야 합니다. 생성적 AI는 무한한 창의성을 제공할 수 있지만, 데이터 조작의 위험도 있습니다. 이러한 기술을 책임감 있게 사용하는 것이 중요합니다.
ChatGPT와 같은 도구가 더 쉽게 접근할 수 있게 되면서, 지금이 이러한 기술을 테스트하고 실험하기 위한 완벽한 시기입니다. 예술가, 코더, 기술 애호가라면, 생성적 AI의 세계는 아직 탐험하지 못한 가능성으로 가득 차 있습니다. 이 혁명은 지평선에 있지 않습니다. 지금 여기 있습니다. 그래서, 뛰어들어보세요!

















