인공지능

생성적 AI: CHATGPT, Dall-E, Midjourney 및 기타의 아이디어

Published August 8, 2023

Updated April 28, 2026

Aayush Mittal Mittal

예술, 의사소통, 그리고 우리가 현실을 인식하는 방식의 세계는 빠르게 변하고 있다. 인간의 혁신 역사에서Wheel의 발명이나 전기의 발견을 볼 때, 우리는 이러한 발명이 엄청난 도약이었다고 생각할 수 있다. 오늘날, 새로운 혁명이 진행 중이다. 그것은 인간의 창의성과 기계 계산 사이의 간격을架橋하는 생성적 AI이다.

생성적 모델은 인간과 기계 사이의 경계를 흐리게 했다. 트랜스포머 모듈을 사용하는 GPT-4와 같은 모델의 등장으로, 우리는 자연스럽고 맥락이 풍부한 언어 생성에 더 가까이 다가갈 수 있게 되었다. 이러한 발전은 문서 생성, 채팅 봇 대화 시스템, 그리고 심지어 합성 음악 작곡과 같은 응용 분야에 연료를 제공했다.

최근의 빅테크 결정은 그 중요성을 강조한다. 마이크로소프트는 이미 Cortana 앱을 중단하고, 새로운 생성적 AI 혁신에 중점을 두고 있다. 애플도 22.6억 달러의 연구 개발 예산 중 상당 부분을 생성적 AI에 투자했다.

새로운 모델 시대: 생성적 대 판별적

생성적 AI의 이야기는 단지 그 응용 프로그램에 관한 것이 아니라, 근본적으로 그 내부 작동 방식에 관한 것이다. 인공 지능 생태계에서, 두 가지 모델이 존재한다: 판별적 모델과 생성적 모델.

판별적 모델은 대부분의 사람들이 일상 생활에서遭遇하는 모델이다. 이러한 알고리즘은 입력 데이터를 받아서, 목표 출력과 짝지어준다. 예를 들어, 텍스트 번역이나 의료 진단과 같은 작업을 수행한다. 판별적 모델은 매핑과 예측에 관한 것이다.

생성적 모델은 창조자이다. 생성적 모델은 단지 해석이나 예측을 하지 않는다. 대신, 복잡한 출력을 생성한다. 이러한 출력은 실제 값과 관련이 없는 숫자 벡터에서 생성된다.

생성적 모델背后的 기술

생성적 모델은 깊은 신경망에 의존한다. 이러한 네트워크는 인간의 뇌의 기능을 모방하도록 설계되었다. 데이터의 다양한 변화를 포착하고 처리함으로써, 이러한 네트워크는 수많은 생성적 모델의 기반을 제공한다.

생성적 모델은 어떻게 만들어질까? 일반적으로, 이러한 모델은 깊은 신경망으로 구축되며, 데이터의 다양한 변화를 포착하도록 최적화된다. 한 가지 주요 예는 생성적 적대적 네트워크(GAN)이다. 여기서 두 개의 신경망, 생성자와 판별자가, 유일한 교사-학생 관계에서 서로競爭하고 서로로부터 학습한다. 그림에서 스타일 전환까지, 음악 작곡에서 게임 플레이까지, 이러한 모델은 이전에 상상할 수 없던 방식으로 발전하고 확장되고 있다.

이것은 GAN에서 끝나지 않는다. 변분 자동 인코더(VAE)는 생성적 모델 분야의 또 다른 핵심 플레이어이다. VAE는 무작위로 나타나는 숫자를 통해 사진과 같은 이미지를 생성하는 능력으로 인해 두드러진다. 어떻게 할 수 있는가? 이러한 숫자를 잠재 벡터를 통해 처리하면, 인간의 미학의 복잡성을 반영하는 예술이 탄생한다.

생성적 AI 유형: 텍스트에서 텍스트로, 텍스트에서 이미지

트랜스포머와 LLM

구글 브레인의 “Attention Is All You Need” 논문은 텍스트 모델링에 대한 우리의 생각을 바꿨다. 복잡하고 순차적인 아키텍처인 순환 신경망(RNN)이나 합성 신경망(CNN)과는 달리, 트랜스포머 모델은 주의를 기반으로 하는 개념을 도입했다. 이는 본质적으로 입력 텍스트의 다른 부분에 집중하는 것을 의미한다. 이러한 접근 방식의 주요 이점은 병렬화의 용이성이었다. 순차적으로 텍스트를 처리하는 RNN과는 달리, 트랜스포머는 텍스트의 부분을 동시에 처리할 수 있으므로, 대규모 데이터셋에서 훈련을 더 빠르고 효율적으로 만들 수 있다.

: 트랜스포머 모델 아키텍처

긴 텍스트에서, 읽는 모든 단어나 문장이 동일한 중요성을 갖지 않는다. 일부 부분은 맥락에 따라 더 많은 주의를 필요로 한다. 주의 메커니즘은 이러한 관련성이나 연관성을 포착한다.

이를 이해하기 위해, 한 문장을 생각해 보자: “Unite AI는 AI와 로봇 공학 뉴스를 발행합니다.” 다음 단어를 예측하려면 이전 맥락을 이해해야 한다. ‘로봇 공학’이라는 용어는 다음 단어가 로봇 공학 분야의 특정 발전이나 이벤트와 관련이 있을 수 있음을 시사할 수 있다. 반면, ‘발행’은 다음 맥락이 최근의 발행 또는 기사와 관련이 있을 수 있음을 나타낼 수 있다.

: 자체 주의 메커니즘 설명

트랜스포머의 주의 메커니즘은 이러한 선택적 초점을 달성하도록 설계되었다. 입력 텍스트의 다양한 부분의 중요성을 측정하고, 응답을 생성할 때 어디에 “보아야” 하는지 결정한다. 이것은 이전 아키텍처인 RNN이 입력 텍스트의 본질을 하나의 ‘상태’ 또는 ‘메모리’에 넣으려고 시도했던 것과는 다르다.

주의 작동 방식은 키-값检索 시스템과 유사하다. 문장의 다음 단어를 예측하려면, 각 이전 단어는 잠재적인 관련성을 시사하는 ‘키’를 제공하고, 이러한 키가 현재 맥락(또는 쿼리)와 얼마나 잘 일치하는지에 따라 ‘값’ 또는 가중치를 예측에 기여한다.

이러한 고급 AI 딥 러닝 모델은 다양한 응용 프로그램에无缝하게 통합되었다. 구글의 검색 엔진 강화와 함께 BERT, 깃허브의 Copilot, 그리고 대규모 언어 모델(LLM)의 능력을 활용하여 단순한 코드 조각을 완전한 소스 코드로 변환하는 기능을 제공한다.

대규모 언어 모델(LLM)인 GPT-4, Bard, LLaMA는 인간의 언어, 코드, 그리고 더 많은 것을 해석하고 생성하기 위해 설계된 거대한 구조이다. 이러한 모델의 매개변수 수는 수십억에서 수조 개까지 다양하며, 이는 이러한 모델의 정의적 특징 중 하나이다. 이러한 LLM은大量의 텍스트 데이터로 학습되므로, 인간 언어의 복잡성을 이해할 수 있다. 이러한 모델의 주목할만한 특징 중 하나는 “few-shot” 학습 능력이다. 전통적인 모델과는 달리, 이러한 모델은 제한된 수의 예제(또는 “샷”)에서 일반화할 수 있다.

대규모 언어 모델(LLM)의 현재 상태(2023 중반)

모델 이름	개발자	매개변수	가용성 및 접근	주목할만한 기능 및 비고
GPT-4	OpenAI	1.5 트릴리언	오픈 소스가 아님, API 접근만 가능	다양한 작업에서 인상적인 성능, 이미지와 텍스트를 처리할 수 있음, 최대 입력 길이 32,768 토큰
GPT-3	OpenAI	175억	오픈 소스가 아님, API 접근만 가능	few-shot 및 zero-shot 학습 능력展示, 자연어 텍스트 완성을 수행
BLOOM	BigScience	176억	다운로드 가능한 모델, 호스팅 API 사용 가능	글로벌 협력을 통해 개발된 다국어 LLM, 13개의 프로그래밍 언어 지원
LaMDA	구글	173억	오픈 소스가 아님, API 또는 다운로드 없음	대화에 훈련됨, 거의 모든 주제에 대해 대화할 수 있음
MT-NLG	Nvidia/마이크로소프트	530억	신청에 의한 API 접근	메가트론 아키텍처를 사용한 다양한 NLP 작업
LLaMA	Meta AI	7B ~ 65B	신청에 의한 다운로드	AI를 민주화하기 위해 연구, 정부, 학계에 접근을 제공

LLM을 어떻게 사용할 수 있나요?

LLM은 여러 가지 방법으로 사용될 수 있다:

직접 사용: 사전 훈련된 LLM을 텍스트 생성 또는 처리에 사용하는 것. 예를 들어, GPT-4를 사용하여 블로그 게시물을 작성하는 것.
세부 튜닝: 사전 훈련된 LLM을 특정 작업에 맞추는 것, 전이 학습이라고도 한다. 예를 들어, T5를 특정 산업의 문서 요약을 생성하도록 맞추는 것.
정보 검색: LLM을 더 큰 아키텍처의 일부로 사용하여 정보를 가져오고 분류할 수 있는 시스템을 개발하는 것. BERT나 GPT와 같은 모델.

: ChatGPT 세부 튜닝 아키텍처

다중 헤드 주의: 하나가 아닌 여러 개를 사용하는 이유

그러나 단일 주의 메커니즘에 의존하는 것은 제한적일 수 있다. 텍스트의 다양한 단어 또는 시퀀스는 다양한 유형의 관련성이나 연관성을 가질 수 있다. 이것이 다중 헤드 주의가 필요한 이유이다. 하나의 주의 가중치 세트 대신, 다중 헤드 주의는 여러 세트를 사용하여 입력 텍스트에서 더 풍부한 다양한 관계를 포착할 수 있다. 각 주의 “헤드”는 입력의 다른 부분 또는 측면에 집중할 수 있으며, 그들의 결합된 지식은 최종 예측에 사용된다.

ChatGPT: 가장 인기 있는 생성적 AI 도구

GPT의 시작점인 2018년, 모델은 본질적으로 12개의 레이어, 12개의 주의 헤드, 1.2억개의 매개변수로 구성되었다. 이는 BookCorpus라는 데이터셋으로 훈련되었다. 이것은 언어 모델의 미래를 위한 인상적인 시작이었다.

GPT-2는 2019년에 발표되었으며, 레이어와 주의 헤드의 4배 증가를 보였다. 특히, 매개변수 수는 1.5억으로 증가했다. 이 향상된 버전은 Reddit 링크에서 40GB의 텍스트를 포함하는 WebText 데이터셋으로 훈련되었다.

GPT-3는 2020년 5월에 출시되었으며, 96개의 레이어, 96개의 주의 헤드, 그리고 175억개의 매개변수를 보유했다. GPT-3를 구별하는 것은 다양한 훈련 데이터였다. 이는 CommonCrawl, WebText, 영어 위키백과, 책 코퍼스, 그리고 다른 소스를 포함하여 총 570GB의 데이터로 구성되었다.

ChatGPT의 작동 방식은 아직 공개되지 않은 비밀이다. 그러나 ‘인간 피드백에서 강화 학습’이라고 하는 프로세스가 중요하다고 알려져 있다. 이 기술은 이전 ChatGPT 프로젝트에서 유래했으며, GPT-3.5 모델을 작성된 지침과 더 잘 일치하도록 다듬는 데 결정적인 역할을 했다.

ChatGPT의 훈련은 3단계 접근 방식을 포함한다:

감독된 세부 튜닝: 인간이 작성한 대화 입력과 출력을 수집하여 기본 GPT-3.5 모델을 세부 튜닝하는 것.
보상 모델링: 인간이 모델의 다양한 출력을 평가하여, 대화의 맥락을 고려하여 각 출력에 점수를 매기는 보상 모델을 훈련하는 것.
강화 학습: 대화 맥락이 배경에서 진행되며, 기본 모델이 응답을 제안한다. 이 응답은 보상 모델에 의해 평가되고, 최적화를 위해 근사정책 최적화(PPO) 알고리즘이 사용된다.

ChatGPT를 처음 사용하는 사람들에게, 여기에서 포괄적인 시작 가이드를 찾을 수 있다. ChatGPT에서 프롬프트 엔지니어링에 대해 더 깊이 들어가고 싶다면, 우리는 또한 최신 및 최첨단 프롬프트 기술에 대한 가이드를 제공한다.

확산 및 다중 모달 모델

VAE나 GAN과 같은 모델은 출력을 단일 패스로 생성하며, 따라서 생성된 내용에 고정된다. 반면, 확산 모델은 ‘반복적 개선’이라는 개념을 도입했다. 이 방법을 통해, 모델은 이전 단계의 오류를 수정하고, 점진적으로 더 정교한 결과를 생성한다.

확산 모델의 핵심은 ‘부패’와 ‘개선’의 기술에 있다. 훈련 단계에서, 일반적인 이미지는 점진적으로 노이즈를 추가하여 부패시킨다. 이 노이즈가 추가된 버전은 모델에 입력되고, 모델은 이를 ‘덴오이즈’하거나 ‘부패’를 제거하려고 시도한다. 이러한 반복적인 과정에서, 모델은 복원과 노이즈 이해를 학습한다.

: Midjourney에서 생성된 이미지

새로운 이미지 생성은 훈련 이후에 일어난다. 완전히 무작위화된 입력에서 시작하여, 모델의 예측을 사용하여 지속적으로 개선한다. 목표는 최소한의 단계로 깨끗한 이미지를 얻는 것이다. 노이즈의 수준을 제어하는 것은 ‘노이즈 스케줄’을 통해 이루어진다. 이는 확산 라이브러리에서 볼 수 있는 스케줄러와 같은 메커니즘이다.

다중 모달 모델의 중요한 아키텍처적 백본은 U-Net이다. 이는 입력의 공간적 차원을 반영하는 출력을 생성하는 작업에 적합한 합성곱 신경망이다. 이는 다운샘플링과 업샘플링 레이어의 혼합으로 구성되며, 높은 해상도 데이터를 유지하기 위해 복잡하게 연결된다. 이는 이미지 관련 출력에 필수적이다.

생성적 모델의 세계를 더 깊이 들어가면, OpenAI의 DALL-E 2가 텍스트와 시각적 AI 능력의 융합의 훌륭한 예로 나타난다. 이는 3단계 구조를 사용한다:

텍스트 인코더: 텍스트 프롬프트를 잠재 공간 내의 개념적 임베딩으로 변환한다. 이 모델은 빈칸에서 시작하지 않는다. 대신, OpenAI의 CLIP(Contrastive Language-Image Pre-training) 데이터셋을 기반으로 한다. CLIP은 자연어를 사용하여 시각적 개념을 학습하고, 대조적 학습을 통해 이미지와 그에 해당하는 텍스트 설명을 일치시킨다.
프라이어: 텍스트 인코더에서 파생된 텍스트 임베딩은 이미지 임베딩으로 변환된다. DALL-E 2는 이 작업에 자동 회귀와 확산 방법을 모두 테스트했으며, 후자가 더 나은 결과를 보여주었다. 자동 회귀 모델은 트랜스포머와 PixelCNN에서 볼 수 있는 것처럼, 시퀀스에서 출력을 생성한다. 반면에, DALL-E 2에서 사용되는 확산 모델은 텍스트 임베딩의 도움을 받아 랜덤 노이즈를 이미지 임베딩으로 변환한다.
디코더: 이 과정의 절정은, 텍스트 프롬프트와 이전 단계의 이미지 임베딩을 기반으로 최종 시각적 출력을 생성하는 것이다. DALL-E 2의 디코더는 GLIDE라는 모델의 아키텍처를 사용한다. GLIDE는 또한 텍스트提示에서 실감나는 이미지를 생성할 수 있다.

: DALL-E 모델의 간소화된 아키텍처

파이썬 사용자에게 Langchain에 대한 자세한 튜토리얼이 있다. Langchain을 사용하여 기본부터 고급 तक의 모든 것을 다루는 튜토리얼을 확인하라.

생성적 AI의 응용

텍스트 도메인

텍스트부터 시작하여, 생성적 AI는 ChatGPT와 같은 채팅 봇에 의해 근본적으로 바뀌었다. 자연어 처리(NLP)와 대규모 언어 모델(LLM)에 크게 의존하는 이러한 엔티티는 코드 생성, 언어 번역, 요약, 그리고 감성 분석과 같은 작업을 수행할 수 있다. ChatGPT는 광범위하게 채택되어 수백만 명에게 필수적인 도구가 되었다. 이는 LLM을 기반으로 하는 대화 AI 플랫폼에 의해 더욱 강화된다. GPT-4, PaLM, BLOOM과 같은 모델은 텍스트를 생성하고, 프로그래밍을 지원하며, 심지어 수학적 추론도 제공한다.

상업적으로, 이러한 모델은 귀중한 자산이 되고 있다. 기업은 이러한 모델을 다양한 작업에 사용한다. 예를 들어, 위험 관리, 재고 최적화, 그리고 수요 예측과 같은 작업이 있다. 몇 가지 주목할만한 예로는 Bing AI, 구글의 BARD, 그리고 ChatGPT API가 있다.

예술

이미지의 세계는 DALL-E 2의 소개와 함께劇적으로 변했다. 이 기술은 텍스트 프롬프트에서 이미지를 생성할 수 있으며, 예술적 그리고 전문적인 의미를 갖는다. 예를 들어, Midjourney는 이 기술을 사용하여 현실적인 이미지를 생성했다. 이 최근의 게시물 Midjourney를 설명하며, 플랫폼과 프롬프트 엔지니어링의 세부 사항을 설명한다.さらに, Alpaca AI와 Photoroom AI와 같은 플랫폼은 배경 제거, 객체 삭제, 그리고 심지어 얼굴 복원과 같은 고급 이미지 편집 기능을 위해 생성적 AI를 사용한다.

비디오 제작

비디오 제작은 생성적 AI의 영역에서 아직 초기 단계에 있지만, 약속의 증진을 보여주고 있다. Imagen Video, Meta Make A Video, Runway Gen-2와 같은 플랫폼은 비디오 생성의 가능성을 넓히고 있다. 이러한 모델은 디지털 인간 비디오 생성과 같은 작업에 유용하며, Synthesia와 SuperCreator와 같은 플랫폼이 선도하고 있다. 특히, Tavus AI는 개인화된 비디오를 제공하여, 비즈니스에게 유용한 기능을 제공한다.

코드 생성

코딩은 디지털 세계의 필수적인 측면이며, 생성적 AI의 영향을 받지 않은 영역은 없다. ChatGPT는 인기 있는 도구이지만, 코딩 목적으로 개발된 다른 AI 응용 프로그램도 있다. 이러한 플랫폼은 GitHub Copilot, Alphacode, CodeComplete를 포함하며, 텍스트 프롬프트에서 코드를 생성할 수 있다. 흥미로운 점은 이러한 도구의 적응성이다. Codex, GitHub Copilot의 동력원,는 개인의 코딩 스타일에 맞추어 조정될 수 있으며, 생성적 AI의 개인화 잠재력을 강조한다.

결론

인간의 창의성과 기계 계산을 결합하여, 생성적 AI는 귀중한 도구로 발전했다. ChatGPT와 DALL-E 2와 같은 플랫폼은 우리가 상상할 수 있는 것의 경계를 넓히고 있다. 텍스트 생성에서 시각적杰作을 조각하는 것까지, 이러한 응용 프로그램은 광범위하고 다양하다.

기술과 함께, 윤리적 의미도 중요하다. 생성적 AI는 무한한 창의력을 약속하지만, 책임감 있게 사용하고, 잠재적인 편향과 데이터 조작의 힘을 인식하는 것이 중요하다.

ChatGPT와 같은 도구를 사용하여 물을 테스트하는 것이 완벽한 시기이다. 예술가, 코더, 기술愛好者라면, 생성적 AI의 세계는 탐험할 수 있는 가능성으로 가득 차 있다. 혁명은 지평선에 있지 않다. 지금 여기 있다. 그래서, 뛰어들어라!

Related Topics:chatgpt DALL-E deep learning generative ai LLM Midjourney

Aayush Mittal

지난 5년 동안私は Machine Learning과 Deep Learning의 매력적인 세계에 몰두해 왔습니다.私の情熱と専門知識は、AI/ML에 중점을 둔 50개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여했습니다.私の継続的な 호기심은 또한 자연어 처리 분야로私の 관심을 끌었고, 더 깊이 탐구하고 싶은 분야입니다.