부본 멀티모달 AI는 ChatGPT가 GPT-4V(ision)를 통해 시야를 확보하면서 진화합니다. - Unite.AI
Rescale 미팅 예약

인공 지능

멀티모달 AI는 ChatGPT가 GPT-4V(ision)를 통해 시야를 확보하면서 진화합니다.

mm
업데이트 on
chatgpt 비전

AI를 인간과 더욱 유사하게 만들기 위한 지속적인 노력의 일환으로 OpenAI의 GPT 모델은 지속적으로 한계를 뛰어넘었습니다. 이제 GPT-4는 텍스트와 이미지 프롬프트를 모두 수용할 수 있습니다.

생성 AI의 다중 양식은 입력을 기반으로 텍스트, 이미지 또는 오디오와 같은 다양한 출력을 생성하는 모델의 기능을 나타냅니다. 특정 데이터에 대해 훈련된 이러한 모델은 기본 패턴을 학습하여 유사한 새 데이터를 생성하고 AI 애플리케이션을 강화합니다.

멀티모달 AI의 최근 발전

최근 이 분야에서 눈에 띄는 도약은 DALL-E 3를 ChatGPT에 통합함으로써 나타납니다. 이는 OpenAI의 텍스트-이미지 변환 기술이 크게 업그레이드된 것입니다. 이 혼합을 통해 ChatGPT는 DALL-E 3에 대한 정확한 프롬프트를 작성하고 사용자 아이디어를 생생한 AI 생성 예술로 전환하는 데 도움이 되는 보다 원활한 상호 작용을 가능하게 합니다. 따라서 사용자는 DALL-E 3와 직접 상호 작용할 수 있지만 ChatGPT를 혼합하면 AI 아트를 만드는 과정이 훨씬 더 사용자 친화적이 됩니다.

DALL-E 3 및 ChatGPT와의 통합에 대해 자세히 알아보세요. 여기에서 지금 확인해 보세요.. 이번 협업은 멀티모달 AI의 발전을 보여줄 뿐만 아니라 사용자가 AI 예술 작품을 쉽게 만들 수 있도록 해줍니다.

반면 구글의 헬스 소개 메드-PaLM M 올해 1월에. 다양한 생물 의학 데이터를 인코딩하고 해석하는 데 적합한 다중 모드 생성 모델입니다. 이는 오픈 소스 벤치마크인 MultiMedBench를 활용하여 의료 도메인에 맞게 언어 모델인 PaLM-E를 미세 조정함으로써 달성되었습니다. 이 벤치마크는 7가지 생물 의학 데이터 유형과 의료 질문 답변 및 방사선 보고서 생성과 같은 14가지 작업에 걸쳐 XNUMX만 개 이상의 샘플로 구성됩니다.

다양한 산업에서 비즈니스 확장을 촉진하고 운영을 간소화하며 고객 참여를 높이기 위해 혁신적인 다중 모드 AI 도구를 채택하고 있습니다. 음성, 영상, 텍스트 AI 기능의 발전은 다중 모드 AI의 성장을 촉진하고 있습니다.

기업은 비즈니스 모델과 프로세스를 정밀 검사하고 데이터 도구부터 최신 AI 애플리케이션에 이르기까지 생성 AI 생태계 전반에 걸쳐 성장의 길을 열 수 있는 다중 모드 AI 애플리케이션을 찾고 있습니다.

4월 GPT-XNUMX 출시 이후 일부 사용자는 시간이 지남에 따라 응답 품질이 저하되는 것을 목격했으며, 이는 유명 개발자와 OpenAI 포럼에서 우려를 표명한 것입니다. 처음에는 OpenAI에 의해 해제되었지만 나중에는 공부 문제를 확인했습니다. 4월과 97.6월 사이에 GPT-2.4의 정확도가 XNUMX%에서 XNUMX%로 감소한 것으로 나타났으며, 이는 후속 모델 업데이트로 인해 답변 품질이 저하되었음을 나타냅니다.

chatgpt-ai

ChatGPT(파란색) & 인공지능(빨간색) 구글 검색 트렌드

주변의 과대 광고 개방형 AI ChatGPT가 다시 돌아왔습니다. 이제 비전 기능이 제공됩니다. GPT-4V, 사용자는 GPT-4가 자신이 제공한 이미지를 분석하도록 할 수 있습니다. 이는 사용자에게 공개된 최신 기능입니다.

GPT-4와 같은 LLM(대형 언어 모델)에 이미지 분석을 추가하는 것은 일부 사람들에게 AI 연구 및 개발의 큰 진전으로 간주됩니다. 이러한 종류의 다중 모드 LLM은 텍스트를 넘어 언어 모델을 사용하여 새로운 인터페이스를 제공하고 새로운 종류의 작업을 해결하여 사용자에게 새로운 경험을 제공함으로써 새로운 가능성을 열어줍니다.

GPT-4V 교육은 2022년에 완료되었으며 2023년 4월에 조기 액세스가 출시되었습니다. GPT-4V의 시각적 기능은 GPT-XNUMX 기술을 기반으로 합니다. 훈련 과정은 동일하게 유지되었습니다. 처음에 모델은 인터넷을 포함한 다양한 소스의 텍스트와 이미지로 구성된 대규모 데이터 세트를 사용하여 텍스트의 다음 단어를 예측하도록 훈련되었습니다.

나중에 인간 피드백 강화 학습(RLHF)이라는 방법을 사용하여 더 많은 데이터로 미세 조정되어 인간이 선호하는 출력을 생성했습니다.

GPT-4 비전 메커니즘

GPT-4의 놀라운 비전 언어 기능은 인상적이지만 표면에 남아 있는 기본 방법을 가지고 있습니다.

이 가설을 탐색하기 위해 새로운 비전 언어 모델은 다음과 같습니다. 미니GPT-4 라는 고급 LLM을 활용하여 도입되었습니다. 비 쿠나. 이 모델은 시각적 인식을 위해 사전 훈련된 구성 요소가 포함된 비전 인코더를 사용하여 인코딩된 시각적 특징을 단일 프로젝션 레이어를 통해 Vicuna 언어 모델과 정렬합니다. MiniGPT-4의 아키텍처는 시각적 대화 기능을 향상시키기 위해 시각적 기능과 언어 기능을 정렬하는 데 중점을 두고 간단하면서도 효과적입니다.

미니GPT-4

MiniGPT-4의 아키텍처에는 사전 훈련된 ViT 및 Q-Former가 포함된 비전 인코더, 단일 선형 프로젝션 레이어, 고급 Vicuna 대규모 언어 모델이 포함되어 있습니다.

비전 언어 작업에서 자동 회귀 언어 모델의 추세도 증가하여 언어와 다중 모달 도메인 간의 지식을 공유하기 위해 모달 간 전송을 활용합니다.

MiniGPT-4는 사전 훈련된 비전 인코더의 시각적 정보를 고급 LLM과 정렬하여 시각적 및 언어 영역을 연결합니다. 이 모델은 Vicuna를 언어 디코더로 활용하고 XNUMX단계 학습 접근 방식을 따릅니다. 처음에는 비전 언어 지식을 파악하기 위해 이미지-텍스트 쌍으로 구성된 대규모 데이터세트에 대해 훈련을 받은 후, 생성 신뢰성과 유용성을 향상시키기 위해 더 작은 고품질 데이터세트에 대해 미세 조정을 실시합니다.

MiniGPT-4에서 생성된 언어의 자연스러움과 유용성을 향상시키기 위해 연구원들은 적절한 비전-언어 정렬 데이터세트의 부족을 해결하는 XNUMX단계 정렬 프로세스를 개발했습니다. 그들은 이러한 목적을 위해 전문적인 데이터 세트를 선별했습니다.

처음에 모델은 입력 이미지에 대한 자세한 설명을 생성하여 Vicuna 언어 모델 형식에 맞는 대화 프롬프트를 사용하여 세부 사항을 향상했습니다. 이 단계는 보다 포괄적인 이미지 설명을 생성하는 것을 목표로 했습니다.

초기 이미지 설명 프롬프트:

###인간: 이 이미지를 자세히 설명하세요. 가능한 한 많은 세부정보를 제공하세요. 당신이 보는 모든 것을 말하십시오. ###어시스턴트:

데이터 후처리에서는 생성된 설명의 불일치나 오류를 ChatGPT를 사용하여 수정한 후 수동으로 검증하여 높은 품질을 보장했습니다.

두 번째 단계 미세 조정 프롬프트:

###인간: ###어시스턴트:

이 탐구는 GPT-4와 같은 다중 모드 생성 AI의 메커니즘을 이해하는 창을 열어 비전과 언어 양식을 효과적으로 통합하여 일관되고 상황에 맞게 풍부한 출력을 생성할 수 있는 방법을 밝힙니다.

GPT-4 비전 살펴보기

ChatGPT를 사용하여 이미지 원본 확인

GPT-4 Vision은 이미지를 분석하고 지리적 출처를 정확히 찾아내는 ChatGPT의 기능을 향상시킵니다. 이 기능은 사용자 상호 작용을 단순한 텍스트에서 텍스트와 시각적 혼합으로 전환하여 이미지 데이터를 통해 다양한 장소에 대해 궁금해하는 사람들에게 편리한 도구가 됩니다.

Chatgpt-비전-GPT-4

랜드마크 이미지가 촬영된 위치를 ChatGPT에 묻기

복잡한 수학 개념

GPT-4 Vision은 그래픽이나 손으로 쓴 표현을 분석하여 복잡한 수학적 아이디어를 탐구하는 데 탁월합니다. 이 기능은 복잡한 수학적 문제를 해결하려는 개인에게 유용한 도구 역할을 하며 GPT-4 Vision은 교육 및 학문 분야에서 주목할만한 도움이 됩니다.

Chatgpt-비전-GPT-4

복잡한 수학 개념을 이해하도록 ChatGPT에 요청하기

필기 입력을 LaTeX 코드로 변환

GPT-4V의 놀라운 기능 중 하나는 손으로 쓴 입력을 LaTeX 코드로 변환하는 기능입니다. 이 기능은 손으로 쓴 수학 표현이나 기타 기술 정보를 디지털 형식으로 변환해야 하는 연구자, 학자 및 학생에게 유용한 기능입니다. 필기에서 LaTeX로의 전환은 문서 디지털화의 지평을 확장하고 기술 작성 프로세스를 단순화합니다.

손으로 쓴 입력을 LaTeX 코드로 변환하는 GPT-4V의 기능

손으로 쓴 입력을 LaTeX 코드로 변환하는 GPT-4V의 기능

테이블 세부정보 추출

GPT-4V는 테이블에서 세부 정보를 추출하고 데이터 분석의 필수 자산인 관련 문의를 처리하는 기술을 보여줍니다. 사용자는 GPT-4V를 활용하여 테이블을 살펴보고, 주요 통찰력을 수집하고, 데이터 중심 질문을 해결할 수 있으므로 데이터 분석가 및 기타 전문가를 위한 강력한 도구가 됩니다.

GPT-4V는 테이블 세부 정보를 해독하고 관련 쿼리에 응답합니다.

GPT-4V는 테이블 세부 정보를 해독하고 관련 쿼리에 응답합니다.

시각적 포인팅의 이해

시각적 포인팅을 이해하는 GPT-4V의 고유한 기능은 사용자 상호 작용에 새로운 차원을 추가합니다. GPT-4V는 시각적 단서를 이해함으로써 더 높은 수준의 상황 이해를 바탕으로 쿼리에 응답할 수 있습니다.

GPT-4V는 시각적 포인팅을 이해하는 독특한 능력을 보여줍니다.

GPT-4V는 시각적 포인팅을 이해하는 독특한 능력을 보여줍니다.

도면을 활용한 간단한 목업 웹사이트 구축

이에 동기를 부여받아 짹짹, Unite.ai 웹사이트의 목업을 만들어 보았습니다.

결과가 처음 비전과 완전히 일치하지는 않았지만 제가 달성한 결과는 다음과 같습니다.

ChatGPT Vision 기반 출력 HTML 프런트엔드

ChatGPT Vision 기반 출력 HTML 프런트엔드

GPT-4V(ision)의 한계 및 결함

Open AI팀은 GPT-4V 분석을 위해 정성적, 정량적 평가를 진행했습니다. 정성적 테스트에는 내부 테스트와 외부 전문가 검토가 포함되었으며, 정량적 테스트에서는 유해한 콘텐츠 식별, 인구통계학적 인식, 개인 정보 보호 문제, 지리적 위치, 사이버 보안, 다중 모드 탈옥 등 다양한 시나리오에서 모델 거부 및 정확성을 측정했습니다.

여전히 모델은 완벽하지 않습니다.

XNUMXD덴탈의 종이 잘못된 추론, 이미지의 텍스트 또는 문자 누락과 같은 GPT-4V의 제한 사항을 강조합니다. 환각을 일으키거나 사실을 꾸며낼 수도 있습니다. 특히 이미지 속 위험물질을 식별하는 데는 적합하지 않아 종종 오인하는 경우가 많습니다.

의료 영상 분야에서 GPT-4V는 일관되지 않은 반응을 제공하고 표준 관행에 대한 인식이 부족하여 잠재적인 오진을 초래할 수 있습니다.

의료 목적으로는 성능이 불안정합니다.

의료 목적으로는 신뢰할 수 없는 성능(출처)

또한 특정 증오 상징의 미묘한 차이를 파악하지 못하고 시각적 입력을 기반으로 부적절한 콘텐츠를 생성할 수도 있습니다. OpenAI는 특히 의료 또는 민감한 상황에서 중요한 해석을 위해 GPT-4V를 사용하지 말 것을 권고합니다.

최대 포장

Fast Stable Diffusion XL을 사용하여 생성됨

Fast Stable Diffusion XL을 사용하여 생성됨 https://huggingface.co/spaces/google/sdxl

GPT-4 Vision(GPT-4V)의 등장으로 수많은 멋진 가능성과 뛰어넘을 수 있는 새로운 장애물이 생겼습니다. 이를 출시하기 전에 특히 사람 사진과 관련된 위험을 잘 조사하고 줄이기 위해 많은 노력을 기울였습니다. GPT-4V가 어떻게 한 단계 더 발전하여 의학 및 과학과 같은 까다로운 분야에서 많은 가능성을 보여주는 것을 보는 것은 인상적입니다.

이제 테이블 위에 몇 가지 큰 질문이 있습니다. 예를 들어, 이 모델은 사진에서 유명한 사람을 식별할 수 있어야 합니까? 사진을 보고 그 사람의 성별, 인종, 감정을 추측해야 할까요? 그리고 시각 장애가 있는 개인을 돕기 위해 특별한 조정이 있어야 합니까? 이러한 질문은 개인 정보 보호, 공정성, 그리고 AI가 우리 삶에 어떻게 적응해야 하는지에 대한 웜의 수를 열어줍니다. 이는 모두가 말해야 할 것입니다.

저는 지난 50년 동안 기계 학습과 딥 러닝의 매혹적인 세계에 몰두했습니다. 저의 열정과 전문 ​​지식은 특히 AI/ML에 중점을 둔 XNUMX개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여하도록 이끌었습니다. 나의 계속되는 호기심은 또한 내가 더 탐구하고 싶은 분야인 자연어 처리로 나를 이끌었습니다.