사상가

대규모 언어 모델에서 오래된 사실을 최신 상태로 유지하는 3가지 방법

게재

1 년 전

2023년 ２월 24일

GPT3, ChatGPT, BARD와 같은 LLM(Large Language Models)이 오늘날 유행하고 있습니다. 모든 사람은 이러한 도구가 사회에 얼마나 좋은지 또는 나쁜지, 그리고 AI의 미래에 어떤 의미가 있는지에 대한 의견을 가지고 있습니다. Google은 새로운 모델인 BARD가 복잡한 질문을 (약간) 잘못 입력하여 많은 비난을 받았습니다. "제임스 웹 우주 망원경의 새로운 발견에 대해 9살 아이에게 말할 수 있습니까?"라는 질문에 – 챗봇은 2개의 답변을 제공했으며 그 중 1개는 맞고 XNUMX개는 틀렸습니다. 잘못된 것은 첫 번째 "exoplanet" 사진이 JWST에 의해 촬영되었다는 것인데 이는 잘못된 것입니다. 따라서 기본적으로 모델에는 지식 베이스에 잘못된 사실이 저장되어 있습니다. 대규모 언어 모델이 효과적이려면 이러한 사실을 업데이트하거나 새로운 지식으로 사실을 보강하는 방법이 필요합니다.

LLM(Large Language Model) 내부에 팩트가 저장되는 방식을 먼저 살펴보겠습니다. 대규모 언어 모델은 데이터베이스나 파일과 같은 전통적인 의미로 정보와 사실을 저장하지 않습니다. 대신 그들은 방대한 양의 텍스트 데이터에 대해 훈련을 받았고 해당 데이터에서 패턴과 관계를 배웠습니다. 이를 통해 질문에 대해 인간과 같은 응답을 생성할 수 있지만 학습된 정보를 위한 특정 저장 위치가 없습니다. 질문에 대답할 때 모델은 교육을 사용하여 수신한 입력을 기반으로 응답을 생성합니다. 언어 모델이 가지고 있는 정보와 지식은 모델의 메모리에 명시적으로 저장된 결과가 아니라 학습된 데이터에서 학습한 패턴의 결과입니다. 대부분의 최신 LLM이 기반으로 하는 Transformers 아키텍처에는 프롬프트에서 묻는 질문에 대답하는 데 사용되는 사실의 내부 인코딩이 있습니다.

따라서 LLM의 내부 메모리 내부에 있는 사실이 잘못되었거나 오래된 경우 프롬프트를 통해 새로운 정보를 제공해야 합니다. Prompt는 새롭거나 수정된 사실일 수 있는 쿼리 및 지원 증거와 함께 LLM에 전송되는 텍스트입니다. 여기에 접근하는 3가지 방법이 있습니다.

1. LLM의 인코딩된 사실을 수정하는 한 가지 방법은 외부 지식 기반을 사용하여 컨텍스트와 관련된 새로운 사실을 제공하는 것입니다. 이 기술 자료는 관련 정보를 얻기 위한 API 호출이거나 SQL, No-SQL 또는 벡터 데이터베이스에 대한 조회일 수 있습니다. 데이터 엔터티와 엔터티 간의 관계를 저장하는 지식 그래프에서 보다 고급 지식을 추출할 수 있습니다. 사용자가 쿼리하는 정보에 따라 관련 컨텍스트 정보를 검색하여 LLM에 추가 사실로 제공할 수 있습니다. 이러한 사실은 학습 과정을 개선하기 위해 훈련 사례처럼 보이도록 형식화될 수도 있습니다. 예를 들어 모델이 답변을 제공하는 방법을 배우기 위해 여러 질문 답변 쌍을 전달할 수 있습니다.

2. LLM을 보강하는 보다 혁신적이고 비용이 많이 드는 방법은 훈련 데이터를 사용하여 실제로 미세 조정하는 것입니다. 따라서 추가할 특정 사실에 대한 지식 기반을 쿼리하는 대신 지식 기반을 샘플링하여 훈련 데이터 세트를 구축합니다. 미세 조정과 같은 지도 학습 기술을 사용하여 이 추가 지식에 대해 훈련된 LLM의 새 버전을 만들 수 있습니다. 이 프로세스는 일반적으로 비용이 많이 들고 OpenAI에서 미세 조정된 모델을 구축하고 유지 관리하는 데 수천 달러가 들 수 있습니다. 물론 비용은 시간이 지나면서 더 저렴해질 것으로 예상됩니다.

3. 또 다른 옵션은 RL(강화 학습)과 같은 방법을 사용하여 사람의 피드백으로 에이전트를 교육하고 질문에 대답하는 방법에 대한 정책을 학습하는 것입니다. 이 방법은 특정 작업을 잘 수행하는 더 작은 설치 공간 모델을 구축하는 데 매우 효과적이었습니다. 예를 들어, OpenAI에서 출시한 유명한 ChatGPT는 감독 학습과 RL을 사람의 피드백과 결합하여 훈련되었습니다.

요약하면, 이것은 모든 주요 회사가 진입하여 차별화를 보여주고자 하는 고도로 진화하는 공간입니다. 우리는 곧 소매, 의료 및 은행과 같은 대부분의 영역에서 언어의 뉘앙스를 이해하는 인간과 같은 방식으로 대응할 수 있는 주요 LLM 도구를 보게 될 것입니다. 엔터프라이즈 데이터와 통합된 이러한 LLM 기반 도구는 액세스를 간소화하고 적절한 사람이 적시에 적절한 데이터를 사용할 수 있도록 합니다.

관련 주제 :대형 언어 모델 LLM 사상가

다음 위로

AR 안경의 미래는 AI 지원입니다

놓치지 마세요.

AI가 음악 교육을 재편하는 방법

다타라지 라오

Dattaraj Rao, 수석 데이터 과학자 영구 시스템, "Keras to Kubernetes: The Journey of a Machine Learning Model to Production"이라는 책의 저자입니다. Persistent Systems에서 Dattaraj는 컴퓨터 비전, 자연어 이해, 확률적 프로그래밍, 강화 학습, Explainable AI 등의 최신 알고리즘을 탐색하고 의료, 은행 및 산업 영역에서의 적용 가능성을 입증하는 AI 연구실을 이끌고 있습니다. Dattaraj는 기계 학습 및 컴퓨터 비전 분야에서 11개의 특허를 보유하고 있습니다.