인공 지능

대규모 언어 모델 평가: 기술 가이드

게재

3 개월 전

2024 년 1 월 29 일

GPT-4, Claude 및 LLaMA와 같은 LLM(대규모 언어 모델)의 인기가 폭발적으로 증가했습니다. 인간과 매우 유사한 텍스트를 생성하는 능력 덕분에 이러한 AI 시스템은 이제 콘텐츠 제작부터 고객 서비스 챗봇까지 모든 분야에 사용되고 있습니다.

하지만 이러한 모델이 실제로 좋은지 어떻게 알 수 있습니까? 새로운 LLM이 지속적으로 발표되고 모두 더 크고 더 우수하다고 주장하는 상황에서 이들의 성과를 어떻게 평가하고 비교할 수 있습니까?

이 포괄적인 가이드에서는 대규모 언어 모델을 평가하기 위한 최고의 기술을 살펴보겠습니다. 각 접근 방식의 장단점, 최적의 적용 시기, LLM 테스트에서 이를 활용할 수 있는 방법을 살펴보겠습니다.

작업별 측정항목

LLM을 평가하는 가장 간단한 방법 중 하나는 표준화된 측정항목을 사용하여 확립된 NLP 작업에서 LLM을 테스트하는 것입니다. 예를 들어:

요약

요약 작업의 경우 다음과 같은 측정항목이 있습니다. RED (Recall-Oriented Understudy for Gisting Evaluation)이 일반적으로 사용됩니다. ROUGE는 모델이 생성한 요약을 사람이 작성한 "참조" 요약과 비교하여 단어나 구문의 중복을 계산합니다.

루즈에는 여러 가지 맛이 있으며 각각 장단점이 있습니다.

루즈-N: n-그램(N 단어 시퀀스)의 중첩을 비교합니다. 루즈-1 유니그램(단일 단어)을 사용합니다. 루즈-2 바이그램 등을 사용합니다. 단어 순서를 캡처한다는 장점이 있지만 너무 엄격할 수 있습니다.
루즈-L: 가장 긴 공통 부분 수열(LCS)을 기반으로 합니다. 단어 순서는 더 유연하지만 주요 사항에 중점을 둡니다.
루즈-W: 중요도에 따라 LCS 일치에 가중치를 부여합니다. ROUGE-L의 개선을 시도합니다.

일반적으로 ROUGE 지표는 빠르고 자동이며 순위 시스템 요약에 적합합니다. 그러나 일관성이나 의미를 측정하지는 않습니다. 요약은 높은 ROUGE 점수를 얻더라도 여전히 무의미할 수 있습니다.

루즈-엔의 공식은 다음과 같습니다.

$루즈엔 = \sum ^{s \in {참조 요약}} \sum ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) \sum ^{s \in {참조 요약}} \sum ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

어디에:

Count_{match}(gram_n) 생성된 요약과 참조 요약 모두의 n-그램 수입니다.
Count(gram_n) 참조 요약의 n-그램 수입니다.

예를 들어 ROUGE-1(유니그램)의 경우:

생성된 요약: "고양이가 앉았습니다."
참고 요약: “고양이가 매트 위에 앉았습니다.”
겹치는 유니그램: “The”, “cat”, “sat”
루즈-1 점수 = 3/5 = 0.6

루즈-L 가장 긴 공통 부분 수열(LCS)을 사용합니다. 단어 순서가 더 유연합니다. 공식은 다음과 같습니다.

$루즈-L = max(길이(생성), 길이(참조)) L CS ( 생성 , 참고 )$

어디에 LCS 가장 긴 공통 부분 수열의 길이입니다.

루즈-W LCS 일치에 가중치를 부여합니다. LCS의 각 경기의 중요성을 고려합니다.

번역

기계 번역 작업의 경우 블루 (이중 언어 평가 언더스터디)는 널리 사용되는 측정 기준입니다. BLEU는 n-gram 정밀도와 간결성 페널티를 사용하여 모델의 출력 번역과 전문적인 인간 번역 간의 유사성을 측정합니다.

BLEU 작동 방식의 주요 측면:

n에서 최대 4까지의 n-그램 중복을 비교합니다(유니그램, 바이그램, 트라이그램, 4그램).
N-그램 정밀도의 기하 평균을 계산합니다.
번역이 참조보다 훨씬 짧은 경우 간결성 페널티를 적용합니다.
일반적으로 범위는 0에서 1까지이며 1은 참조와 완벽하게 일치합니다.

BLEU는 번역 품질에 대한 인간의 판단과 상당히 높은 상관관계가 있습니다. 하지만 여전히 한계가 있습니다.

재현율이나 F1이 아닌 참조에 대한 정밀도만 측정합니다.
다른 표현을 사용하여 창의적인 번역에 어려움을 겪습니다.
번역 트릭을 사용한 "게임"에 취약합니다.

METEOR 및 TER와 같은 다른 번역 측정항목은 BLEU의 약점을 개선하려고 시도합니다. 그러나 일반적으로 자동 측정항목은 번역 품질을 완전히 포착하지 못합니다.

기타 작업

요약 및 번역 외에도 F1, 정확도, MSE 등과 같은 측정항목을 사용하여 다음과 같은 작업에 대한 LLM 성과를 평가할 수 있습니다.

텍스트 분류
정보 추출
질문 답변
감정 분석
문법 오류 감지

작업별 측정항목의 장점은 다음과 같은 표준화된 데이터 세트를 사용하여 평가를 완전히 자동화할 수 있다는 것입니다. 분대 품질보증 및 GLUE 다양한 작업에 대한 벤치마크. 시간이 지남에 따라 모델이 개선됨에 따라 결과를 쉽게 추적할 수 있습니다.

그러나 이러한 측정항목은 초점이 좁기 때문에 전반적인 언어 품질을 측정할 수 없습니다. 단일 작업에 대한 지표에서 우수한 성능을 보이는 LLM은 일반적으로 일관되고 논리적이며 유용한 텍스트를 생성하는 데 실패할 수 있습니다.

연구 벤치마크

LLM을 평가하는 인기 있는 방법은 다양한 주제와 기술을 다루는 광범위한 연구 벤치마크와 비교하여 테스트하는 것입니다. 이러한 벤치마크를 통해 모델을 규모에 맞게 신속하게 테스트할 수 있습니다.

일부 잘 알려진 벤치마크는 다음과 같습니다.

초강력 접착제 – 11가지 다양한 언어 과제로 구성된 도전적인 세트입니다.
GLUE – 9개의 문장 이해 과제 모음. SuperGLUE보다 간단합니다.
MMLU – 57개의 다양한 STEM, 사회 과학, 인문학 과제. 지식과 추론 능력을 테스트합니다.
Winograd 스키마 챌린지 – 상식적인 추론이 필요한 대명사 해결 문제.
ARC – 도전적인 자연어 추론 작업.
헬라스바그 – 상황에 대한 상식적인 추론.
피카 – 다이어그램이 필요한 물리학 질문.

이와 같은 벤치마크를 평가함으로써 연구자들은 수학, 논리, 추론, 코딩, 상식 등을 수행하는 능력에 대해 모델을 신속하게 테스트할 수 있습니다. 올바르게 답변한 질문의 비율은 모델을 비교하기 위한 벤치마크 지표가 됩니다.

그러나 벤치마크의 가장 큰 문제는 훈련 데이터 오염. 많은 벤치마크에는 사전 학습 중에 모델에서 이미 본 예가 포함되어 있습니다. 이를 통해 모델은 다음과 같은 작업을 수행할 수 있습니다.암기하다” 구체적인 질문에 답하고 실제 능력보다 더 나은 성과를 냅니다.

"를 시도하고 있습니다.오염을 제거하다” 중복되는 예시를 제거하여 벤치마크합니다. 그러나 이는 포괄적으로 수행하기가 어렵습니다. 특히 모델이 질문의 다른 표현이나 번역된 버전을 본 경우에는 더욱 그렇습니다.

따라서 벤치마크는 광범위한 기술을 효율적으로 테스트할 수 있지만 실제 추론 능력을 안정적으로 측정하거나 오염으로 인한 점수 인플레이션을 피할 수는 없습니다. 보완적인 평가 방법이 필요합니다.

LLM 자체 평가

흥미로운 접근 방식은 LLM이 다른 LLM의 결과를 평가하도록 하는 것입니다. 아이디어는 "더 쉬운" 작업 개념을 활용하는 것입니다.

LLM에서는 고품질 결과물을 생성하는 것이 어려울 수 있습니다.
그러나 주어진 출력이 고품질인지 판단하는 것은 더 쉬운 작업일 수 있습니다.

예를 들어, LLM은 처음부터 사실적이고 일관된 단락을 생성하는 데 어려움을 겪을 수 있지만 주어진 단락이 논리적으로 의미가 있고 맥락에 맞는지 더 쉽게 판단할 수 있습니다.

따라서 프로세스는 다음과 같습니다.

입력 프롬프트를 첫 번째 LLM에 전달하여 출력을 생성합니다.
입력 프롬프트 + 생성된 출력을 두 번째 "평가자" LLM에 전달합니다.
평가자 LLM에게 결과 품질을 평가하기 위한 질문을 하십시오. 예를 들어 "위 응답이 논리적으로 타당합니까?"

이 접근 방식은 구현이 빠르고 LLM 평가를 자동화합니다. 그러나 몇 가지 과제가 있습니다.

성과는 평가자 LLM의 선택과 프롬프트 문구에 크게 좌우됩니다.
원래 작업의 어려움으로 인해 제약을 받습니다. LLM에게는 복잡한 추론을 평가하는 것이 여전히 어렵습니다.
API 기반 LLM을 사용하는 경우 계산 비용이 많이 들 수 있습니다.

자체 평가는 검색된 정보를 평가하는 데 특히 유망합니다. RAG(검색 증강 생성) 시스템. 추가 LLM 쿼리를 통해 검색된 컨텍스트가 적절하게 사용되는지 확인할 수 있습니다.

전반적으로 자체 평가는 잠재력을 보여 주지만 실행에는 주의가 필요합니다. 이는 인간의 평가를 대체하기보다는 보완합니다.

인간 평가

자동화된 지표와 벤치마크의 한계를 고려할 때 사람의 평가는 여전히 LLM 품질을 엄격하게 평가하기 위한 표준입니다.

전문가는 다음에 대한 상세한 정성적 평가를 제공할 수 있습니다.

정확성과 사실적 정확성
논리, 추리, 상식
일관성, 일관성 및 가독성
톤, 스타일, 목소리의 적절성
문법성과 유창성
창의성과 뉘앙스

모델을 평가하기 위해 인간에게는 일련의 입력 프롬프트와 LLM 생성 응답이 제공됩니다. 그들은 종종 평가 척도와 루브릭을 사용하여 응답의 질을 평가합니다.

단점은 사람이 수동으로 평가하는 데 비용이 많이 들고 느리며 확장이 어렵다는 것입니다. 또한 이를 일관되게 적용하려면 표준화된 기준을 개발하고 평가자 교육이 필요합니다.

일부 연구자들은 사람들이 모델 간의 매치업에 베팅하고 판단하는 토너먼트 스타일 시스템을 사용하여 인간 LLM 평가에 크라우드 펀딩을 제공하는 창의적인 방법을 모색했습니다. 그러나 전체 수동 평가에 비해 적용 범위는 여전히 제한적입니다.

품질이 실제 규모보다 더 중요한 비즈니스 사용 사례의 경우 전문가의 인력 테스트는 비용에도 불구하고 여전히 최고의 표준으로 남아 있습니다. 이는 특히 LLM의 위험한 적용에 해당됩니다.

결론

대규모 언어 모델을 철저하게 평가하려면 단일 기술에 의존하기보다는 보완적인 방법의 다양한 툴킷을 사용해야 합니다.

속도를 위한 자동화된 접근 방식과 정확성을 위한 엄격한 인간 감독을 결합함으로써 우리는 대규모 언어 모델에 대한 신뢰할 수 있는 테스트 방법론을 개발할 수 있습니다. 강력한 평가를 통해 LLM의 엄청난 잠재력을 활용하는 동시에 위험을 책임감 있게 관리할 수 있습니다.

Unite.AI

대규모 언어 모델 평가: 기술 가이드

인공 지능

대규모 언어 모델 평가: 기술 가이드

차례

작업별 측정항목

요약

번역

기타 작업

연구 벤치마크

LLM 자체 평가

인간 평가

결론

최근 게시물

Unite.AI

대규모 언어 모델 평가: 기술 가이드

차례

작업별 측정항목

요약

번역

기타 작업

연구 벤치마크

LLM 자체 평가

인간 평가

결론

너는 좋아할지도 모른다.

최근 게시물