Connect with us

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ง„์‹ค: LLM ์„ฑ๊ณต์„ ์œ„ํ•œ ์ธ๊ฐ„ ์ „๋ฌธ ์ง€์‹์˜ ์ค‘์š”์„ฑ

์‚ฌ์ƒ ๋ฆฌ๋”

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ง„์‹ค: LLM ์„ฑ๊ณต์„ ์œ„ํ•œ ์ธ๊ฐ„ ์ „๋ฌธ ์ง€์‹์˜ ์ค‘์š”์„ฑ

mm

LLM 개발자는 개발을 가속화하고 비용을 절감하기 위해 합성 데이터를 점점 더 많이 사용하고 있다. LLama 3, Qwen 2, DeepSeek R1などの 상위 모델을 개발한 연구자들은 연구 논문에서 모델을 훈련시키기 위해 합성 데이터를 사용했다는 것을 언급했다. 외부에서 보면 완벽한 해결책으로 보인다. 개발을 가속화하고 비용을 절감하는 정보의 무한한 원천이다. 그러나 이 해결책에는 비즈니스 리더가 무시할 수 없는 숨겨진 비용이 있다.

간단히 말해서, 합성 데이터는 LLM과 AI 에이전트를 훈련, 세부 조정, 평가하기 위해 AI 모델에 의해 생성되는 인공 데이터 세트이다. 전통적인 인간 주석과 비교할 때, 이는 데이터 파이프라인을 빠르게 확장할 수 있게 해주며, 이는 빠르게 움직이고 경쟁적인 AI 개발 환경에서 필수적이다.

기업은 합성 데이터를 사용하는 다른 이유가 있을 수 있다. 예를 들어, 금융 또는 의료 환경에서 민감하거나 기밀 정보를 보호하기 위해匿名화된 버전을 생성하는 경우가 있다. 또한 제품 출시 전에 또는 데이터가 외부 클라이언트에 속하는 경우에 합성 데이터는 좋은 대안이 될 수 있다.

그러나 합성 데이터는 AI 개발을 혁신하고 있는가? 간단한答案은 합성 데이터는 큰 잠재력을 가지고 있지만, 엄격한 인간 감시 없이 LLM과 에이전트에 치명적인 취약성을 노출할 수 있다는 것이다. LLM 프로듀서와 AI 에이전트 개발자는 불充分하게 검증된 합성 데이터에 훈련된 AI 모델이 부정확하거나 편향된 출력을 생성하고, 평판 위기를 일으키고, 산업 및 윤리 표준을 준수하지 않는다는 것을 알 수 있다. 합성 데이터를 정제하기 위한 인간 감시를 투자하는 것은 직접적으로 하위 라인을 보호하고, 이해관계자 신뢰를 유지하며, 책임 있는 AI 채택을 보장하는 투자이다.

인간의 입력으로 합성 데이터를 높은 품질의 훈련 데이터로 변환할 수 있다. 합성 데이터를 생성한 후에 세 가지 중요한 이유로 데이터를 정제해야 한다. 첫째, 소스 모델 지식의 격차를 메우는 것이다. 둘째, 데이터 품질을 개선하고 샘플 크기를 줄이는 것이다. 셋째, 인간의 가치와 일치하는 것이다.

고유한 지식을 캡처해야 한다

합성 데이터는 주로 공개적으로 उपलब있는 인터넷 소스에서 훈련된 LLM에 의해 생성되므로, 이는 내재된 한계를 가지고 있다. 공개 콘텐츠는 드물게 실제 작업에서 사용되는 실용적인 지식을 캡처한다. 마케팅 캠페인을 설계하거나, 재무 예측을 준비하거나, 시장 분석을 수행하는 등의 활동은 일반적으로 사적이고 문서화되지 않는다. 또한, 이러한 소스는 미국 중심의 언어와 문화를 반영하며, 이는 글로벌 대표성을 제한한다.

이러한 제한을 극복하기 위해, 우리는 전문가们을 참여시켜 합성 데이터 생성 모델이 커버할 수 없는 영역의 데이터 샘플을 생성할 수 있다. 기업의 예를 다시 돌아가면, 만약 우리의 최종 모델이 재무 예측과 시장 분석을 효과적으로 처리하도록 하려면, 훈련 데이터에는 이러한 분야의 실제 작업이 포함되어야 한다. 이러한 격차를 식별하고 전문가가 생성한 샘플로 합성 데이터를 보완하는 것이 중요하다.

전문가들은 프로젝트 초기에 작업 범위를 정의하기 위해 종종 참여한다. 이는 모델이 수행해야 하는 지식의 특정 영역을 개요하는 분류학을 생성하는 것을 포함한다. 예를 들어, 의료 분야에서는 일반적인 의학을 영양, 심혈관 건강, 알레르기 등과 같은 하위 주제로 나눌 수 있다. 의료에 중점을 둔 모델은 커버해야 하는 모든 하위 영역에서 훈련되어야 한다. 분류학이 전문가에 의해 정의된 후, LLM을 사용하여 일반적인 질문과 답변을 빠르고 규모에 따라 생성할 수 있다. 그러나 인간 전문가들은 이러한 콘텐츠가 정확한 것만 아니라 안전하고 상황에 적절한지 확인하기 위해 검토, 수정, 개선하는 것이 필요하다. 이는 데이터의 정확성을 보장하고 잠재적인 피해를 완화하는 데 필요한 높은 위험 응용 프로그램에서 품질 보증 프로세스이다.

품질이 양보다 중요: 모델 효율성을 위한 더 적은 샘플

도메인 전문가가 LLM과 AI 에이전트를 위한 데이터를 생성할 때, 분류학을 생성하고, 프롬프트를 작성하고, 이상적인 답변을 만들거나, 특정 작업을 시뮬레이션한다. 이러한 모든 단계는 모델의 목적에 따라 신중하게 설계되며, 품질은 해당 분야의 전문가에 의해 보장된다.

합성 데이터 생성은 이 프로세스를 완전히 복제하지 않는다. 이는 데이터를 생성하는 데 사용되는 기본 모델의 강점에 의존하며, 결과품의 품질은 종종 인간이 큐레이션한 데이터와 동등하지 않다. 이는 합성 데이터가 만족할 만한 결과를 얻기 위해 훨씬 더 큰 볼륨이 필요하다는 것을 의미하며, 이는 계산 비용과 개발 시간을 증가시킨다.

복잡한 도메인에서는 인간 전문가만이 식별할 수 있는 미묘한 차이가 있다. 특히 이상치 또는 에지 케이스에서 그렇다. 인간이 큐레이션한 데이터는 일관되게 더 나은 모델 성능을 제공하며, 훨씬 더 작은 데이터 세트에서 그렇다. 데이터 생성 프로세스에 인간 전문 지식을 전략적으로 통합함으로써, 우리는 모델이 효과적으로 수행되기 위해 필요한 샘플의 수를 줄일 수 있다.

우리의 경험에 따르면, 이 문제를 해결하는 가장 좋은 방법은 전문가가 합성 데이터 세트를 구축하는 데 참여하는 것이다. 전문가가 데이터 생성 규칙을 설계하고, 데이터 분류학을 정의하고, 생성된 데이터를 검토 또는 수정할 때, 최종 데이터의 품질은 훨씬 더 높아진다. 이 접근 방식은 클라이언트가 더 적은 데이터 샘플을 사용하여 강력한 결과를 달성할 수 있도록 해주었으며, 이는 생산에 더 빠르고 효율적인 경로를 제공한다.

신뢰 구축: AI 안전성과 일치에서 인간의 대체할 수 없는 역할

자동화된 시스템은 모든 취약성을 예측하거나 인간의 가치와 일치하는 것을 보장할 수 없다. 특히 에지 케이스와 모호한 시나리오에서 vậy. 전문가 검토자는 잠재적인 위험을 식별하고 배포 전에 윤리적인 결과를 보장하는 데 중요한 역할을 한다. 이는 AI가 현재 완전히 제공할 수 없는 보호 계층이다.

따라서, 강력한 레드 팀 데이터 세트를 구축하기 위해 합성 데이터만으로는 충분하지 않다. 프로세스의 초기에 보안 전문가를 참여시키는 것이 중요하다. 그들은 잠재적인 공격의 유형을 매핑하고 데이터 세트의 구조를 안내할 수 있다. LLM을 사용하여 높은 볼륨의 예제를 생성할 수 있다. 이후, 전문가가 데이터를 검증하고 정제하여 실제적이고, 고품질이며, AI 시스템을 테스트하기에 유용한지 확인해야 한다. 예를 들어, LLM은 표준적인 해킹 프롬프트를 수천 개 생성할 수 있지만, 인간 보안 전문가는 미묘한 심리학적 편향을 이용하는 새로운 ‘사회 공학’ 공격을 설계할 수 있다. 자동화된 시스템이 발명하기 어려운 창의적인 위협이다.

인간의 피드백을 사용하는 강화 학습의 경우, 자동화된 피드백을 사용하여 LLM을 정렬하는 데 상당한 진도가 있다. 연구 논문 RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback에서, 연구자들은 AI 기반의 정렬이 많은 경우에 인간의 피드백과 비교할 수 있는 성능을 제공할 수 있다고 보여준다. 그러나 AI 피드백이 모델이 개선됨에 따라 개선되더라도, 우리의 경험에 따르면 RLAIF는 여전히 복잡한 도메인과 에지 케이스 또는 이상치에서 어려움을 겪는다는 것을 알 수 있다. 인간 전문가가 이러한 작업의 미묘한 차이와 상황을 더 잘 다루는 것으로 보인다.

AI 에이전트는 또한 광범위한 안전성 위험을 해결하기 위해 자동화된 테스트를 받는 것이益处가 있다. 가상 테스트 환경은 에이전트의 행동을 시뮬레이션하기 위해 생성된 데이터를 사용한다. 온라인 도구와 상호 작용하거나 웹사이트에서 작업을 수행하는 것과 같은 행동이다. 실제 시나리오에서 테스트 커버리지의 최대화를 위해, 인간 전문 지식은 테스트 케이스를 설계하고, 자동 평가의 결과를 검증하며, 취약성을 보고하는 데 필수적이다.

합성 데이터의 미래

합성 데이터는 특히 오늘날 빠르게 움직이는 환경에서 확장과 빠른 배포가 중요한 대규모 언어 모델 개발을 위한 매우 유용한 기술이다. 합성 데이터 자체에는 근본적인 결함이 없지만, 그 잠재력을 최대한 발휘하고 가장 큰 가치를 제공하기 위해 정제가 필요하다. 자동화된 데이터 생성과 인간 전문 지식을 결합하는 하이브리드 접근 방식은 능력 있고 신뢰할 수 있는 모델을 개발하는 데 매우 효과적인 방법이다. 최종 모델의 성능은 총 볼륨보다는 데이터 품질에 더 많이 의존하기 때문이다. 이 통합 프로세스는 AI를 사용하여 규모를 확장하고 인간 전문가를 사용하여 유효성을 검사하여, 보다 능력 있고 안전성이 개선된 모델을 생성하며, 이는 사용자 신뢰를 구축하고 책임 있는 배포를 보장하는 데 필수적이다.

Ilya Kochik๋Š” Toloka์˜ ๋น„์ฆˆ๋‹ˆ์Šค ๊ฐœ๋ฐœ ๋ถ€์‚ฌ์žฅ์ด๋ฉฐ, ์„ ๋„์ ์ธ GenAI ์—ฐ๊ตฌ์†Œ์˜ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ํŒŒํŠธ๋„ˆ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Š” ๋Ÿฐ๋˜์— ๊ธฐ๋ฐ˜์„ ๋‘๊ณ  ์žˆ์œผ๋ฉฐ, ๊ฐ€์žฅ ์•ž์„  ๋ชจ๋ธ๊ณผ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์„ ์œ„ํ•œ ์ตœ์ฒจ๋‹จ ์ž‘์—…์— ์ „๋ฌธ์ ์œผ๋กœ ์ฐธ์—ฌํ•ฉ๋‹ˆ๋‹ค. ๊ทธ์˜ ๋ฐฐ๊ฒฝ์—๋Š” Google, QuantumBlack (AI by McKinsey), ๋ฐ Bain & Company์—์„œ ๋ฆฌ๋”์‹ญ๊ณผ ๊ธฐ์ˆ ์ ์ธ ์—ญํ• ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.