์ฌ์ ๋ฆฌ๋
์ธ๊ณต์ง๋ฅ์ด ์ธ๊ฐ์ฒ๋ผ ์๊ฐํ ๋: LLM๊ณผ ์์ด์ ํธ์ ๋ง์์ ํ์ํ๋ค

오늘날, LLM과 에이전트는 알고리즘적 “思考”과 인간의 마음 사이의 경계를模糊하게 하는 방식으로 학습, 분석, 및 의사결정을 합니다. 그들이 기반으로 하는 접근법은 이미 우리의 인지 프로세스를 모방하며, 그들의 훈련 규모는 인간의 경험을 수십 배로 초과합니다. 이것은 다음과 같은 질문을 제기합니다: 우리는 우리의 능력을 확장하는 도구를 만들고 있나요, 아니면 아직 예측할 수 없는 결과를 가진 새로운 유형의 마음을 창조하고 있나요?
모델이 어떻게 생각하는가
LLM과 에이전트의 개념을 구별하는 것이 중요합니다. 컴퓨터와의 유사성을 댄다면, LLM은 프로세서와 같은 컴퓨터의 구성 요소와 비교할 수 있습니다. 그러나 에이전트는 메모리, 그래픽 카드, 네트워크와 같은 다양한 모듈이 연결된 전체 시스템, 즉 “메인보드”와 같습니다. 마찬가지로, 에이전트는 하나 이상의 LLM을 포함하는 복잡한 시스템으로, 의사결정 메커니즘과 외부 환경과의 상호작용을 위한 도구로 보충될 수 있습니다.
단일 LLM의 작업을 고려하면, 모든 것이 패턴 매칭으로 귀결됩니다. 그러나 에이전트가 여러 LLM을 연결하면, 우리는 그것이 “思考”한다고 말할 수 있습니다. 그러나 이 과정은 여전히 패턴에 기반합니다. 에이전트는 모델 사이의 상호작용의 논리를 구성합니다. 예를 들어, 하나의 LLM이 작업을 분석하고, 이 분석에 기반하여 에이전트는 다른 LLM이 수행해야 할 동작을 결정합니다.
인간의思考도 유사한 방식으로 작동합니다: 우리는 축적된 지식과 패턴에 의존하고, 적절한 시점에 선택하고, 처리하고, 결론을 내립니다. 이 프로세스를 推論이라고 합니다.
ChatGPT는 인간과 마찬가지로 두 가지 유형의 기억을 가지고 있습니다: 단기 기억과 장기 기억. 차이점은 인간의 경우 이러한 기억 수준에 접근하는 것이 더 복잡하고 항상 선형적이지 않다는 것입니다.
단기 기억은 우리가 현재 작업하고 있는 정보입니다. 사람의 경우, 5분 전에 말한 것을 기억할 수도 있고,忘れる 수도 있습니다. 그러나 GPT는 항상 “컨텍스트 윈도우” 내의 모든 것을 고려합니다. 이 데이터를 건너뛰거나 무시할 수 없습니다.
인간의 장기 기억은 항상 활성화되지 않고 특정 트리거에 의해만 표면화되는 기억으로 구성됩니다: 어린 시절의 기억, 외상, 또는 심리학자와의 작업과 같은 경우입니다. GPT도 유사한 논리를 가지고 있습니다: 특정하게 활성화되지 않는 한 정보를 “회상”하지 않습니다. 예를 들어, “이 질문을 다시 절대 묻지 마세요” 또는 “항상正式하게 나를称하세요”와 같은 지침을 장기 기억에 저장하고 모든 세션에서 적용할 수 있습니다.
또 다른 장기 기억의 예는 저장된 문서입니다.假设您将 GPT에 마케팅 연구를 수행하는 지침을 업로드했습니다. 모델은 이를 기억에 저장할 수 있지만, 이는 모든 질문에 대해 해당 문서를 참조한다는 것을 의미하지 않습니다. “달에 손전등을 비추세요”라고 묻는 경우, GPT는 지침을 무시합니다. 그러나 요청에 문서의 텍스트와 일치하는 키워드가 포함된 경우, 모델은 이를 “회상”할 수 있습니다.
이 메커니즘은 RAG (Retrieval-Augmented Generation)을 통해 구현됩니다. 여기서 모델은 관련된 큐를 통해 저장된 정보에 접근하는 접근 방식입니다.
인공지능과의 대화가 때때로 치료적이고, 다른 때에는 차갑고 로봇적인 이유
최신 언어 모델은 매우 크며, 거대한 양의 데이터, 지식, 및 컨텍스트를 저장합니다. 모든 이러한 정보는 소위 “클러스터”로 조직됩니다. 주제와 의미 영역입니다. 모델은 다양한 소스에서 훈련되었습니다. 소설, 과학 기사, 유튜브 댓글 등입니다.
인공지능과 상호작용할 때,您的 쿼리(프롬프트)는 효과적으로 모델을 특정 클러스터로 направляет.
예를 들어, “뉴욕에서 20년간의 경험을 가진 부동산 변호사입니다. 아파트를 구매하는 데 도움을 주세요”라고 작성하면, 모델은 여러 클러스터를 동시에 활성화합니다: 변호사 → 뉴욕 → 부동산. 결과적으로, 실제 전문가와 상담하는 것과 같은 일관된, 관련性이 있으며 현실적인 응답을 받게 됩니다.
쿼리가 더 개인적이거나 철학적인 주제, 즉 자기 개발 또는 감정과 관련된 경우, 모델은 “다른 클러스터”로 “이동”합니다. 예를 들어, 심리학, 철학, 또는 내적 작업과 같은 경우입니다. 이 경우, 모델의 답변은 놀라울 정도로 인간적이고 심지어 치료적일 수 있습니다.
그러나 너무 일반적이거나 모호한 문장구조의 경우, 모델은 클러스터 구조에서 “길을 잃”고 기본적인 형식의 응답을 제공합니다. 이는 정형적이고 감정의 색彩가 없으며, 공식적입니다.
AI의 응답의 스타일과 깊이는 쿼리에서 모델을 어느 클러스터로 направ하는지에 달려 있습니다.
모델 훈련의 철학과 RLHF
인공지능에는 다양한 학습 접근법이 있습니다. 이것은 철학이라기보다는 전략입니다.
클래식 옵션은 지도 학습입니다. 여기서 모델은 질문과 올바른 답변을 제공받습니다. 모델은 올바른 것으로 간주되는 것을 관찰하고, 이후에 유사한 솔루션을 재생산합니다.
그러나 다른 접근법은 RLHF (Reinforcement Learning from Human Feedback)입니다. 이것은 다른 스타일입니다: 모델은 시도를 해 보고, 성공적인 동작에 대한 “보상”을 받고, 행동을 조정합니다.渐渐地, 모델은 효과적인 전략을 개발합니다.
RLHF는 원료를 완제품으로 만드는 과정과 비교할 수 있습니다. 모델을 사용하기 편하게 만들기 위해 인간의 피드백과 함께巨大한 작업이 필요합니다.
假设私は您에게 직접 이름을 지어주지 않는 객체를 보여줍니다: “시가ケース? 카드 홀더?”您는 주저합니다.私は 단서를 제공합니다: “가까이”, “멀리”, “60% 예스”. 수백 번의 이러한 반복 후,您는猜测합니다: “아, 그것은 지갑입니다.”
LLM은 이러한 방식으로 훈련됩니다. 인간, 주석자, 및 일반적으로 전문가가 평가합니다: 이 답변은 좋습니다, 이 답변은 나쁩니다, 점수를 할당합니다. Keymakr과 같은 회사, 즉 높은 품질의 데이터 주석 및 검증에 전문적인 회사,이 과정에서 핵심 역할을 합니다. 피드백은 또한 일반 사용자로부터 오는 경우가 있습니다: 좋아요, 불만, 반응과 같은 것들입니다. 모델은 이러한 신호를 해석하고, 행동 패턴을 형성합니다.
모델 훈련의 실제
생생한 예는 OpenAI의 에이전트를 사용한 “숨기와 찾기” 게임에서의 강화 학습 훈련입니다.
두 팀이 참여했습니다: “찾는 사람” (빨강)과 “숨는 사람” (파랑). 규칙은 간단했습니다: 찾는 사람이 숨는 사람을 잡으면 점수를 얻습니다. 그렇지 않으면 점수를 잃습니다. 초기에, 에이전트는 기본적인 물리적인 능력만 가지고 있었습니다. 달리기와 점프와 같은 능력입니다. 그러나 사전 정의된 전략은 없었습니다.
초기에는, 찾는 사람이 무작위적으로 행동했고, 상대방을 잡는 것은 우연히 일어났습니다. 그러나 수백만 번의 반복 후, 그들의 행동이 진화했습니다. 숨는 사람이 주변 객체를 사용하여 문을 막고, 장벽을 구축하기 시작했습니다. 이러한 기술은 직접적인 프로그래밍 없이, 반복적인 시도와 성공에 대한 보상을 통해 나타났습니다.
이에 대응하여, 찾는 사람이 점프를 사용하기 시작했습니다. 초기에 무시했던 능력입니다. 여러 번의 실패 후, 점프의 전술적인 가치가 밝혀졌습니다. سپس 숨는 사람이 방어를 더욱 복잡하게 만들었습니다. 찾는 사람의 시야에서 물건을 제거하고, 더 강력한 피난처를 구축했습니다.
이 실험은 수십억 번의 시도, 오류, 보상, 및 패널티의 사이클을 통해, 복잡한 협력적인 행동이 개발자 개입 없이 형성될 수 있음을 보여주었습니다. 더욱이, 에이전트는 통신 메커니즘을 프로그래밍하지 않았음에도 불구하고, 팀워크가 더 효과적임을 증명하면서, 협력적으로 행동하기 시작했습니다.
이것은 큰 언어 모델에서도 마찬가지입니다. 모든 시나리오를 스크립팅하는 것은 불가능합니다: 너무 많은 상황과 너무 많은 변동성이 있습니다. 따라서, 우리는 모델에 固定된 규칙을 가르치지 않습니다. 우리는 모델에 어떻게 학습하는지 가르칩니다.
이것이 RLHF의 가치입니다. 그 없이, LLM과 에이전트는 단지 텍스트 라이브러리일 뿐입니다. 그러나 그것과 함께, 대화 상대가 되어, 적응하고, 수정하고, 본질적으로 진화할 수 있습니다.
다음은 무엇인가?
许多 사람들은 LLM과 에이전트의 개발이 바람직하지 않거나 심지어 위험한 결과를 초래할 수 있는지 궁금해합니다.
중요한 것은 오늘날 우리가 보는 것이 MVP도 아니며, 단지 프로토타입임을 이해하는 것입니다.
진짜 혁신은 아름다운 편지를 작성하거나 그것을 프랑스어로 번역하는 것을 도와주는 것이 아닙니다. 이러한 것은 사소한 일입니다. 주요 방향은 마이크로 태스크와 루틴 프로세스의 자동화입니다. 인간에게는真正로 창의적이고 지적인 태스크나 휴식 시간만 남겨두는 것입니다.
진짜 혁신은 에이전트, 즉 독립적으로 생각하고, 행동하고, 결정할 수 있는 시스템을 중심으로 있습니다. 이것이 오늘날 OpenAI, Google, Meta, 및 기타 회사들이 집중하고 있는 것입니다.
큰 언어 모델은 단지 기초입니다. 진정한 미래는 동적 세계에서 살고, 피드백을 받고, 변화에 적응하는 에이전트를 훈련하는 것입니다.












