הנדסת פרומפטים

מעבר לשרשרת המחשבה: כיצד אופטימיזציה של העדפת מחשבה מקדמת LLM

Published October 15, 2024

Updated April 3, 2026

Alex McFarland

טכניקה חדשה ופורצת דרך, שפותחה על ידי צוות חוקרים מ- Meta, UC Berkeley, ו- NYU, מבטיחה לשפר את הדרך בה מערכות AI מתמודדות עם משימות כלליות. הידועה בשם “אופטימיזציה של העדפת מחשבה” (TPO), שיטה זו מטרתה להפוך מודלי שפה גדולים (LLM) ליותר מחשבתיים ומכוונים בתגובותיהם.

המאמץ השיתופי מאחורי TPO מרכז את המומחיות מחלק מהמוסדות המובילים במחקר AI.

מכניקת אופטימיזציה של העדפת מחשבה

בליבתה, TPO עובדת על ידי עידוד מודלי AI ליצור “צעדי מחשבה” לפני שהם מפיקים תשובה סופית. תהליך זה מחקה תהליכים קוגניטיביים אנושיים, שבהם אנו לעיתים קרובות חושבים על בעיה או שאלה לפני שאנו מבטאים את תגובתנו.

הטכניקה כוללת מספר צעדים מפתח:

המודל מופעל ליצור צעדי מחשבה לפני שהוא עונה על שאילתה.
מוצרים מרובים נוצרים, כל אחד עם קבוצה משלו של צעדי מחשבה ותשובה סופית.
מודל מעריך בוחן רק את התשובות הסופיות, ולא את צעדי המחשבה עצמם.
המודל אז מאומן דרך אופטימיזציה של העדפה על בסיס הערכות אלו.

גישה זו שונה באופן משמעותי מטכניקות קודמות, כגון שרשרת המחשבה (CoT) הפעלה. בעוד CoT שימשה בעיקר למשימות מתמטיות ולוגיות, TPO תוכננה להיות בעלת יותר יישומים רחבים עבור סוגים שונים של שאילתות והוראות. כמו כן, TPO אינה דורשת פיקוח מפורש על תהליך המחשבה, מה שמאפשר למודל לפתח את האסטרטגיות החשיבה היעילות שלו.

הבדל נוסף הוא ש-TPO מתגברת על אתגר הנתונים המוגבלים המכילים תהליכי מחשבה אנושיים. על ידי התמקדות הערכה בפלט הסופי ולא בצעדים הביניימיים, TPO מאפשרת דפוסי חשיבה גמישים ומגוונים יותר להתפתח.

הקמת ניסוי ותוצאות

כדי לבדוק את יעילותה של TPO, החוקרים ערכו ניסויים באמצעות שני בנקי מבחן בולטים בתחום מודלי שפה AI: AlpacaEval ו- Arena-Hard. בנקי מבחן אלו תוכננו להעריך את היכולות הכלליות של מודלי AI לע