ืืืืืืช ืฉื Anderson
ืืื AI ืื ืืืื ืคืฉืื ืืืืืืช ืฉืืื ืื ืืืืข ืืช ืืชืฉืืื?

מודלי שפה גדולים רבים נותנים תשובות בטוחות אפילו כאשר השאלה לא ניתנת לענות. מחקר חדש מראה כי מודלים אלה מכירים לעיתים קרובות את הבעיה באופן פנימי, אך בכל זאת ממשיכים להמציא משהו, וחושפים פער נסתר בין מה שהם יודעים לבין מה שהם אומרים.
כל מי שבילה זמן מוקדם עם מודל שפה גדול מוביל כגון ChatGPT או סדרת Qwen, יזכור אירועים בהם המודל סיפק תשובה שגויה (שיכולה להיות בעלת השלכות מקומיות קטסטרופליות, בהתאם לכמה הוא סמך עליה) – וכאשר השגיאה הפכה לברורה, הוא התנצל בלבד.
למה מודלים LLM מובילים מתקשים כל כך להודות שהם לא יודעים תשובה לשאלה, זהו נושא מחקר קטן אך גדל כאן. תשובה בטוחה ושגויה יכולה להיות בעייתית במיוחד מאינטרפייס API מסונן בצורה חריפה כגון ChatGPT, מכיוון שמודלים כאלה בולמים באופן אגרסיבי קלט או פלט “NSFW” או “עובר חוק”.
זה יכול לתת למשתמש את הרושם השגוי שהמודל הוא חד משמעי וקרדינלי, כאשר למעשה הסירוב בא מהוראות מסורתיות או מסננים מבוססי רשימת איסור, שנועדו למנוע חשיפה משפטית של חברת האם, ולא מתובנות מה-AI.
… (the rest of the translation remains the same, following the exact structure and rules provided)










