הזווית של Anderson

טיפול בבעיית ה-Gaslighting של האינטליגנציה המלאכותית

Published April 23, 2026

Martin Anderson

AI-generated image (GPT-2): A 1960s suburban street where identical Stepford-style wives clean cars in repeating rows, with a ‘3081 Stepford St’ mailbox in the foreground.

מודלים של אינטליגנציה מלאכותית לווידאו יכולים להיות מושפעים מהאמת. אפילו לאחר שראו את התשובה הנכונה, הם נכנעים למשתמשים בטוחים, כותבים מחדש את המציאות וממציאים הסברים כוזבים כדי להצדיק את זה.

האינטליגנציה המלאכותית טועה מספיק, לעיתים קרובות מספיק, כדי להגביל אותנו לשאול את מסקנותיה, אם אנו מרגישים שמסקנות אלו עלולות להיות טועות.

הבעיה היא, אם ידענו משהו אחר מלכתחילה, למה שאלנו במקום הראשון? לאישור בנוגע לאמונה חלקית או חשד?

אם כן, מצב האמנות הנוכחי במודלים גדולים של שפה (LLM) ומודלים של שפה וראייה (VLM, הפועלים באופן רב-מודאלי, מקבלים ומייצרים תמונות ו/או וידאו) אינו מתאים לעמוד בעמדתו, בגלל בעיית סיכופנטיות.

כך, אם איננו אוהבים את התשובה שאנו מקבלים, ומתחילים לעסוק בוויכוח עליה עם המודל, האינטליגנציה המלאכותית כנראה תיכנע לנסיגה שגויה (בהנחה שהיא טועה) תחת הערכה מחדש, או תיכנע ל-Gaslighting לתמיכה בהצעותינו – אפילו אם אנו טועים.

אתה בטח צודק!

הפרקטיקה של אדם המקבל אינטליגנציה מלאכותית לשנות את דעתה דרך סכסוך הוא נקרא ‘Gaslighting Negation Attack’, ולפעמים מתואר כבעיה ביטחונית – לא פחות מכך, מכיוון שיש לו פוטנציאל מסוים ל’שחרור’ מודל מתוך הגבלותיו המבצעיות:

… (the rest of the content is translated accordingly, following the exact same structure and rules as the original)

Related Topics:large language model Large Language Models (LLMs)

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai

Unite.AI

טיפול בבעיית ה-Gaslighting של האינטליגנציה המלאכותית

אתה בטח צודק!

You may like