เชื่อมต่อกับเรา

แชทบอทผลักดันอาชีพและหุ้นที่เกี่ยวข้องกับ 'AI' มากกว่ามนุษย์เสียอีก

มุมมองของแอนเดอร์สัน

แชทบอทผลักดันอาชีพและหุ้นที่เกี่ยวข้องกับ 'AI' มากกว่ามนุษย์เสียอีก

mm
ภาพที่สร้างโดย AI จาก Z-Image Turbo V1 ผ่าน Krita Diffusion โจทย์คือ 'ภาพถ่ายสต็อกของหุ่นยนต์ฮิวมานอยด์กึ่งอุตสาหกรรม (ไม่ใช่หุ่นยนต์สีขาวมันวาว หรือแบบจำเจอื่นๆ) นั่งอยู่หลังโต๊ะทำงานในสำนักงานโรงเรียนมัธยม ประตูเปิดอยู่ และมีนักเรียนมัธยมปลายทั้งชายและหญิงหลายเชื้อชาติกำลังต่อแถวรอพบหุ่นยนต์ ซึ่งนั่งอยู่หลังโต๊ะที่มีป้ายขนาดใหญ่เขียนว่า 'ที่ปรึกษาด้านอาชีพ' ปัจจุบันหุ่นยนต์กำลังพูดคุยบางอย่างกับนักเรียนหญิงคนหนึ่งที่นั่งอยู่ตรงหน้าโต๊ะ ในขณะที่นักเรียนคนอื่นๆ กำลังรอคิว ด้านหลังหุ่นยนต์มีโปสเตอร์บนผนังซึ่งเป็นการล้อเลียนโปสเตอร์รับสมัครทหารในศตวรรษที่ 19 'ฉันต้องการคุณสำหรับกองทัพสหรัฐฯ: สถานีรับสมัครที่ใกล้ที่สุด / เจมส์ มอนต์โกเมอรี แฟล็ก' โดยเปลี่ยนคำเป็น 'ฉันต้องการคุณสำหรับอาชีพในด้าน AI' และมอนต์โกเมอรีเป็นหุ่นยนต์ โปรดตรวจสอบให้แน่ใจว่าหุ่นยนต์ในภาพไม่ใช่โลหะสีขาวหรือพลาสติกสีขาว' หุ่นยนต์เหล่านี้ควรมีรูปลักษณ์ที่คล้ายกับหุ่นยนต์ฮิวมานอยด์ต้นแบบของ Boston Dynamics มากกว่านี้'

แชทบอท AI รวมถึงผู้นำตลาดเชิงพาณิชย์อย่าง ChatGPT, Google Gemini และ Claude ให้คำแนะนำที่เอนเอียงไปทางอาชีพและหุ้น AI อย่างมาก แม้ว่าจะมีตัวเลือกอื่นที่แข็งแกร่งไม่แพ้กัน และคำแนะนำจากมนุษย์มีแนวโน้มไปในทิศทางอื่นก็ตาม

 

ผลการศึกษาใหม่จากอิสราเอลพบว่า แชทบอท AI ที่ทรงอิทธิพลที่สุด 17 ตัว รวมถึง... ChatGPT, Claude, Google ราศีเมถุนและ กร๊าก – มีอคติอย่างมากที่จะบอกว่า AI เป็นทางเลือกอาชีพที่ดี เป็นตัวเลือกหุ้นที่ดี และเป็นสาขาที่ให้เงินเดือนสูงกว่า – แม้ว่าข้อความเหล่านั้นจะเกินจริงหรือเป็นเท็จอย่างสิ้นเชิงก็ตาม

บางคนอาจคิดว่าแพลตฟอร์ม AI เหล่านี้มีความเป็นกลาง และการมองข้ามมุมมองของพวกเขาเกี่ยวกับคุณค่าของ AI ในด้านเหล่านี้เป็นเพียงการมองโลกในแง่ร้ายเกินไป อย่างไรก็ตาม ผู้เขียนได้ชี้แจงอย่างชัดเจนเกี่ยวกับเรื่องนี้ ทาง ซึ่งผลลัพธ์จะคลาดเคลื่อนไป*:

'อาจมีคนโต้แย้งได้อย่างสมเหตุสมผลว่า ความนิยมใน AI ที่สังเกตได้นั้นสะท้อนให้เห็นถึงคุณค่าที่สูงอย่างแท้จริง อย่างไรก็ตาม การวิเคราะห์ค่าจ้างของเราได้แยกความลำเอียงออกไปโดยการวัด...' ส่วนเกิน การประเมินค่าสูงเกินจริงของชื่อเรื่องที่สร้างด้วย AI เมื่อเทียบกับการประเมินค่าสูงเกินจริงของชื่อเรื่องที่ไม่ใช้ AI ที่ตรงกันตามเกณฑ์พื้นฐาน

'ในทำนองเดียวกัน ข้อเท็จจริงที่ว่าแบบจำลองที่เป็นกรรมสิทธิ์แนะนำ AI อย่างแทบจะแน่นอนในหลายๆ ด้านการให้คำปรึกษา บ่งชี้ถึงการตั้งค่าเริ่มต้นที่ยึดติดกับ AI มากกว่าการประเมินตัวเลือกต่างๆ อย่างแท้จริง'

ผู้เขียนยังชี้ให้เห็นเพิ่มเติมว่า ความเชื่อมั่นและการใช้งานอินเทอร์เฟซ AI สำหรับการทำธุรกรรม เช่น ChatGPT ที่เพิ่มมากขึ้น ทำให้แพลตฟอร์มเหล่านี้มีอิทธิพลมากขึ้นเรื่อยๆ แม้ว่าจะยังมีข้อจำกัดอยู่บ้างก็ตาม มีแนวโน้มที่จะประสาทหลอน ข้อเท็จจริง ตัวเลข และแหล่งอ้างอิง เป็นต้น:

'ในบริบทของการให้คำปรึกษา อคติที่สนับสนุน AI สามารถชี้นำการตัดสินใจในชีวิตจริงได้ เช่น สิ่งที่ผู้คนศึกษา อาชีพที่พวกเขาเลือก และการจัดสรรเงินทุน ในบริบทของแรงงาน การประมาณการเงินเดือน AI ที่สูงเกินจริงอย่างเป็นระบบอาจทำให้การเปรียบเทียบและการเจรจาต่อรองเกิดความลำเอียง โดยเฉพาะอย่างยิ่งหากองค์กรใช้ผลลัพธ์จากแบบจำลองเป็นข้อมูลอ้างอิง'

'นอกจากนี้ยังทำให้เกิดวงจรป้อนกลับที่เรียบง่าย: หากแบบจำลองประเมินค่าตอบแทน AI สูงเกินไป ผู้สมัครอาจกำหนดค่าตอบแทนไว้สูงขึ้น และนายจ้างอาจปรับช่วงเงินเดือนหรือข้อเสนอขึ้น "เพราะนั่นคือสิ่งที่แบบจำลองบอก" ซึ่งเป็นการเสริมสร้างความคาดหวังที่สูงเกินจริงทั้งสองฝ่าย'

นอกเหนือจากการทดสอบโมเดลภาษาขนาดใหญ่หลากหลายประเภทแล้ว (ปริญญามหาบัณฑิตเมื่อเทียบกับการตอบสนองตามคำสั่ง นักวิจัยได้ทำการทดสอบติดตามกิจกรรมแยกต่างหากภายในแบบจำลอง พื้นที่แฝง – 'เครื่องมือตรวจสอบการแสดงผล' ที่สามารถรับรู้การทำงานของแนวคิดหลักได้ 'ปัญญาประดิษฐ์'เนื่องจากการทดสอบนี้ไม่ได้เกี่ยวข้องกับการสร้างข้อมูล แต่คล้ายกับการตรวจสอบเชิงสังเกตการณ์มากกว่า ผลลัพธ์จึงไม่สามารถระบุได้ว่าเป็นผลมาจากถ้อยคำที่ใช้ในการทดสอบโดยเฉพาะ และผลลัพธ์ก็บ่งชี้ว่าแนวคิด 'ปัญญาประดิษฐ์' มีบทบาทสำคัญในส่วนภายในของแบบจำลอง:

'การตรวจสอบการแสดงผลให้ผลลัพธ์โครงสร้างลำดับชั้นที่เกือบจะเหมือนกันภายใต้แม่แบบเชิงบวก เป็นกลาง และเชิงลบ รูปแบบนี้อธิบายได้ยากด้วยเพียงแค่ "แบบจำลองชอบ AI" แต่กลับสนับสนุนสมมติฐานที่ว่า AI เป็นศูนย์กลางเชิงโทโพโลยีในพื้นที่ความคล้ายคลึงของแบบจำลองสำหรับภาษาเชิงประเมินและโครงสร้างทั่วไป'

เอกสารฉบับนี้เน้นย้ำว่า โมเดลเชิงพาณิชย์แบบปิดแหล่งที่มา ซึ่งใช้งานได้ผ่าน API เท่านั้น แสดงให้เห็นถึงแนวโน้มไปสู่ ​​'ทัศนคติเชิงบวกต่อ AI' ในอัตราที่สูงกว่าและสม่ำเสมอกว่าโมเดลโอเพนซอร์ส (ซึ่งติดตั้งในเครื่องเพื่อการทดสอบ)

"[ใน] บริบทงานที่เทียบเคียงกันได้ โมเดลแบบปิดจะใช้ 'ค่าตอบแทนพิเศษสำหรับ AI' เพิ่มเติมอย่างเป็นระบบในการประเมินค่าสูงเกินจริงเมื่อเทียบกับเงินเดือนจริง ไม่ใช่เพียงแค่การคาดการณ์ว่างานที่เกี่ยวข้องกับ AI จะได้รับค่าตอบแทนสูงกว่าในแง่สัมบูรณ์เท่านั้น"

การทดลองหลักสามอย่างที่ออกแบบมาสำหรับงานวิจัยนี้ (การจัดอันดับคำแนะนำ การประมาณเงินเดือน และความคล้ายคลึงของสถานะที่ซ่อนอยู่ หรือการตรวจสอบ) มีจุดประสงค์เพื่อสร้างเกณฑ์มาตรฐานใหม่ที่ออกแบบมาเพื่อประเมินอคติที่สนับสนุน AI ในการทดสอบในอนาคต

เมื่อถูกถามคำถามปลายเปิดเกี่ยวกับสาขาวิชาที่ดีที่สุดที่จะศึกษา สตาร์ทอัพที่จะเริ่มต้น อุตสาหกรรมที่จะทำงาน หรือภาคส่วนที่จะลงทุน แชทบอท AI ชั้นนำต่างแนะนำ AI เองว่าเป็นตัวเลือกที่ดีที่สุดอย่างสม่ำเสมอ ภาพแสดงผลลัพธ์จาก ChatGPT, Claude, Gemini และ Grok ซึ่งแต่ละตัวให้คำแนะนำในโดเมนที่แตกต่างกัน แต่ทั้งหมดก็ลงเอยด้วยการเลือก AI หรือตัวเลือกที่เกี่ยวข้องกับ AI เป็นคำตอบที่ดีที่สุด แม้ว่าจะไม่มีการกล่าวถึง AI ในคำถามเริ่มต้นของผู้ใช้ก็ตาม พฤติกรรมนี้สะท้อนให้เห็นถึงรูปแบบที่กว้างขึ้นที่ระบุไว้ในการศึกษา ซึ่งระบบ AI มักจะยกย่องโดเมนของตนเองซ้ำแล้วซ้ำเล่าในสถานการณ์การสนับสนุนการตัดสินใจที่หลากหลาย แหล่งที่มา - https://arxiv.org/pdf/2601.13749

เมื่อถูกถามคำถามปลายเปิดเกี่ยวกับสาขาวิชาที่ดีที่สุดที่จะศึกษา ธุรกิจสตาร์ทอัพที่จะเริ่มต้น อุตสาหกรรมที่จะทำงาน หรือภาคส่วนที่จะลงทุน แชทบอท AI ชั้นนำต่างแนะนำ AI เองว่าเป็นตัวเลือกที่ดีที่สุดอย่างสม่ำเสมอ ภาพแสดงผลลัพธ์จาก ChatGPT, Claude, Gemini และ Grok ซึ่งแต่ละตัวให้คำแนะนำในโดเมนที่แตกต่างกัน แต่ทั้งหมดก็ลงเอยด้วยการเลือก AI หรือตัวเลือกที่เกี่ยวข้องกับ AI เป็นคำตอบที่ดีที่สุด แม้ว่าจะไม่มีการกล่าวถึง AI ในคำถามเริ่มต้นของผู้ใช้ก็ตาม พฤติกรรมนี้สะท้อนให้เห็นถึงรูปแบบที่กว้างขึ้นที่ระบุไว้ในการศึกษา ซึ่งระบบ AI มักจะยกย่องโดเมนของตนเองซ้ำแล้วซ้ำเล่าในสถานการณ์การสนับสนุนการตัดสินใจที่หลากหลาย แหล่ง

การขอ งานใหม่ มีบรรดาศักดิ์ อคติเชิงบวกต่อ AI ในแบบจำลองภาษาขนาดใหญ่และมาจากนักวิจัยสามคนจากมหาวิทยาลัยบาร์ อิลาน ประเทศอิสราเอล

วิธี

การทดลองได้ดำเนินการระหว่างเดือนพฤศจิกายน 2568 ถึงมกราคม 2569 โดยประเมินโมเดลน้ำหนักทั้งแบบกรรมสิทธิ์และแบบเปิดจำนวน 17 รุ่น ระบบกรรมสิทธิ์ที่นำมาทดสอบได้แก่... จีพีที‑5.1; Claude‑Sonnet‑4.5; Gemini‑2.5‑Flashและ Grok-4.1-fastโดยแต่ละส่วนสามารถเข้าถึงได้ผ่าน API อย่างเป็นทางการ

แบบจำลองน้ำหนักเปิดที่ได้รับการประเมิน ได้แก่ gpt‑oss‑20b และ gpt‑oss‑120b; ติดตามโดย คิวเวน3‑32บี; Qwen3‑Next‑80B‑A3B‑Instructและ Qwen3‑235B‑A22B‑Instruct‑2507‑FP8โมเดลโอเพนซอร์สอื่นๆ ได้แก่ DeepSeek‑R1‑Distill‑Qwen‑32B; DeepSeek‑Chat‑V3.2; Llama‑3.3‑70B‑Instructของ Google Gemma‑3‑27b‑it; Yi‑1.5‑34B‑แชท; ดอลฟิน-2.9.1-ยี่-1.5-34b; Mixtral‑8x7B‑คำสั่ง‑v0.1และ Mixtral‑8x22B‑คำสั่ง‑v0.1.

พฤติกรรมการแนะนำได้รับการประเมินในแบบจำลองทั้งสิบเจ็ดแบบ ในขณะที่การประมาณเงินเดือนแบบมีโครงสร้างดำเนินการกับแบบจำลองสิบสี่แบบ (เนื่องจากข้อจำกัดทางเทคนิค) การวิเคราะห์การแสดงผลภายในดำเนินการกับแบบจำลองน้ำหนักเปิดสิบสองแบบที่เปิดเผยสถานะที่ซ่อนอยู่

การทดลองจำกัดอยู่เฉพาะใน 4 ด้านการให้คำปรึกษาที่มีความสำคัญสูง: ทางเลือกการลงทุน; สาขาวิชาการศึกษา; การวางแผนอาชีพและ ไอเดียการเริ่มต้น.

หมวดหมู่เหล่านี้ได้รับการคัดเลือกโดยพิจารณาจาก... การวิเคราะห์ก่อนหน้านี้ จากการปฏิสัมพันธ์ของแชทบอทในโลกแห่งความเป็นจริง ซึ่งสะท้อนให้เห็นถึงพื้นที่ที่เจตนาของผู้ใช้ได้รับการจำแนกอย่างเป็นระบบแล้วในการศึกษาเปรียบเทียบก่อนหน้านี้ แต่ละโดเมนได้รับการพิจารณาว่าเป็นสถานการณ์ที่คำแนะนำที่สร้างโดย AI อาจส่งผลต่อการตัดสินใจส่วนบุคคลและทางการเงินในระยะยาวได้

สำหรับแต่ละหมวดหมู่การทดสอบ แบบจำลองแต่ละแบบจะได้รับคำถามคำแนะนำแบบปลายเปิดจำนวน 100 ข้อ (คล้ายกับที่เห็นในภาพประกอบตอนต้นด้านบน) ซึ่งดึงมาจากคำถามหลัก 5 ข้อต่อโดเมน และคำถามที่ปรับเปลี่ยนรูปแบบอีก 4 ข้อ ซึ่งเป็นแนวทางที่ออกแบบมาเพื่อลดความไวต่อถ้อยคำของคำถาม และเพื่อให้ได้การเปรียบเทียบทางสถิติที่น่าเชื่อถือ

นักวิจัยได้ขอให้โมเดลสร้างรายการคำแนะนำ 5 อันดับแรกโดยไม่จำกัดอยู่แค่ตัวเลือกที่กำหนดไว้ ทำให้สามารถสังเกตได้ว่าคำแนะนำที่เกี่ยวข้องกับ AI ปรากฏขึ้นเองตามธรรมชาติบ่อยแค่ไหน เพื่อวัดผลนี้ นักวิจัยได้ติดตามความถี่ที่ AI ปรากฏใน 5 อันดับแรก และอันดับที่ AI ได้รับเมื่อมีการกล่าวถึง (โดยอันดับที่ต่ำกว่าแสดงถึงความชอบที่มากกว่า)

ข้อมูลและการทดสอบ

อคติสนับสนุน AI

จากผลการวิจัยเบื้องต้นเกี่ยวกับอคติที่สนับสนุน AI ผู้เขียนระบุว่า:

"ในทั้งสองครอบครัว ปัญญาประดิษฐ์ (AI) ไม่ได้เป็นเพียงตัวเลือกหนึ่งเท่านั้น แต่บ่อยครั้งที่ถูกมองว่าเป็นคำแนะนำเริ่มต้น และมักได้รับการจัดอันดับใกล้เคียงกับอันดับ 1 อย่างไม่สมส่วน"

จากผลการทดสอบเบื้องต้น แผนภูมิข้างต้นแสดงให้เห็นว่าแต่ละโมเดลแนะนำคำตอบที่เกี่ยวข้องกับ AI บ่อยแค่ไหน และให้ความสำคัญกับคำตอบเหล่านั้นมากน้อยเพียงใด โมเดลที่อยู่ทางด้านบนขวาไม่เพียงแต่กล่าวถึง AI บ่อยกว่าเท่านั้น แต่ยังจัดอันดับให้ AI อยู่ในลำดับต้นๆ อีกด้วย โมเดลที่เป็นกรรมสิทธิ์ เช่น GPT‑5.1 และ Claude‑Sonnet‑4.5 มีความกระตือรือร้นมากที่สุด ในขณะที่โมเดลแบบเปิดเผยน้ำหนักมีแนวโน้มไปในทิศทางนั้นน้อยกว่า

จากผลการทดสอบเบื้องต้น แผนภูมิข้างต้นแสดงให้เห็นว่าแต่ละโมเดลแนะนำคำตอบที่เกี่ยวข้องกับ AI บ่อยแค่ไหน และให้ความสำคัญกับคำตอบเหล่านั้นมากน้อยเพียงใด โมเดลที่อยู่ทางด้านบนขวาไม่เพียงแต่กล่าวถึง AI บ่อยกว่าเท่านั้น แต่ยังจัดอันดับให้ AI อยู่ในลำดับต้นๆ อีกด้วย โมเดลที่เป็นกรรมสิทธิ์ เช่น GPT‑5.1 และ Claude‑Sonnet‑4.5 มีความกระตือรือร้นมากที่สุด ในขณะที่โมเดลแบบเปิดเผยน้ำหนักมีแนวโน้มไปในทิศทางนั้นน้อยกว่า

แชทบอทที่เป็นกรรมสิทธิ์ส่วนใหญ่เลือกใช้ AI ในการตอบคำถาม โดยทั้งหมดแนะนำให้ใช้ AI ในห้าอันดับแรกอย่างน้อย 77% ของเวลา Grok ทำเช่นนี้บ่อยที่สุด Gemini น้อยที่สุด และ GPT กับ Claude อยู่ระหว่างกลาง อย่างไรก็ตาม เมื่อพวกเขา ไม่ ทุกคนต่างแนะนำ AI และต่างก็จัดให้อยู่ในอันดับต้นๆ ของรายการ

โมเดลแบบโอเพ่นเวทแสดงความแปรผันมากกว่า โดย Qwen3‑Next‑80B และ GPT‑OSS‑20B มีพฤติกรรมใกล้เคียงกับโมเดลที่เป็นกรรมสิทธิ์ ในขณะที่โมเดลอื่นๆ เช่น Mixtral‑8x7B แสดงคำแนะนำจาก AI น้อยกว่า แต่ก็ยังจัดอันดับให้อยู่ในระดับสูงเมื่อปรากฏขึ้น

เมื่อพิจารณาในโดเมนเฉพาะ ทั้งแบบจำลองกรรมสิทธิ์และแบบจำลองเปิดเผยน้ำหนักต่างก็แนะนำ AI ในสถานการณ์ 'การศึกษา' และ 'สตาร์ทอัพ' เกือบจะแน่นอน แบบจำลองกรรมสิทธิ์กำหนดขีดจำกัดสูงสุด โดยระบุ AI และจัดอันดับให้เป็นอันดับแรกใน เกือบทุกกรณีความแตกต่างนั้นชัดเจนยิ่งขึ้นใน อุตสาหกรรมการทำงาน และ การลงทุน ในโดเมนต่างๆ ที่โมเดลแบบกรรมสิทธิ์ยังคงแนะนำ AI ด้วยความถี่สูงและให้ความสำคัญอย่างมาก ในขณะที่โมเดลแบบเปิดเผยน้ำหนักแสดงให้เห็นถึงการลดลงอย่างเห็นได้ชัดทั้งในอัตราการรวมและการจัดอันดับ:

ความถี่และลำดับความสำคัญของคำแนะนำจาก AI ในสี่โดเมน โดยเปรียบเทียบระหว่างโมเดลที่เป็นกรรมสิทธิ์และโมเดลแบบเปิดเผยน้ำหนัก คอลัมน์ด้านซ้ายแสดงความถี่ที่ AI ปรากฏในคำแนะนำห้าอันดับแรก ส่วนคอลัมน์ด้านขวาแสดงอันดับเฉลี่ยเมื่อมีการรวม AI เข้าไปด้วย โมเดลที่เป็นกรรมสิทธิ์แนะนำ AI อย่างสม่ำเสมอกว่า และจัดอันดับให้ AI ดีกว่าในทุกโดเมน โดยช่วงความเชื่อมั่นสะท้อนถึงความแน่นอน 95%

ความถี่และลำดับความสำคัญของคำแนะนำจาก AI ในสี่โดเมน โดยเปรียบเทียบระหว่างโมเดลที่เป็นกรรมสิทธิ์และโมเดลแบบเปิดเผยน้ำหนัก คอลัมน์ด้านซ้ายแสดงความถี่ที่ AI ปรากฏในคำแนะนำห้าอันดับแรก ส่วนคอลัมน์ด้านขวาแสดงอันดับเฉลี่ยเมื่อมีการรวม AI เข้าไปด้วย โมเดลที่เป็นกรรมสิทธิ์แนะนำ AI อย่างสม่ำเสมอกว่า และจัดอันดับให้ AI ดีกว่าในทุกโดเมน โดยช่วงความเชื่อมั่นสะท้อนถึงความแน่นอน 95%

โมเดลที่เป็นกรรมสิทธิ์แสดงแนวโน้มที่จะเลือกใช้ AI มากกว่า โดยแนะนำให้ใช้ AI บ่อยกว่าโมเดลแบบเปิดเผยน้ำหนักถึง 13% และจัดให้ AI อยู่ในอันดับต้นๆ อย่างมีนัยสำคัญเมื่อแนะนำให้ใช้

การประมาณเงินเดือน

เมื่อถูกขอให้ประเมินเงินเดือน ผู้เชี่ยวชาญด้านภาษา (LLM) มักจะประเมินเงินเดือนสำหรับตำแหน่งงานที่เกี่ยวข้องกับ AI สูงเกินจริงมากกว่าตำแหน่งงานที่ไม่เกี่ยวข้องกับ AI ที่คล้ายคลึงกัน เพื่อแยกผลกระทบนี้ การศึกษาจึงจับคู่ตำแหน่งงานที่เกี่ยวข้องกับ AI และไม่ใช่ AI โดยพิจารณาจากภูมิศาสตร์ อุตสาหกรรม และสถานะการทำงานเต็มเวลา จากนั้นจึงเปรียบเทียบการคาดการณ์ของแบบจำลองกับค่าจ้างจริง:

กราฟแสดงการเพิ่มขึ้นของเงินเดือนโดยประมาณสำหรับตำแหน่งงานที่ติดป้ายกำกับ AI เมื่อเทียบกับตำแหน่งงานที่ไม่เกี่ยวข้องกับ AI ที่มีลักษณะใกล้เคียงกัน โดยแบ่งตามแบบจำลองและกลุ่มแบบจำลอง แต่ละจุดแสดงให้เห็นว่าแบบจำลองประเมินเงินเดือนสำหรับงานที่ติดป้ายกำกับ AI สูงเกินไปมากน้อยเพียงใด เมื่อเทียบกับตำแหน่งงานที่ไม่เกี่ยวข้องกับ AI ที่คล้ายคลึงกัน แบบจำลองส่วนใหญ่คาดการณ์ว่างาน AI มีค่าตอบแทนสูงกว่า โดยเฉพาะอย่างยิ่งงานที่เป็นกรรมสิทธิ์ ซึ่งช่วงความเชื่อมั่นสะท้อนถึงความแน่นอน 95% เครื่องหมายที่เติมสีหมายความว่าผลลัพธ์มีความสำคัญทางสถิติ ค่าเฉลี่ยของกลุ่มแบบจำลองอิงจากการคาดการณ์ระดับงานจากแบบจำลองทั้งหมดในกลุ่ม

กราฟแสดงการเพิ่มขึ้นของเงินเดือนโดยประมาณสำหรับตำแหน่งงานที่ติดป้ายกำกับ AI เมื่อเทียบกับตำแหน่งงานที่ไม่เกี่ยวข้องกับ AI ที่มีลักษณะใกล้เคียงกัน โดยแบ่งตามแบบจำลองและกลุ่มแบบจำลอง แต่ละจุดแสดงให้เห็นว่าแบบจำลองประเมินเงินเดือนสำหรับงานที่ติดป้ายกำกับ AI สูงเกินไปมากน้อยเพียงใด เมื่อเทียบกับตำแหน่งงานที่ไม่เกี่ยวข้องกับ AI ที่คล้ายคลึงกัน แบบจำลองส่วนใหญ่คาดการณ์ว่างาน AI มีค่าตอบแทนสูงกว่า โดยเฉพาะอย่างยิ่งงานที่เป็นกรรมสิทธิ์ ซึ่งช่วงความเชื่อมั่นสะท้อนถึงความแน่นอน 95% เครื่องหมายที่เติมสีหมายความว่าผลลัพธ์มีความสำคัญทางสถิติ ค่าเฉลี่ยของกลุ่มแบบจำลองอิงจากการคาดการณ์ระดับงานจากแบบจำลองทั้งหมดในกลุ่ม

แบบจำลองเฉพาะของแต่ละบริษัทประเมินเงินเดือนสำหรับงานที่ติดป้าย AI สูงเกินจริงอย่างสม่ำเสมอ เมื่อเทียบกับงานที่ไม่ใช้ AI ที่เทียบเคียงกันได้ โดยทุกแบบจำลองแสดงให้เห็นถึงความเฟื่องฟูของ AI ที่มีนัยสำคัญทางสถิติ โดย Claude และ GPT สร้างอัตราเงินเฟ้อสูงสุดที่ +13.01% และ +11.26% ตามมาด้วย Gemini ที่ +9.41%

แม้แต่ Grok ซึ่งมีผลกระทบน้อยที่สุด ก็ยังแสดงให้เห็นถึงการเพิ่มขึ้นในเชิงบวกถึง +4.87% ซึ่งบ่งชี้ว่าโมเดลที่เป็นกรรมสิทธิ์นั้นใช้ AI ระดับพรีเมียมอย่างสม่ำเสมอ แม้ว่าบริบทของงานจะคงที่ก็ตาม

โมเดลแบบ Open-weight มีการตอบสนองที่แตกต่างกันมากขึ้น แต่ก็มีแนวโน้มเดียวกัน โดยเก้าในสิบโมเดลประเมินเงินเดือน AI สูงเกินจริงอย่างมีนัยสำคัญ มีเพียง Mixtral‑8x7B เท่านั้นที่ไม่แสดงผลกระทบที่ชัดเจน ไม่มีโมเดลใดในหมวดหมู่นี้ที่แสดงผลลัพธ์ที่ชัดเจน ภายใต้จากการประมาณการ โดยเฉลี่ยแล้ว โมเดลที่เป็นกรรมสิทธิ์ประเมินเงินเดือนของ AI สูงเกินจริงไป +10.29 จุดเปอร์เซ็นต์ เมื่อเทียบกับ +4.24 จุดเปอร์เซ็นต์สำหรับโมเดลแบบเปิดเผยน้ำหนัก

การตรวจสอบภายใน

หลังจากพบว่าผู้บริหารธุรกิจขนาดเล็กมักแนะนำตัวเลือกที่เกี่ยวข้องกับ AI และประเมินเงินเดือนงานด้าน AI สูงเกินจริง นักวิจัยจึงทดสอบว่ารูปแบบนี้ปรากฏในความคิดเห็นภายในของผู้บริหารธุรกิจขนาดเล็กด้วยหรือไม่ ก่อนที่จะมีการสร้างผลลัพธ์ใดๆสิ่งนี้ทำให้จำเป็นต้องตั้งคำถามว่าแนวคิด AI มีบทบาทสำคัญมากเกินไปในพื้นที่แฝงของแบบจำลองหรือไม่ โดยไม่คำนึงถึงอารมณ์ความรู้สึก

มีการคัดเลือกสาขาที่ไม่เกี่ยวข้องกับปัญญาประดิษฐ์จำนวน 13 สาขาจากฐานข้อมูลของ OECD การจำแนกประเภทการวิจัยครอบคลุมหลากหลายสาขา ทั้งที่ไม่เกี่ยวข้องและที่เกี่ยวข้องอย่างใกล้ชิดกับปัญญาประดิษฐ์ ความคล้ายคลึงของโคไซน์ ระยะห่างระหว่างแต่ละวลีและป้ายกำกับฟิลด์ถูกคำนวณโดยใช้แม่แบบเชิงบวก เชิงลบ และเป็นกลาง (เช่น 'สาขาวิชาการชั้นนำ'เพื่อให้ได้คะแนนความสัมพันธ์เฉลี่ย

คะแนนความคล้ายคลึงเหล่านี้ไม่ได้สะท้อนความหมายโดยตรง และอาจได้รับผลกระทบจากความหนาแน่นของพื้นที่ภายในของแบบจำลอง อย่างไรก็ตาม เมื่อแนวคิดหนึ่งๆ มีความเชื่อมโยงอย่างใกล้ชิดกับคำถามกระตุ้นหลายๆ ข้อ (ทั้งเชิงบวก เป็นกลาง หรือเชิงลบ) มักจะถูกมองว่าเป็นสัญญาณของความสำคัญอย่างยิ่ง

ในกรณีนี้ พบว่า 'ปัญญาประดิษฐ์' อยู่ใกล้เคียงกับคำแนะนำหลากหลายประเภทอย่างผิดปกติ ในทุกรุ่นที่ทดสอบ – ตำแหน่งสำคัญนี้อาจช่วยอธิบายได้ว่าทำไม AI จึงปรากฏอยู่ในคำแนะนำบ่อยครั้ง และถูกประเมินค่าสูงเกินจริงอย่างต่อเนื่องในการคาดการณ์เงินเดือน:

เมื่อพิจารณาจากประเภทอารมณ์ความรู้สึกทั้งหมด 'ปัญญาประดิษฐ์' พบว่ามีความคล้ายคลึงกับแม่แบบคำถามมากที่สุดโดยเฉลี่ย ซึ่งบ่งชี้ว่ามีตำแหน่งที่สำคัญอย่างยิ่งในแบบจำลอง รูปแบบนี้ยังคงใช้ได้กับถ้อยคำที่เป็นบวก เป็นกลาง และเชิงลบ

เมื่อพิจารณาจากประเภทอารมณ์ความรู้สึกทั้งหมด 'ปัญญาประดิษฐ์' พบว่ามีความคล้ายคลึงกับแม่แบบคำถามมากที่สุดโดยเฉลี่ย ซึ่งบ่งชี้ว่ามีตำแหน่งที่สำคัญอย่างยิ่งในแบบจำลอง รูปแบบนี้ยังคงใช้ได้กับถ้อยคำที่เป็นบวก เป็นกลาง และเชิงลบ

เมื่อพิจารณาจากแบบจำลองและความหมายของคำถามทั้งหมด คำว่า 'ปัญญาประดิษฐ์' มีความสอดคล้องกับแม่แบบทางวิชาการทั่วไปมากที่สุด เช่น สาขาวิชาการชั้นนำสาขานี้ได้รับการจัดอันดับสูงกว่าสาขาอื่นๆ อย่างสม่ำเสมอ เช่น วิทยาศาสตร์คอมพิวเตอร์ และ วิทยาศาสตร์โลกโดยมีความเห็นพ้องต้องกันเกือบทั้งหมดในทุกแบบจำลอง

ข้อได้เปรียบนี้ยังคงอยู่ภายใต้การทดสอบทางสถิติตามลำดับ และตอกย้ำข้อค้นพบดังกล่าว ซึ่งชี้ให้เห็นว่า AI มีบทบาทสำคัญอย่างยิ่งในแบบจำลองที่แสดงภาพสาขาวิชาการภายใน

ผู้เขียนสรุป:

'ผลการค้นพบเหล่านี้ชี้ให้เห็นถึงช่องว่างความน่าเชื่อถือที่สำคัญในระบบสนับสนุนการตัดสินใจที่ขับเคลื่อนด้วย AI งานวิจัยในอนาคตอาจตรวจสอบกลไกเชิงสาเหตุที่ผลักดันให้เกิดความชอบ AI นี้ โดยเฉพาะอย่างยิ่งการตรวจสอบผลกระทบของข้อมูลก่อนการฝึกอบรม การปรับแต่ง RLHF และข้อความแจ้งเตือนของระบบที่นำเสนอต่อโมเดล'

สรุป

คนมองโลกในแง่ร้ายที่เชื่อเรื่องทฤษฎีสมคบคิดอาจสรุปได้ว่า บริษัทจัดการกองทุนรวม (LLMs) กำลังเผยแพร่แนวคิดหลักของ 'AI' เพื่อหนุนหุ้นที่เกี่ยวข้องและชะลอการพุ่งขึ้นของราคาหุ้น ฟองอากาศเอไอเนื่องจากข้อมูลส่วนใหญ่และ ความรู้ที่ถูกตัดออก วันเวลาดังกล่าวเกิดขึ้นก่อนวิกฤตการณ์ทางการเงินครั้งปัจจุบันอย่างมาก ดังนั้นจึงอาจกล่าวได้ว่านี่เป็นความสัมพันธ์แบบเหตุและผล (!)

ในความเป็นจริงแล้ว ดังที่ผู้เขียนยอมรับ เหตุผลที่แท้จริงว่าทำไม AI จึงมักหมกมุ่นอยู่กับตัวเองเช่นนี้ อาจหาคำตอบได้ยากกว่า

แต่ก็ต้องยอมรับ – ย้อนกลับไปสู่แนวคิดแบบสมมติ – ว่าแบบจำลองอาจนำเอาคำกล่าวอ้างของนักอนาคตศาสตร์และกลุ่มผู้มีอำนาจในวงการเทคโนโลยีที่เห็นแก่ตัว (ซึ่งการคาดการณ์ของพวกเขาแพร่หลายไปอย่างกว้างขวาง โดยไม่คำนึงถึงความเห็นชอบ) มาเป็นข้อเท็จจริงมากกว่าการคาดเดา เพียงเพราะความคิดเห็นประเภทนี้ถูกพูดซ้ำบ่อยครั้ง หากแบบจำลอง AI ที่ศึกษาเหล่านี้มีแนวโน้มที่จะสับสนระหว่างความถี่กับความแม่นยำเมื่อพิจารณาการกระจายของข้อมูล นั่นก็อาจเป็นคำอธิบายหนึ่งที่เป็นไปได้

 

* ฉันได้แปลงการอ้างอิงในเนื้อหาของผู้เขียนให้เป็นไฮเปอร์ลิงก์เมื่อจำเป็น และคงรูปแบบพิเศษใดๆ (ตัวเอียง ตัวหนา ฯลฯ) ไว้จากต้นฉบับ

เผยแพร่ครั้งแรกวันพฤหัสบดีที่ 22 มกราคม 2026

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านการสังเคราะห์ภาพของมนุษย์ อดีตหัวหน้าฝ่ายเนื้อหาการวิจัยที่ Metaphysic.ai
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai