ปัญญาประดิษฐ์

AI กำเนิด: แนวคิดเบื้องหลัง CHATGPT, Dall-E, Midjourney และอีกมากมาย

วันที่อัพเดท on สิงหาคม 8, 2023

โลกของศิลปะ การสื่อสาร และวิธีที่เรารับรู้ความเป็นจริงกำลังเปลี่ยนแปลงอย่างรวดเร็ว หากเรามองย้อนกลับไปที่ประวัติศาสตร์ของนวัตกรรมของมนุษย์ เราอาจถือว่าการประดิษฐ์วงล้อหรือการค้นพบไฟฟ้าเป็นการก้าวกระโดดที่ยิ่งใหญ่ ทุกวันนี้ การปฏิวัติครั้งใหม่กำลังเกิดขึ้น—เป็นการเชื่อมระหว่างความคิดสร้างสรรค์ของมนุษย์กับการคำนวณของเครื่องจักร นั่นคือเจเนอเรทีฟเอไอ

แบบจำลองการกำเนิดได้ทำให้เส้นแบ่งระหว่างมนุษย์และเครื่องจักรพร่ามัว ด้วยการกำเนิดของโมเดลเช่น GPT-4 ซึ่งใช้โมดูลหม้อแปลง เราได้ก้าวเข้าใกล้การสร้างภาษาที่เป็นธรรมชาติและมีบริบทมากขึ้น ความก้าวหน้าเหล่านี้ได้กระตุ้นแอปพลิเคชันในการสร้างเอกสาร ระบบการสนทนาของแชทบอท และแม้แต่การประพันธ์เพลงสังเคราะห์

การตัดสินใจล่าสุดของ Big-Tech เน้นย้ำถึงความสำคัญของมัน ไมโครซอฟต์อยู่แล้ว ยุติการใช้แอป Cortana ในเดือนนี้เพื่อจัดลำดับความสำคัญของนวัตกรรม Generative AI ที่ใหม่กว่า เช่น Bing Chat Apple ยังได้ทุ่มเทส่วนสำคัญของมันด้วย งบประมาณ R&D 22.6 พันล้านดอลลาร์ เพื่อสร้าง AI ตามที่ CEO Tim Cook ระบุ

โมเดลยุคใหม่: Generative Vs. เลือกปฏิบัติ

เรื่องราวของ Generative AI ไม่เพียงเกี่ยวกับการใช้งานเท่านั้น แต่ยังเป็นพื้นฐานเกี่ยวกับการทำงานภายในอีกด้วย ในระบบนิเวศของปัญญาประดิษฐ์ มีสองรูปแบบ: แบบเลือกปฏิบัติและเชิงกำเนิด

แบบจำลองการเลือกปฏิบัติเป็นสิ่งที่คนส่วนใหญ่พบเจอในชีวิตประจำวัน อัลกอริทึมเหล่านี้ใช้ข้อมูลอินพุต เช่น ข้อความหรือรูปภาพ และจับคู่กับเอาต์พุตเป้าหมาย เช่น การแปลคำหรือการวินิจฉัยทางการแพทย์ พวกเขากำลังเกี่ยวกับการทำแผนที่และการทำนาย

ในทางกลับกัน ตัวแบบเจเนอเรทีฟคือผู้สร้าง พวกเขาไม่เพียงแค่ตีความหรือทำนายเท่านั้น พวกเขาสร้างผลลัพธ์ใหม่ที่ซับซ้อนจากเวกเตอร์ของตัวเลขที่มักไม่เกี่ยวข้องกับค่าในโลกแห่งความเป็นจริงด้วยซ้ำ

เทคโนโลยีเบื้องหลังเจเนอเรทีฟโมเดล

โมเดลเจเนอเรทีฟเกิดจากการดำรงอยู่ของโครงข่ายประสาทเทียมระดับลึก ซึ่งเป็นโครงสร้างที่ซับซ้อนที่ออกแบบมาเพื่อเลียนแบบการทำงานของสมองมนุษย์ ด้วยการจับและประมวลผลรูปแบบต่างๆ ของข้อมูล เครือข่ายเหล่านี้ทำหน้าที่เป็นแกนหลักของแบบจำลองการกำเนิดจำนวนมาก

แบบจำลองกำเนิดเหล่านี้มีชีวิตขึ้นมาได้อย่างไร? โดยปกติแล้ว พวกมันถูกสร้างขึ้นด้วยโครงข่ายประสาทเทียมระดับลึก ซึ่งได้รับการปรับให้เหมาะสมเพื่อจับความผันแปรของข้อมูลหลายแง่มุม ตัวอย่างที่สำคัญคือ เครือข่ายผู้ให้กำเนิด (GAN) ซึ่งโครงข่ายประสาทเทียม XNUMX เครือข่าย ตัวกำเนิด และผู้แยกแยะ แข่งขันและเรียนรู้จากกันและกันในความสัมพันธ์ระหว่างครูกับนักเรียนที่ไม่เหมือนใคร ตั้งแต่ภาพวาดไปจนถึงการถ่ายทอดสไตล์ ตั้งแต่การแต่งเพลงไปจนถึงการเล่นเกม โมเดลเหล่านี้กำลังพัฒนาและขยายออกไปในแนวทางที่ไม่เคยมีมาก่อน

สิ่งนี้ไม่ได้หยุดอยู่กับ GAN ตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAEs) เป็นอีกหนึ่งผู้เล่นที่มีความสำคัญในด้านการสร้างแบบจำลอง VAE มีความโดดเด่นในด้านความสามารถในการสร้างภาพที่เหมือนจริงจากตัวเลขที่ดูเหมือนสุ่ม ยังไง? การประมวลผลตัวเลขเหล่านี้ผ่านเวกเตอร์แฝงทำให้เกิดงานศิลปะที่สะท้อนความซับซ้อนของสุนทรียศาสตร์ของมนุษย์

ประเภท AI ทั่วไป: ข้อความเป็นข้อความ ข้อความเป็นรูปภาพ

ทรานส์ฟอร์เมอร์ส & LLM

กระดาษ "ความสนใจคือสิ่งที่คุณต้องการ” โดย Google Brain ถือเป็นการเปลี่ยนแปลงวิธีคิดเกี่ยวกับการสร้างแบบจำลองข้อความ แทนที่จะเป็นสถาปัตยกรรมที่ซับซ้อนและต่อเนื่องกัน เช่น Recurrent Neural Networks (RNNs) หรือ Convolutional Neural Networks (CNNs) โมเดล Transformer ได้นำแนวคิดเรื่องความสนใจ ซึ่งโดยพื้นฐานแล้วหมายถึงการมุ่งเน้นไปที่ส่วนต่างๆ ของข้อความอินพุต ขึ้นอยู่กับบริบท ข้อดีหลักประการหนึ่งคือความง่ายในการขนาน แตกต่างจาก RNN ที่ประมวลผลข้อความตามลำดับ ทำให้ยากต่อการปรับขนาด Transformers สามารถประมวลผลบางส่วนของข้อความพร้อมกัน ทำให้การฝึกอบรมเร็วขึ้นและมีประสิทธิภาพมากขึ้นบนชุดข้อมูลขนาดใหญ่

: ทรานส์ฟอร์เมอร์-โมเดล สถาปัตยกรรม

ในข้อความที่ยาว ไม่ใช่ทุกคำหรือประโยคที่คุณอ่านมีความสำคัญเท่ากัน บางส่วนเรียกร้องความสนใจมากขึ้นตามบริบท ความสามารถในการเปลี่ยนโฟกัสของเราตามความเกี่ยวข้องคือสิ่งที่กลไกความสนใจเลียนแบบ

เพื่อให้เข้าใจสิ่งนี้ ให้นึกถึงประโยค: “Unite AI Publish AI and Robotics news” ตอนนี้ การคาดคะเนคำถัดไปจำเป็นต้องเข้าใจสิ่งที่สำคัญที่สุดในบริบทก่อนหน้า คำว่า 'วิทยาการหุ่นยนต์' อาจบ่งบอกว่าคำถัดไปอาจเกี่ยวข้องกับความก้าวหน้าหรือเหตุการณ์เฉพาะในสาขาวิทยาการหุ่นยนต์ ในขณะที่ 'เผยแพร่' อาจระบุว่าบริบทต่อไปนี้อาจเจาะลึกถึงสิ่งพิมพ์หรือบทความล่าสุด

: ภาพประกอบการเอาใจใส่ตนเอง

กลไกการให้ความสนใจใน Transformers ได้รับการออกแบบมาเพื่อให้ได้โฟกัสแบบเลือกนี้ พวกเขาประเมินความสำคัญของส่วนต่าง ๆ ของข้อความป้อนเข้าและตัดสินใจว่าจะ "ดู" ที่ใดเมื่อสร้างการตอบกลับ นี่เป็นการออกจากสถาปัตยกรรมรุ่นเก่าเช่น RNN ที่พยายามยัดเยียดสาระสำคัญของข้อความอินพุตทั้งหมดลงใน 'สถานะ' หรือ 'หน่วยความจำ' เดียว

การทำงานของความสนใจเปรียบได้กับระบบการดึงค่าคีย์ ในการพยายามคาดคะเนคำถัดไปในประโยค คำที่อยู่ข้างหน้าแต่ละคำมี 'คีย์' ที่บ่งบอกถึงความเกี่ยวข้องที่เป็นไปได้ และขึ้นอยู่กับว่าคีย์เหล่านี้เข้ากับบริบทปัจจุบัน (หรือข้อความค้นหา) ได้ดีเพียงใด คำเหล่านี้มีส่วนให้ 'ค่า' หรือน้ำหนักแก่ การทำนาย.

โมเดลการเรียนรู้เชิงลึกของ AI ขั้นสูงเหล่านี้ผสานรวมเข้ากับแอปพลิเคชันต่างๆ ได้อย่างราบรื่น ตั้งแต่การปรับปรุงเครื่องมือค้นหาของ Google ด้วย BERT ไปจนถึง Copilot ของ GitHub ซึ่งควบคุมความสามารถของโมเดลภาษาขนาดใหญ่ (LLM) เพื่อแปลงข้อมูลโค้ดอย่างง่ายให้เป็นซอร์สโค้ดที่ทำงานได้อย่างสมบูรณ์

โมเดลภาษาขนาดใหญ่ (LLM) เช่น GPT-4, Bard และ LLaMA เป็นโครงสร้างขนาดใหญ่ที่ออกแบบมาเพื่อถอดรหัสและสร้างภาษามนุษย์ รหัส และอื่นๆ ขนาดมหึมาตั้งแต่พันล้านถึงล้านล้านพารามิเตอร์เป็นหนึ่งในคุณสมบัติที่กำหนด LLM เหล่านี้ได้รับข้อมูลข้อความจำนวนมาก ทำให้เข้าใจความซับซ้อนของภาษามนุษย์ได้ ลักษณะเด่นของนาฬิการุ่นนี้คือความถนัดในการ “ไม่กี่นัด" การเรียนรู้. ซึ่งแตกต่างจากโมเดลทั่วไปที่ต้องการข้อมูลการฝึกอบรมเฉพาะจำนวนมาก LLM สามารถสรุปจากตัวอย่างจำนวนจำกัด (หรือ "ภาพ")

สถานะของโมเดลภาษาขนาดใหญ่ (LLMs) ณ หลังกลางปี 2023

ชื่อรุ่น	ผู้พัฒนา	พารามิเตอร์	ความพร้อมใช้งานและการเข้าถึง	คุณสมบัติเด่นและข้อสังเกต
จีพีที-4	OpenAI	1.5 ล้านล้าน	ไม่ใช่โอเพ่นซอร์ส การเข้าถึง API เท่านั้น	ประสิทธิภาพที่น่าประทับใจสำหรับงานที่หลากหลายสามารถประมวลผลรูปภาพและข้อความ ความยาวอินพุตสูงสุด 32,768 โทเค็น
จีพีที-3	OpenAI	175 พันล้าน	ไม่ใช่โอเพ่นซอร์ส การเข้าถึง API เท่านั้น	แสดงให้เห็นถึงความสามารถในการเรียนรู้แบบยิงน้อยและยิงเป็นศูนย์ ดำเนินการเติมข้อความในภาษาธรรมชาติ
BLOOM	บิ๊กไซเอนซ์	176 พันล้าน	โมเดลที่ดาวน์โหลดได้ มี Hosted API	LLM หลายภาษาที่พัฒนาโดยความร่วมมือระดับโลก รองรับ 13 ภาษาโปรแกรม
แลมด้า	Google	173 พันล้าน	ไม่ใช่โอเพ่นซอร์ส ไม่มี API หรือดาวน์โหลด	ฝึกฝนการสนทนาสามารถเรียนรู้ที่จะพูดคุยเกี่ยวกับเกือบทุกอย่าง
MT-NLG	เอ็นวิเดีย/ไมโครซอฟต์	530 พันล้าน	การเข้าถึง API โดยแอปพลิเคชัน	ใช้สถาปัตยกรรม Megatron แบบ Transformer สำหรับงาน NLP ต่างๆ
โทร	เมตาเอไอ	7B ถึง 65B)	ดาวน์โหลดได้ทางแอพพลิเคชั่น	ตั้งใจที่จะทำให้ AI เป็นประชาธิปไตยโดยเสนอการเข้าถึงให้กับผู้ที่อยู่ในการวิจัย รัฐบาล และสถาบันการศึกษา

LLMs ใช้อย่างไร?

สามารถใช้ LLM ได้หลายวิธี ได้แก่:

การใช้งานโดยตรง: เพียงใช้ LLM ที่ผ่านการฝึกอบรมมาล่วงหน้าสำหรับการสร้างหรือประมวลผลข้อความ ตัวอย่างเช่น การใช้ GPT-4 เพื่อเขียนบล็อกโพสต์โดยไม่มีการปรับแต่งเพิ่มเติม
การปรับแต่งแบบละเอียด: การปรับ LLM ที่ได้รับการฝึกอบรมมาล่วงหน้าสำหรับงานเฉพาะ ซึ่งเป็นวิธีการที่เรียกว่าการถ่ายโอนการเรียนรู้ ตัวอย่างคือการปรับแต่ง T5 เพื่อสร้างบทสรุปสำหรับเอกสารในอุตสาหกรรมเฉพาะ
การดึงข้อมูล: การใช้ LLM เช่น BERT หรือ GPT เป็นส่วนหนึ่งของสถาปัตยกรรมขนาดใหญ่เพื่อพัฒนาระบบที่สามารถดึงข้อมูลและจัดหมวดหมู่ข้อมูล

: ChatGPT ปรับสถาปัตยกรรม

Multi-head Attention: ทำไมต้องมีคนเดียวในเมื่อคุณสามารถมีหลายคนได้?

อย่างไรก็ตาม การพึ่งพากลไกความสนใจเดียวอาจเป็นข้อจำกัดได้ คำหรือลำดับที่ต่างกันในข้อความอาจมีความเกี่ยวข้องหรือความเชื่อมโยงได้หลายประเภท นี่คือที่มาของความสนใจจากหลายฝ่าย แทนที่จะใช้น้ำหนักความสนใจเพียงชุดเดียว ความสนใจจากหลายฝ่ายใช้หลายชุด ทำให้โมเดลสามารถบันทึกความสัมพันธ์ที่หลากหลายยิ่งขึ้นในข้อความอินพุต “หัวหน้า” ความสนใจแต่ละคนสามารถมุ่งเน้นไปที่ส่วนต่าง ๆ หรือแง่มุมต่าง ๆ ของอินพุต และความรู้ที่รวมกันของพวกเขาจะใช้สำหรับการทำนายขั้นสุดท้าย

ChatGPT: เครื่องมือสร้าง AI ที่ได้รับความนิยมสูงสุด

ตั้งแต่เริ่มก่อตั้ง GPT ในปี 2018 แบบจำลองนี้สร้างขึ้นจากพื้นฐาน 12 เลเยอร์ 12 ความสนใจและ 120 ล้านพารามิเตอร์ โดยหลักแล้วได้รับการฝึกฝนบนชุดข้อมูลที่เรียกว่า BookCorpus นี่เป็นการเริ่มต้นที่น่าประทับใจ นำเสนอให้เห็นอนาคตของโมเดลภาษา

GPT-2 ซึ่งเปิดตัวในปี 2019 มีเลเยอร์และหัวความสนใจเพิ่มขึ้นสี่เท่า อย่างมีนัยสำคัญ จำนวนพารามิเตอร์ของมันพุ่งสูงขึ้นเป็น 1.5 พันล้าน เวอร์ชันปรับปรุงนี้ได้รับการฝึกอบรมจาก WebText ซึ่งเป็นชุดข้อมูลที่อุดมด้วยข้อความ 40GB จากลิงก์ Reddit ต่างๆ

GPT-3 ที่เปิดตัวในเดือนพฤษภาคม 2020 มี 96 เลเยอร์ 96 ความสนใจ และจำนวนพารามิเตอร์มหาศาลถึง 175 พันล้าน สิ่งที่ทำให้ GPT-3 แตกต่างคือข้อมูลการฝึกอบรมที่หลากหลาย ซึ่งรวมถึง CommonCrawl, WebText, English Wikipedia, book corpora และแหล่งข้อมูลอื่นๆ รวมเป็น 570 GB

ความซับซ้อนของการทำงานของ ChatGPT ยังคงเป็นความลับที่ได้รับการปกป้องอย่างใกล้ชิด อย่างไรก็ตาม กระบวนการที่เรียกว่า 'การเรียนรู้การเสริมแรงจากความคิดเห็นของมนุษย์' (RLHF) เป็นที่ทราบกันดีว่ามีความสำคัญ เทคนิคนี้มีต้นกำเนิดมาจากโครงการ ChatGPT ก่อนหน้านี้ เป็นเครื่องมือสำคัญในการปรับแต่งโมเดล GPT-3.5 ให้สอดคล้องกับคำแนะนำที่เป็นลายลักษณ์อักษรมากขึ้น

การฝึกอบรมของ ChatGPT ประกอบด้วยแนวทางสามระดับ:

การปรับแต่งอย่างละเอียดภายใต้การดูแล: เกี่ยวข้องกับการดูแลจัดการอินพุตและเอาต์พุตการสนทนาที่เขียนโดยมนุษย์เพื่อปรับแต่งโมเดล GPT-3.5 พื้นฐาน
การสร้างแบบจำลองรางวัล: มนุษย์จัดอันดับผลลัพธ์ของแบบจำลองต่างๆ ตามคุณภาพ ช่วยฝึกแบบจำลองรางวัลที่ให้คะแนนผลลัพธ์แต่ละรายการโดยพิจารณาจากบริบทของการสนทนา
การเรียนรู้แบบเสริมแรง: บริบทการสนทนาทำหน้าที่เป็นฉากหลังที่แบบจำลองพื้นฐานเสนอการตอบสนอง การตอบสนองนี้ได้รับการประเมินโดยแบบจำลองรางวัล และกระบวนการได้รับการปรับให้เหมาะสมโดยใช้อัลกอริทึมที่ชื่อว่า proximal policy optimization (PPO)

สำหรับผู้ที่เพิ่งเริ่มใช้งาน ChatGPT คุณจะพบคู่มือเริ่มต้นที่ครอบคลุม โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม. หากคุณต้องการเจาะลึกลงไปเกี่ยวกับวิศวกรรมที่รวดเร็วด้วย ChatGPT เรายังมีคำแนะนำขั้นสูงที่อธิบายเกี่ยวกับเทคนิคการแจ้งเตือนล่าสุดและล้ำสมัย ซึ่งมีให้ที่ 'ChatGPT และ Advanced Prompt Engineering: ขับเคลื่อนวิวัฒนาการ AI'

แบบจำลองการแพร่กระจายและหลายรูปแบบ

ในขณะที่โมเดลอย่าง VAE และ GAN สร้างเอาต์พุตผ่านรอบเดียว ดังนั้นจึงล็อกอยู่กับอะไรก็ตามที่พวกเขาสร้าง แบบจำลองการแพร่กระจายได้แนะนำแนวคิดของ 'การปรับแต่งซ้ำ'. ด้วยวิธีนี้ พวกเขาจะวนกลับมา ปรับแต่งข้อผิดพลาดจากขั้นตอนก่อนหน้า และค่อยๆ สร้างผลลัพธ์ที่สวยงามยิ่งขึ้น

ศูนย์กลางของแบบจำลองการแพร่กระจายเป็นศิลปะของ “คอรัปชั่น” และ “การปรับแต่ง” ในขั้นตอนการฝึก รูปภาพทั่วไปจะเสียหายขึ้นเรื่อยๆ โดยการเพิ่มระดับของสัญญาณรบกวนต่างๆ เวอร์ชันที่มีสัญญาณรบกวนนี้จะถูกส่งไปยังโมเดล ซึ่งพยายาม 'ลดสัญญาณรบกวน' หรือ 'ทำลาย' โมเดลนั้น จากการดำเนินการนี้หลายรอบ โมเดลจะเชี่ยวชาญในการฟื้นฟู เข้าใจทั้งความคลาดเคลื่อนที่เล็กน้อยและสำคัญ

: ภาพที่สร้างจาก Midjourney

ขั้นตอนการสร้างภาพใหม่หลังการฝึกอบรมเป็นเรื่องที่น่าสนใจ เริ่มต้นด้วยอินพุตแบบสุ่มอย่างสมบูรณ์ มันถูกปรับแต่งอย่างต่อเนื่องโดยใช้การคาดคะเนของโมเดล ความตั้งใจคือการบรรลุภาพที่บริสุทธิ์ด้วยจำนวนขั้นตอนขั้นต่ำ การควบคุมระดับการคอร์รัปชันทำได้ผ่าน "กำหนดระดับเสียง" ซึ่งเป็นกลไกที่ควบคุมปริมาณเสียงที่ใช้ในแต่ละช่วง ตัวกำหนดตารางเวลาตามที่เห็นในไลบรารีเช่น "ดิฟฟิวเซอร์“ กำหนดลักษณะของการแสดงที่มีเสียงดังเหล่านี้ตามอัลกอริทึมที่กำหนดขึ้น

กระดูกสันหลังทางสถาปัตยกรรมที่สำคัญสำหรับแบบจำลองการแพร่กระจายจำนวนมากคือ ยูเน็ต—โครงข่ายประสาทเทียมแบบม้วนที่ออกแบบมาสำหรับงานที่ต้องการเอาต์พุตที่สะท้อนมิติเชิงพื้นที่ของอินพุต เป็นการผสมผสานระหว่างเลเยอร์ดาวน์แซมปลิงและอัปแซมปลิง ซึ่งเชื่อมโยงกันอย่างซับซ้อนเพื่อรักษาข้อมูลที่มีความละเอียดสูง ซึ่งถือเป็นหัวใจสำคัญของเอาท์พุตที่เกี่ยวข้องกับรูปภาพ

เจาะลึกลงไปในขอบเขตของแบบจำลองเชิงสร้างสรรค์ของ OpenAI DALL-E2 กลายเป็นตัวอย่างที่โดดเด่นของการหลอมรวมความสามารถของ AI ที่เป็นข้อความและภาพ ใช้โครงสร้างสามชั้น:

DALL-E 2 นำเสนอสถาปัตยกรรมสามเท่า:

ตัวเข้ารหัสข้อความ: แปลงข้อความแจ้งเป็นการฝังแนวคิดภายในพื้นที่แฝง โมเดลนี้ไม่ได้เริ่มต้นจากศูนย์กราวด์ มันขึ้นอยู่กับการฝึกอบรมล่วงหน้าของ OpenAI's Contrastive Language–Image (CLIP) ชุดข้อมูลเป็นรากฐาน CLIP ทำหน้าที่เป็นสะพานเชื่อมระหว่างข้อมูลภาพและข้อความโดยการเรียนรู้แนวคิดภาพโดยใช้ภาษาธรรมชาติ ผ่านกลไกที่เรียกว่าการเรียนรู้เชิงเปรียบเทียบ ระบบจะระบุและจับคู่รูปภาพกับคำอธิบายที่เป็นข้อความที่เกี่ยวข้อง
ก่อนหน้า: การฝังข้อความที่ได้รับจากตัวเข้ารหัสจะถูกแปลงเป็นการฝังรูปภาพ DALL-E 2 ทดสอบทั้งวิธี autoregressive และ diffusion สำหรับงานนี้ โดยวิธีหลังแสดงผลลัพธ์ที่เหนือกว่า โมเดล Autoregressive ดังที่เห็นใน Transformers และ PixelCNN สร้างเอาต์พุตเป็นลำดับ ในทางกลับกัน โมเดลการแพร่กระจายเช่นเดียวกับที่ใช้ใน DALL-E 2 จะแปลงสัญญาณรบกวนแบบสุ่มเป็นการฝังรูปภาพที่คาดการณ์ไว้โดยใช้การฝังข้อความ
ตัวถอดรหัส: ไคลแม็กซ์ของกระบวนการ ส่วนนี้สร้างเอาต์พุตภาพสุดท้ายตามข้อความแจ้งและการฝังรูปภาพจากเฟสก่อนหน้า ตัวถอดรหัสของ DALL.E 2 เป็นหนี้สถาปัตยกรรมของโมเดลอื่น ร่อนซึ่งสามารถสร้างภาพที่เหมือนจริงจากตัวชี้นำที่เป็นข้อความ

: สถาปัตยกรรมแบบง่ายของ DALL-E Model

ผู้ใช้ Python สนใจ หลังโซ่ ควรตรวจสอบการสอนโดยละเอียดของเราซึ่งครอบคลุมทุกอย่างตั้งแต่พื้นฐานไปจนถึงเทคนิคขั้นสูง

การประยุกต์ใช้เจเนอเรทีฟเอไอ

โดเมนข้อความ

เริ่มต้นด้วยข้อความ Generative AI ได้รับการเปลี่ยนแปลงโดยพื้นฐานจากแชทบอทเช่น ChatGPT. เอนทิตีเหล่านี้อาศัยการประมวลผลภาษาธรรมชาติ (NLP) และโมเดลภาษาขนาดใหญ่ (LLM) เป็นอย่างมาก หน่วยงานเหล่านี้ได้รับมอบอำนาจให้ดำเนินงานต่างๆ ตั้งแต่การสร้างโค้ดและการแปลภาษา ไปจนถึงการสรุปและการวิเคราะห์ความรู้สึก ตัวอย่างเช่น ChatGPT ได้รับการนำไปใช้อย่างแพร่หลาย และกลายเป็นสิ่งสำคัญสำหรับคนหลายล้านคน สิ่งนี้ได้รับการเสริมเพิ่มเติมด้วยแพลตฟอร์ม AI แบบสนทนาซึ่งมีพื้นฐานอยู่ใน LLM เช่น GPT-4 ปาล์มและ BLOOMที่สร้างข้อความได้อย่างง่ายดาย ช่วยในการเขียนโปรแกรม และแม้แต่ให้เหตุผลทางคณิตศาสตร์

จากมุมมองเชิงพาณิชย์ โมเดลเหล่านี้กลายเป็นสิ่งล้ำค่า ธุรกิจต่าง ๆ ใช้มันเพื่อการดำเนินงานมากมาย รวมถึงการจัดการความเสี่ยง การเพิ่มประสิทธิภาพสินค้าคงคลัง และการคาดการณ์ความต้องการ ตัวอย่างที่โดดเด่น ได้แก่ Bing AI, BARD ของ Google และ ChatGPT API

ศิลปะ

โลกของภาพได้เห็นการเปลี่ยนแปลงที่น่าทึ่งด้วย Generative AI โดยเฉพาะอย่างยิ่งตั้งแต่การเปิดตัว DALL-E 2 ในปี 2022 เทคโนโลยีนี้ซึ่งสามารถสร้างภาพจากข้อความแจ้ง มีนัยยะทางศิลปะและความเป็นมืออาชีพ ตัวอย่างเช่น ระหว่างทางได้ใช้ประโยชน์จากเทคโนโลยีนี้เพื่อสร้างภาพที่สมจริงอย่างน่าประทับใจ โพสต์ล่าสุดนี้ demystates Midjourney ในคำแนะนำโดยละเอียด อธิบายทั้งแพลตฟอร์มและความซับซ้อนทางวิศวกรรมที่รวดเร็ว นอกจากนี้ แพลตฟอร์มต่างๆ เช่น Alpaca AI และ Photoroom AI ยังใช้ Generative AI สำหรับฟังก์ชันการแก้ไขภาพขั้นสูง เช่น การลบพื้นหลัง การลบวัตถุ และแม้กระทั่งการฟื้นฟูใบหน้า

การผลิตวิดีโอ

การผลิตวิดีโอในขณะที่ยังอยู่ในช่วงเริ่มต้นในขอบเขตของ Generative AI กำลังแสดงให้เห็นถึงความก้าวหน้าที่มีแนวโน้ม แพลตฟอร์มต่างๆ เช่น Imagen Video, Meta Make A Video และ Runway Gen-2 กำลังผลักดันขอบเขตของสิ่งที่เป็นไปได้ แม้ว่าผลลัพธ์ที่สมจริงอย่างแท้จริงจะยังอยู่บนขอบฟ้าก็ตาม โมเดลเหล่านี้มีอรรถประโยชน์มากมายสำหรับการสร้างวิดีโอดิจิทัลของมนุษย์ โดยมีแอปพลิเคชันอย่าง Synthesia และ SuperCreator เป็นตัวหลัก โดยเฉพาะอย่างยิ่ง Tavus AI นำเสนอข้อเสนอการขายที่ไม่เหมือนใครด้วยการปรับแต่งวิดีโอให้เหมาะกับสมาชิกผู้ชมแต่ละคน ซึ่งเป็นประโยชน์สำหรับธุรกิจ

การสร้างรหัส

การเขียนโค้ดซึ่งเป็นแง่มุมที่ขาดไม่ได้ในโลกดิจิทัลของเรานั้นไม่ได้ถูกแตะต้องโดย Generative AI แม้ว่า ChatGPT จะเป็นเครื่องมือที่ได้รับความนิยม แต่แอปพลิเคชัน AI อื่นๆ อีกหลายตัวได้รับการพัฒนาขึ้นเพื่อจุดประสงค์ในการเขียนโค้ด แพลตฟอร์มเหล่านี้ เช่น GitHub Copilot, Alphacode และ CodeComplete ทำหน้าที่เป็นผู้ช่วยเขียนโค้ดและยังสามารถสร้างโค้ดจากข้อความแจ้งได้อีกด้วย สิ่งที่น่าสนใจคือความสามารถในการปรับตัวของเครื่องมือเหล่านี้ Codex ซึ่งเป็นแรงผลักดันที่อยู่เบื้องหลัง GitHub Copilot สามารถปรับแต่งให้เข้ากับสไตล์การเขียนโค้ดของแต่ละคนได้ โดยเน้นย้ำถึงศักยภาพในการปรับให้เป็นส่วนตัวของ Generative AI

สรุป

การผสมผสานความคิดสร้างสรรค์ของมนุษย์เข้ากับการคำนวณของเครื่องจักร ทำให้กลายเป็นเครื่องมือที่ทรงคุณค่า ด้วยแพลตฟอร์มอย่าง ChatGPT และ DALL-E 2 ที่ขยายขอบเขตของสิ่งที่เป็นไปได้ ตั้งแต่การประดิษฐ์เนื้อหาที่เป็นข้อความไปจนถึงการแกะสลักผลงานชิ้นเอกที่มองเห็น แอปพลิเคชันเหล่านี้มีมากมายและหลากหลาย

เช่นเดียวกับเทคโนโลยีใด ๆ ความหมายทางจริยธรรมเป็นสิ่งสำคัญยิ่ง ในขณะที่ Generative AI สัญญาว่าจะสร้างสรรค์อย่างไร้ขอบเขต สิ่งสำคัญคือต้องใช้งานอย่างมีความรับผิดชอบ ตระหนักถึงอคติที่อาจเกิดขึ้นและพลังของการจัดการข้อมูล

ด้วยเครื่องมืออย่าง ChatGPT ที่สามารถเข้าถึงได้มากขึ้น ตอนนี้เป็นเวลาที่เหมาะสมในการทดสอบน่านน้ำและการทดลอง ไม่ว่าคุณจะเป็นศิลปิน นักเขียนโค้ด หรือผู้คลั่งไคล้เทคโนโลยี ขอบเขตของ Generative AI นั้นเต็มไปด้วยความเป็นไปได้ที่รอการสำรวจ การปฏิวัติไม่ได้อยู่บนขอบฟ้า มันอยู่ที่นี่และตอนนี้ พุ่งเข้าไปเลย!

หัวข้อที่เกี่ยวข้อง:แชทจีพีที DALL-E การเรียนรู้ลึก ๆ กำเนิดไอ LLM กลางการเดินทาง

ต่อไป

เจเนอเรทีฟเอไอเข้าสู่เวทีกลางในการประชุม Ai2023 ปี 4

อย่าพลาด

ความสามารถในการให้เหตุผลแบบอะนาล็อกของ AI: ท้าทายความฉลาดของมนุษย์?

อายูช มิททาล

ฉันใช้เวลาห้าปีที่ผ่านมาหมกมุ่นอยู่กับโลกแห่งการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกที่น่าสนใจ ความหลงใหลและความเชี่ยวชาญของฉันทำให้ฉันมีส่วนร่วมในโครงการวิศวกรรมซอฟต์แวร์ที่หลากหลายกว่า 50 โครงการ โดยเน้นเฉพาะที่ AI/ML ความอยากรู้อยากเห็นอย่างต่อเนื่องของฉันยังดึงฉันไปสู่การประมวลผลภาษาธรรมชาติ ซึ่งเป็นสาขาที่ฉันกระตือรือร้นที่จะสำรวจเพิ่มเติม