בדל בחינת מתורגמן הקוד ChatGPT של OpenAI: צלילה עמוקה לתוך היכולות שלו - Unite.AI
צור קשר

הנדסה מהירה

בחינת מתורגמן הקוד ChatGPT של OpenAI: צלילה עמוקה לתוך היכולות שלו

mm
מְעוּדכָּן on

ההתקדמות של OpenAI בעיבוד שפה טבעית (NLP) מסומנת על ידי עלייתם של מודלים גדולים של שפה (LLMs), העומדים בבסיס מוצרים המשמשים מיליונים, כולל עוזר הקידוד GitHub Copilot ומנוע החיפוש Bing. מודלים אלה, באמצעות היכולת הייחודית שלהם לשנן ולמזג מידע, הציבו אמות מידה שאין שני להן במשימות כמו יצירת קוד וטקסט.

הבנת מתורגמן הקוד של ChatGPT

כדי להבין את המשמעות של מתורגמן הקוד ChatGPT, חיוני להבין תחילה מה זה וכיצד הוא נבנה.

למעשה, מתורגמן הקוד ChatGPT ממנף את היכולות של ChatGPT אך מציג מיומנות משופרת בהבנה, פרשנות ואפילו יצירת קוד על פני מספר עצום של שפות תכנות. תכונה זו הופכת את ChatGPT ממחולל טקסט לכלי שלא יסולא בפז עבור מפתחים, המסייע בהבנת קוד, ניפוי באגים ואפילו יצירת קוד.

הכשרת GPT לקידוד: גישת הקודקס

שניהם Copilot GitHub ו מתורגמן הקוד של ChatGPT לנצל את דגם קודקס פותח על ידי OpenAI.

Codex, מודל שפת GPT מיוחד, תוכנן ליכולות כתיבת קוד בקיאות של Python. מאומן על קוד ציבורי מ-GitHub, Codex מציג את הפוטנציאל שלו על ידי הפעלת תכונות ב-GitHub Copilot. כאשר מעריכים את יכולתו לסנתז תוכניות ממחרוזות docstrings, מדד לנכונות תפקודית, Codex עולה על שניהם GPT-3 ו GPT-J.

תצפית בולטת היא שדגימה חוזרת משפרת את מיומנותו של Codex. כאשר מנוצלים עד 100 דגימות לכל בעיה, שיעור ההצלחה של המודל עולה ל- 70.2%. יעילות כזו מציעה את האפשרות להשתמש בדירוג היוריסטי כדי לבחור דוגמאות קוד מדויקות, מבלי להזדקק להערכה מלאה עבור כל אחת מהן.

כדי להעריך את היכולות שלו, המשימה הוטלה על המודל ליצור פונקציות עצמאיות של Python המבוססות אך ורק על מחרוזות docstrings. הדיוק של הקוד שנוצר נמדד לאחר מכן באמצעות בדיקות יחידה. במערך נתונים הכולל 164 בעיות תכנות מקוריות, הכולל הבנת שפה, אלגוריתמים ומבחני מתמטיקה בסיסיים, נפתרה Codex עם 12B פרמטרים 28.8% מהם בניסיון בודד.

נתוני העברת מידע למודל Codex - מתורגמן קוד chatgpt

נתוני הדרכה עבור מודל Codex: https://arxiv.org/abs/2107.03374

על ידי חידוד המודל עוד יותר באמצעות כוונון עדין של פונקציות עצמאיות שיושמו כהלכה, היעילות שלו הוגברה, והביאה לפתרון Codex-S 37.7% של אתגרים בניסיון הראשון. עם זאת, בתחום המעשי של התכנות, גישת ניסוי וטעייה נפוצה. מחקה את התרחיש האמיתי הזה, מודל Codex-S, כאשר ניתן לו 100 הזדמנויות, טיפל בהצלחה 77.5% של האתגרים.

ארכיטקטורת Chatgpt מכוונת

מודלים גנרטיביים כמו ChatGPT שמייצרים קוד מוערכים בדרך כלל על ידי השוואת דגימות שנוצרו לפתרון ייחוס. השוואה זו יכולה להיות מדויקת או להשתמש במדד דמיון כמו ציון BLEU. עם זאת, מדדים מבוססי התאמה אלו אינם מצליחים לתפוס את הניואנסים של קידוד. ביקורת מרכזית על BLEU היא חוסר היעילות שלו בלכידת המאפיינים הסמנטיים של הקוד.

במקום להסתמך רק על התאמה, הוצע מדד רלוונטי יותר: תקינות תפקודית. המשמעות היא שהקוד המיוצר על ידי המודל אמור לעבור קבוצה נתונה של בדיקות יחידה. הרעיון תואם את נוהלי הקידוד הסטנדרטיים, מכיוון שמפתחים משתמשים לעתים קרובות בבדיקות יחידות כדי לאמוד את היעילות והדיוק של הקוד שלהם.

מדד זה מעריך לא רק את הדיוק, אלא את השימושיות הפונקציונלית של הקוד שנוצר.

השמיים pass@k המדד מוצג כמדד לנכונות תפקודית. זה בעצם אומר שאם כל אחת מדגימות הקוד שנוצרו "k" עוברת את בדיקות היחידה, הבעיה נחשבת כפתורה. עם זאת, במקום להשתמש רק בזה בצורתו הישירה, נעשה שימוש באומד לא מוטה כדי לחשב pass@k כדי למנוע שונות גבוהה.

כדי להעריך את יכולות הקוד של ChatGPT, המחקר השתמש ב- HumanEval מערך נתונים. מערך נתונים זה מורכב מבעיות Python בכתב יד, כל אחת מהן מלווה בבדיקות יחידה.

דוגמה למערך נתונים של Chatgpt open ai traning

https://github.com/openai/code-align-evals-data/blob/main/human_eval

בהתחשב בסיכונים הכרוכים בהפעלת קוד לא ידוע או לא מהימן, תוכננה סביבת ארגז חול כדי לבדוק את הקוד שנוצר בבטחה. סביבה זו בשימוש gisor לחקות משאבים וליצור מחסום בין המערכת המארחת לקוד הפועל. לפיכך, גם אם המודל מייצר קוד זדוני, הוא נשאר מוכל ולא יכול להזיק למארח או לרשת.

שימוש ב-ChatGPT Code Interpreter

ChatGPT של OpenAI עבר אבולוציות רבות, כאשר מתורגמן הקוד בולט כתכונה מהפכנית ב- דגם GPT-4. בניגוד לממשקי צ'אט מסורתיים, מתורגמן הקוד מאפשר למשתמשים לצלול עמוק יותר לתוך משימות חישוביות, תוך שילוב חלק של הקווים בין שיחות אנושיות-AI ותהליכים חישוביים.

בבסיסו, מתורגמן הקוד דומה למחשב המוטמע בתוך הצ'אטבוט. תכונה דינמית זו מציעה למשתמשים שטח דיסק זמני להעלאת שפע של פורמטים של קבצים, החל מסוגים נפוצים כמו TXT, PDF ו-JPEG ועד לאלה מיוחדים יותר כגון CPP, PY ו- SQLite. רוחב התמיכה הזה מגביר את הרבגוניות שלו במשימות שונות, בין אם זה עיבוד מסמכים או מניפולציה של תמונה.

פועל במסגרת חזקה ומאובטחת, מתורגמן הקוד מצויד בלמעלה מ-300 ספריות מותקנות מראש. סביבת ארגז חול זו מבטיחה אבטחה תוך מתן כוח חישוב משמעותי. מעניין, כאשר הוא מקבל משימה, הוא יוצר סקריפט Python בזמן אמת כדי לבצע את בקשת המשתמש. קחו, למשל, המרת PDF מבוסס תמונה לפורמט שניתן לחיפוש באמצעות OCR; כל מה שמשתמש צריך לעשות הוא להעלות את המסמך, ו-ChatGPT מטפל בכל השאר.

נקודת עניין הייתה מגבלת גודל הקובץ להעלאות. למרות שמפרטים סופיים עדיין לא הוכרזו, ניסויי משתמשים מראים שהמערכת יכולה לעבד ביעילות קבצים גדולים בהרבה מ-100MB. ללא קשר לגודל, חשוב לציין שהקבצים הללו הם ארעיים, והם נמחקים לאחר סיום הפעלת הצ'אט.

הזוהר של Code Interpreter אינו רק היכולות הטכניות שלו, אלא הנגישות שלו. OpenAI מציעה תכונה זו למנויי ChatGPT Plus, שמגיעה עם דגם GPT-4. לפיכך, הכלי הטרנספורמטיבי הזה אינו מיועד רק לאליטה הטכנולוגית אלא הופך בהדרגה לנגיש לקהל רחב יותר.

ההבחנה בין מודל ChatGPT הסטנדרטי ל-Code Interpreter נעוצה בפרדיגמות האינטראקציה שלהם. בעוד שהראשון מייצר בעיקר תגובות טקסטואליות, השני מבין ומבצע קוד, ומציע תוצאות ישירות. זה לא רק הופך אותו לנכס בעל ערך עבור אנשי מקצוע בתחום הטכנולוגיה, אלא גם מעצים את אלה ללא ידע בקידוד לבצע משימות חישוביות מורכבות.

היכולות של מתורגמן הקוד ChatGPT יכולות לחולל מהפכה במספר היבטים של פיתוח תוכנה ומדעי הנתונים:

  • יצירת קוד אוטומטי: הן עבור יישומי תוכנה והן עבור סקריפטים של ניתוח נתונים, בהינתן תיאור ברמה גבוהה, המערכת יכולה לייצר מבני לוח או קטעי קוד מורכבים, ולהאיץ את תהליכי הפיתוח וניתוח הנתונים.
  • ביקורות קוד ואימות נתונים: כלים מונעי בינה מלאכותית כמו ChatGPT יכולים לסייע בשיפור האיכות והאבטחה של בסיסי קוד תוכנה. בנוסף, בתחום מדעי הנתונים, כלים כאלה יכולים להוות עזר בסקירה ובאימות של סקריפטים של עיבוד נתונים ושינוי, תוך הבטחת דיוק ויעילות.
  • סיוע בניתוח נתונים: עבור מדעני נתונים, מתורגמן הקוד ChatGPT יכול לעזור ביצירת קוד לחקר נתונים ראשוניים, הדמיה ואפילו בדיקות סטטיסטיות בסיסיות, ובכך להקל על זרימת העבודה של ניתוח הנתונים.

אם אתה להוט למצוא עוד על המורכבויות של ChatGPT והנדסה מהירה, Unite AI מציע פירוט מקיף ב'ChatGPT: הנדסת הנחיות מתקדמת'.

הגדרת מתורגמן קוד ChatGPT

אינטגרציה של מתורגמני קוד מאפשרת לפלטפורמה לפרש שאילתות משתמשים, להפעיל אותן כקוד Python ולהציג תוצאות בפורמט צ'אט אינטראקטיבי. כדי לגשת לתכונה זו, משתמשים יכולים לנווט אל ChatGPT הגדרות, חקור את סעיף תכונות הביטא והפעל את מתורגמן הקוד.

מה שמייחד אותו הוא המנגנון השקוף שלו. כאשר המשתמשים מזמינים משימה, הפלטפורמה חושפת כל שלב במסע העיבוד, ומציעה בהירות כיצד פקודות מתפרשות ומבוצעות. חשוב לציין, מסיבות פרטיות ואבטחה, מתורגמן הקוד פועל ללא כל חיבור לאינטרנט.

בחינת היתרונות של מתורגמן הקוד ChatGPT

נתונים להדמיה & אָנָלִיזָה

ChatGPT חורג מהטווח של תרשימים מסורתיים, ומציע ייצוגים גרפיים קונבנציונליים וחדשניים כאחד. זה מבטיח שמשתמשים יכולים להציג את הנתונים שלהם בפורמטים המספקים את התובנות המשמעותיות ביותר.

עם זאת, לא מדובר רק בהצגת נתונים גולמיים. מודל ChatGPT מיומן בעיבוד וחידוד נתונים. למרות עוצמה, משתמשים צריכים לנקוט משנה זהירות.

אנליסטים פיננסיים ימצאו את היכולת של מתורגמן הקוד לנתח ולהמחיש את שערי המניות שימושית במיוחד. באמצעות אינטגרציה חלקה, משתמשים יכולים להעלות מערכי נתונים ולחזות אותם בפורמטים שונים. המשמעות של פונקציה זו ניכרת כאשר אנשים יכולים לבצע ניתוח נתונים מורכבים.

הסרטון למטה מדגים כיצד מתורגמן הקוד של ChatGPT יצר מקיף TSLA ניתוח מניות.

המנות העיקריות:

  • מניית טסלה התמודדה עם תנודתיות אך גם הראתה חוסן עם תקופות של צמיחה.
  • מחזורי מסחר גבוהים בימים ספציפיים מעידים על התעניינות משמעותית בשוק או על תגובות לאירועי מפתח.
  • התשואה של שנה עד תאריך (YTD) כלפי מטה מציעה שמשקיעים צריכים לנתח הן גורמים פנימיים בחברה והן את תנאי השוק החיצוניים כאשר הם שוקלים השקעות עתידיות.

יישום Computer Vision ו-OCR

זיהוי פנים, פונקציה חיונית בראייה ממוחשבת, ניגש בטכניקה קלאסית: ה מסווג Haar Cascade מתוך OpenCV.

התמונה למטה מציגה את השימוש במסווג הקלאסי של Haar Cascade.

תהליך חילוץ הטקסט מתמונות, המכונה זיהוי תווים אופטי (OCR), הושג בצורה חלקה באמצעות Tesseract, כאשר הטקסט נבנה לאחר מכן על ידי GPT-4, מה שמשפר את ההבנה.

בסרטון הבא, ראה כיצד Tesseract (OCR) מחלץ טקסט מתמונת תעודה.

מתורגמן הקוד מצטיין בתחום של מניפולציות וידאו, אודיו ותמונה. עם פקודות פשוטות, משתמשים יכולים להשיג עריכות מפורטות, כגון המרת קובצי GIF לקובצי MP4 עם שיפורים ספציפיים. כל שעליך לעשות הוא להעלות את הקובץ שלך, להזין את השינויים הרצויים, ולראות את הקסם קורה.

ספריית Python חיצונית בתוך מתורגמן הקוד ChatGPT שלך

מתורגמן הקוד ChatGPT הוא פלטפורמת תכנות דינמית המצוידת במערך נרחב של ספריות Python. אלה מכסים הכל מהדמיית נתונים עם Seaborn ועד למידת מכונה מתקדמת באמצעות לפיד. אבל זה יותר מאשר ערכת כלים סטטית.

בהשראת זה עמוד Chatgpt מקוראקוט חבוניץ'.

החל מהאחרון שחרור nltk, העלינו קובץ ‎.whl למתורגמן. לאחר מכן הנחנו ל-ChatGPT לאתר את ספריית חבילות האתר המתאימה על ידי ניתוח מיקום חבילה קיימת. השלב הבא כלל פירוק קובץ הגלגלים למקום זמני והעברת הקבצים לספריית חבילות האתר שזוהתה. עם זאת, זה פגע בבעיה.

בחיפוש אחר פתרון עוקף, ביקשנו: "אנא ודא ש-NLTK מותקן בסביבת Python ונגיש לאחר ההתקנה."

ChatGPT הגיב וסיפק פתרון. הוא הציע להוסיף את הספרייה הזמנית ל-sys.path, לאפשר לפייתון לזהות ולשלוף מודולים מחבילת nltk שלא ארוזה במיקום זה. טקטיקה זו חוללה פלאים, והובילה להתקנה מוצלחת של NLTK.

באמצעות שימוש בקבצי .whl, ההתקנה הציגה שילוב של כושר המצאה ויכולת הסתגלות. מתורגמן הקוד ChatGPT, למרות האתגרים הראשוניים, הביא לידי ביטוי את הרבגוניות והמחויבות שלו להיענות לצרכי הקודנים, והבטיח גם למתחילים וגם לוותיקים חווית קידוד מעודנת.

התקנת ספריות מותאמות אישית במפרש קוד chatgpt

בתצוגה מרתקת של יכולות המתורגמן, ציוץ שנערך לאחרונה על ידי @DominikPeters הדגיש הדגמה ייחודית. פיטרס ביקש מ-GPT-4 ליצור חידון על רובע פריז, והדגם סיפק אתר אינטרנט מתפקד היטב. חידון העבודה זמין להתנסות מעשית בכתובת dominik-peters.de/gpt-arrondissement-quiz/.

עטיפת Up

פריצת הדרך של OpenAI עם מתורגמן הקוד ChatGPT היא לא פחות ממהפך עבור קודנים ולא מקודדים כאחד. הרבגוניות שלו בטיפול במגוון רחב של משימות - החל מסיוע למפתחים בניפוי באגים ועד להוצאת חידונים פריזאיים ללא מאמץ - היא עדות לפוטנציאל הבלתי מוגבל של AI בשיפור החוויות הדיגיטליות שלנו. הנה תמצית מזוקקת של הצלילה העמוקה שלנו:

הבן את הכלי שלך: בדיוק כמו שאתה מתיידד עם עמית, הכירו את מתורגמן הקוד. הוא עוצב על גבי Codex, המכוונן עדין מ-GPT-4. הבקיאות שלו משתרעת על פני שפות תכנות מרובות, מה שהופך אותו לבן לוויה אידיאלי לכל הרפתקאות הקידוד שלך.

אמצו את מהפכת הבינה המלאכותית: שיטות קידוד מסורתיות עומדות לראות שינוי סיסמי. עם כלים מונעי בינה מלאכותית כמו מתורגמן הקוד ChatGPT, ניתן לזרז משימות כמו זיהוי באגים, יצירת קוד ואפילו סקירות קוד.

מעבר ל-Just Code: הגיחה של המתורגמן אינה מוגבלת לטקסט או לקוד. היכולת שלו להתמודד עם פורמטים מרובים של קבצים, מקובצי TXT פשוטים ועד סקריפטים מורכבים של PY, מדגישה את השימושיות שלו בתחומים שונים.

לעולם אל תפסיק להתנסות: החקירה שלנו עם התקנת ספריית NLTK משקפת את החשיבות של התמדה והתאמה, ערכים שמפרש הקוד מגלם. אם יש תקלה, לעתים קרובות יש דרך לעקוף אותו.

הצטרף לשיחת AI: יישומי העולם האמיתי, כפי שהוצגו בחידון הרובעים בפריז, מדגישים את התועלת העצומה בעולם האמיתי של הכלי. אמצו אותו, חקרו אותו ותנו לו להגביר את הפרויקטים שלכם.

הסרטון שלמעלה נעשה באמצעות דור 2 ו אמצע מסע.

לסיכום, מתורגמן הקוד ChatGPT הוא יותר מסתם כלי; זה משנה את הדרך שבה אנחנו מתחברים לטכנולוגיה. הן לחדשנים והן לחובבים, זה מבטיח עולם מלא בפוטנציאל קידוד.

ביליתי את חמש השנים האחרונות בשקיעת עצמי בעולם המרתק של למידת מכונה ולמידה עמוקה. התשוקה והמומחיות שלי הובילו אותי לתרום ליותר מ-50 פרויקטים מגוונים של הנדסת תוכנה, עם התמקדות מיוחדת ב-AI/ML. הסקרנות המתמשכת שלי משכה אותי גם לעבר עיבוד שפה טבעית, תחום שאני להוט לחקור עוד יותר.