בינה מלאכותית

מהו NLP (עיבוד שפה טבעית)?

מְעוּדכָּן on במרץ 20, 2024

עיבוד שפה טבעית (NLP) הוא לימוד ויישום של טכניקות וכלים המאפשרים למחשבים לעבד, לנתח, לפרש ולהגיב על השפה האנושית. NLP הוא תחום בינתחומי והוא משלב טכניקות שהוקמו בתחומים כמו בלשנות ומדעי המחשב. טכניקות אלו משמשות יחד עם AI ליצירת צ'אטבוטים ועוזרים דיגיטליים כמו Google Assistant ו-Alexa של אמזון.

בואו ניקח קצת זמן כדי לחקור את הרציונל מאחורי עיבוד שפה טבעית, כמה מהטכניקות המשמשות ב-NLP וכמה מקרי שימוש נפוצים ל-NLP.

מדוע חשוב עיבוד שפה טבעית (NLP).

על מנת שמחשבים יפרשו שפה אנושית, יש להמיר אותם לצורה שמחשב יכול לתמרן. עם זאת, זה לא פשוט כמו המרת נתוני טקסט למספרים. כדי להפיק משמעות מהשפה האנושית, יש לחלץ דפוסים ממאות או אלפי המילים המרכיבות מסמך טקסט. זו משימה לא פשוטה. ישנם מעט כללים קשיחים ומהירים שניתן ליישם על פרשנות השפה האנושית. לדוגמה, אותה קבוצת מילים בדיוק יכולה להיות משמעותה של דברים שונים בהתאם להקשר. שפה אנושית היא דבר מורכב ולעתים קרובות מעורפל, וניתן לומר אמירה בכנות או בסרקזם.

למרות זאת, יש כמה קווים מנחים כלליים שניתן להשתמש בהם בעת פירוש מילים ותווים, כגון התו "s" המשמש לציון כי פריט הוא רבים. יש להשתמש בהנחיות הכלליות הללו בשיתוף פעולה זה עם זה כדי לחלץ משמעות מהטקסט, כדי ליצור תכונות שאלגוריתם למידת מכונה יכול לפרש.

עיבוד שפה טבעית כולל יישום של אלגוריתמים שונים המסוגלים לקחת נתונים לא מובנים ולהמיר אותם לנתונים מובנים. אם האלגוריתמים הללו מיושמים בצורה שגויה, המחשב לרוב לא יצליח להפיק את המשמעות הנכונה מהטקסט. לעתים קרובות ניתן לראות זאת בתרגום טקסט בין שפות, כאשר המשמעות המדויקת של המשפט אובדת לעתים קרובות. בעוד שתרגום מכונה השתפר באופן משמעותי במהלך השנים האחרונות, שגיאות תרגום מכונה עדיין מתרחשות לעתים קרובות.

טכניקות לעיבוד שפה טבעית (NLP).

צילום: תמור באמצעות WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

הרבה מה טכניקות המשמשים בעיבוד שפה טבעית ניתן למקם באחת משתי קטגוריות: תחביר או סמנטיקה. טכניקות תחביר הן אלו העוסקות בסידור מילים, בעוד שטכניקות סמנטיות הן הטכניקות הכרוכות במשמעות של מילים.

טכניקות תחביר NLP

דוגמאות לתחביר כוללות:

לימטיזציה
פילוח מורפולוגי
תיוג חלקי דיבור
ניתוח
שבירת משפט
נובע
פילוח מילים

למטיזציה מתייחסת לזיקוק הטיות השונות של מילה עד לצורה אחת. Lematization לוקח דברים כמו זמנים ורבים ומפשט אותם, למשל, "רגליים" עשויות להפוך ל"רגל" ו"פסים" עשויים להפוך ל"פסים". צורת מילה פשוטה זו מקלה על אלגוריתם לפרש את המילים במסמך.

פילוח מורפולוגי הוא תהליך של חלוקת מילים למורפמות או ליחידות הבסיס של מילה. יחידות אלה הן דברים כמו חינם מורפמות (שיכול לעמוד לבד כמילים) וקידומות או סיומות.

תיוג חלק מהדיבור הוא פשוט תהליך של זיהוי איזה חלק של דיבור היא כל מילה במסמך קלט.

ניתוח מתייחס לניתוח כל המילים במשפט ומתאם אותן עם תוויות הדקדוק הפורמליות שלהן או ביצוע ניתוח דקדוקי עבור כל המילים.

שבירת משפט, או פילוח גבול המשפט, מתייחס להחלטה היכן משפט מתחיל ומסתיים.

נובע הוא תהליך של צמצום מילים עד לצורת השורש של המילה. לדוגמה, מחוברים, חיבורים וחיבורים כולם יהיו "להתחבר".

פילוח מילים הוא תהליך של חלוקת פיסות טקסט גדולות ליחידות קטנות, שיכולות להיות מילים או יחידות גבעול/למטיות.

טכניקות NLP סמנטיות

טכניקות NLP סמנטיות כוללות טכניקות כמו:

זיהוי ישויות בשם
דור שפה טבעית
פירוש מילה-חוש

הכרת יישות בשם כולל תיוג חלקי טקסט מסוימים שניתן למקם באחת ממספר קבוצות מוגדרות מראש שונות. קטגוריות מוגדרות מראש כוללות דברים כמו תאריכים, ערים, מקומות, חברות ואנשים פרטיים.

דור שפה טבעית הוא תהליך השימוש בבסיסי נתונים כדי להפוך נתונים מובנים לשפה טבעית. לדוגמה, ניתן לסכם נתונים סטטיסטיים על מזג האוויר, כמו טמפרטורה ומהירות רוח בשפה טבעית.

ביטול מובן של מילים הוא תהליך של הקצאת משמעות למילים בתוך טקסט בהתבסס על ההקשר שבו המילים מופיעות.

מודלים של למידה עמוקה עבור NLP

תפיסות רב שכבתיות רגילות אינן מסוגלות להתמודד עם הפרשנות של נתונים עוקבים, כאשר סדר המידע חשוב. על מנת להתמודד עם חשיבות הסדר בנתונים עוקבים, נעשה שימוש בסוג של רשת עצבית המשמרת מידע משלבי זמן קודמים באימון.

רשתות עצביות חוזרות ונשנות הם סוגים של רשתות עצביות ש לולאה על נתונים משלבי זמן קודמים, תוך התחשבות בהם בעת חישוב המשקולות של שלב הזמן הנוכחי. בעיקרו של דבר, ל-RNN יש שלושה פרמטרים המשמשים במהלך מעבר האימון קדימה: מטריצה המבוססת על Previous Hidden State, מטריצה המבוססת על Current Input, ומטריצה שנמצאת בין המצב הנסתר לפלט. מכיוון ש-RNNs יכולים לקחת בחשבון מידע משלבי זמן קודמים, הם יכולים לחלץ דפוסים רלוונטיים מנתוני טקסט על ידי לקיחת מילים קודמות במשפט בחשבון בעת פירוש המשמעות של מילה.

סוג נוסף של ארכיטקטורת למידה עמוקה המשמשת לעיבוד נתוני טקסט הוא רשת זיכרון לטווח קצר (LSTM).. רשתות LSTM דומות ל-RNN במבנה, אך בשל הבדלים מסוימים בארכיטקטורה שלהן הן נוטות לבצע ביצועים טובים יותר מ-RNN. הם נמנעים מבעיה ספציפית שמתרחשת לעתים קרובות בעת שימוש ב-RNNs הנקראים בעיית שיפוע מתפוצץ.

רשתות עצבים עמוקות אלו יכולות להיות חד-כיווניות או דו-כיווניות. רשתות דו-כיווניות מסוגלות לקחת בחשבון לא רק את המילים שמגיעות לפני המילה הנוכחית, אלא את המילים שבאות אחריה. אמנם זה מוביל לדיוק גבוה יותר, אבל זה יקר יותר מבחינה חישובית.

מקרי שימוש לעיבוד שפה טבעית (NLP)

צילום: mohammed_hassan דרך Pixabay, Pixabay License (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

מכיוון שעיבוד שפה טבעית כולל ניתוח ומניפולציה של שפות אנושיות, יש לו מגוון רחב להפליא של יישומים. יישומים אפשריים ל-NLP כוללים צ'אטבוטים, עוזרים דיגיטליים, ניתוח סנטימנטים, ארגון מסמכים, גיוס כישרונות ושירותי בריאות.

צ'אטבוטים ועוזרים דיגיטליים כמו Alexa ו-Google Assistant של אמזון הם דוגמאות לפלטפורמות זיהוי קול וסינתזה המשתמשות ב-NLP כדי לפרש ולהגיב לפקודות קוליות. העוזרים הדיגיטליים האלה עוזרים לאנשים עם מגוון רחב של משימות, מאפשרים להם להוריד חלק מהמשימות הקוגניטיביות שלהם למכשיר אחר ולפנות חלק מכוח המוח שלהם לדברים אחרים וחשובים יותר. במקום לחפש את המסלול הטוב ביותר לבנק בבוקר עמוס, אנחנו יכולים פשוט לבקש מהעוזר הדיגיטלי שלנו לעשות זאת.

ניתוח הסנטימנט הוא השימוש בטכניקות NLP כדי לחקור את התגובות והרגשות של אנשים לתופעה, כפי שהיא מועברת באמצעות השימוש שלהם בשפה. לכידת הסנטימנט של הצהרה, כמו לפרש אם ביקורת על מוצר טובה או רעה, יכולה לספק לחברות מידע מהותי לגבי אופן קבלת המוצר שלהן.

ארגון אוטומטי של מסמכי טקסט הוא יישום נוסף של NLP. חברות כמו גוגל ויאהו משתמשות באלגוריתמי NLP כדי לסווג מסמכי דוא"ל, ולשים אותם בפחים המתאימים כגון "חברתי" או "קידום מכירות". הם גם משתמשים בטכניקות אלה כדי לזהות דואר זבל ולמנוע ממנו להגיע לתיבת הדואר הנכנס שלך.

קבוצות פיתחו גם טכניקות NLP המשמשות לזיהוי עובדים פוטנציאליים, ומציאתם על סמך מיומנויות רלוונטיות. מנהלי גיוס משתמשים גם בטכניקות NLP כדי לעזור להם למיין רשימות של מועמדים.

טכניקות NLP משמשות גם כדי לשפר את שירותי הבריאות. ניתן להשתמש ב-NLP כדי לשפר את זיהוי מחלות. ניתן לנתח רשומות בריאות ולחלץ תסמינים על ידי אלגוריתמי NLP, אשר לאחר מכן ניתן להשתמש בהם כדי להציע אבחנות אפשריות. דוגמה אחת לכך היא הפלטפורמה Comprehend Medical של אמזון, המנתחת רישומי בריאות ומחלץ מחלות וטיפולים. יישומי שירותי בריאות של NLP משתרעים גם לבריאות הנפש. יש אפליקציות כמו WoeBot, שמדברת על המשתמשים באמצעות מגוון טכניקות ניהול חרדה המבוססות על טיפול קוגניטיבי התנהגותי.