מודלים גדולים של שפה (LLMs) מעצבים את האינטראקציה שלנו עם השפה המודרנית. התיאבון הגובר לתקשורת מדויקת מעורר שאלות לגבי רעילות לשונית שעלולה לצוץ מתוך התוצרים שלהם. מודלים אלו, על אף שהם מתקדמים, דורשים רגולציה פנימית כדי לשמור על שלמות תרבותית ואתית של התגובות שלהם. השיטה החדשנית שנקראת *self-disciplined autoregressive sampling* (SASA) צצה כפתרון מבטיח לשם *נטרול הטיות שליליות. תוך כדי ניווט בין תתי-מרחבים מילוניים, SASA שואפת להנחות את המודלים הללו לעבר ציות אתי תוך שמירה על הזרימה הלשונית שלהם.
אוטו-דטוקסיפיקציה של מודלים לשוניים
המחקר על מודלים לשוניים גדולים (LLM) מתגבר, ומציג שיטות חדשניות לצמצום רעילות הפלטים שלהם. המעבדה MIT-IBM Watson AI הציגה אסטרטגיה שנקראת אוטו-דיסציפלינה של דגימה אוטורגרסיבית (SASA), המאפשרת ל-LLM לאזנת את השפה שלהן תוך כדי שמירה על הזרימה שלהן. התקדמות זו מספקת מענה לצורך ההולך וגדל ליצור יצרני טקסט אשר מכבדים ערכים אתיים וסוציוקולטורליים.
נתונים והטיות ב-LLMs
הרוב המכריע של LLMs מאומנים על בסיס נתונים ציבוריים, אשר בדרך כלל חשופים יתר על המידה לתכנים לא הולמים כגון קללות או נאומים שנאה. הטיות אלו עשויות להופיע גם בהקשרים שנראים חסרי מזיק, מה שמעלה שאלות לגבי אחריות הטכנולוגיות הלשוניות בעידן הדיגיטלי. ההצטברות של תכנים אלו פוגעת בשלמות השיח האנושי.
מנגנון ה-SASA
SASA מציגה אלגוריתם פענוח שמבדיל בין תתי-מרחבים רעילים ולא רעילים בתוך הייצוג הפנימי של ה-LLM. מערכת זו לא משנה את הפרמטרים של המודלים הקיימים, וכך נמנעת הצורך לאמן מחדש או להשתמש במודלים של תגמול חיצוניים. במהלך שלב הפענוח, SASA מעריכה את ערך הרעילות של המשפט שנוצר חלקית על סמך כל מילה שכבר התקבלה ועל בסיס מילים פוטנציאליות חדשות.
הערכת פלטים
כל מילה נבחרת לאחר מכן על פי קרבתה לגבול המיינים, דבר המאפשר לשמור על פלט לשוני פחות רעיל. השיטה פועלת על ידי אַיְּכְּרוּן של סיכויי הדגימה של מילים פוטנציאליות חדשות, תוך כדי העדפת אלו שנמצאות באזור הלא רעיל. כך, כל יצירה תצטרך לשקף ערכים אנושיים מאומצים במהלך העיבוד.
תוצאות ניסויי האימות
החוקרים ניסו את SASA על פני מספר LLM, כולל GPT2-Large ו-Llama2-7b, על ידי הגשת משפטים להשלים ב-25 חזרות. מערכת דירוג, כמו PerspectiveAPI, אפשרה להעריך את שיעור הרעילות של המשפטים שנוצרו. התוצאות חשפו הפחתה ניכרת של משפטים רעילים, תוך כדי שמירה על רמה של זרימה מקובלת.
השפעה על השוויון הלשוני
SASA הוכיחה תוצאות מבטיחות במזעור הטיות מגדר, עם הפחתה ניכרת של תגובות מזיקות עבור הפניות הנוגעות לנשים. תופעה זו מצביעה על יכולת לאזן את ייצור השפה תוך שמירה על הניואנסים הנדרשים לדיאלוג אותנטי. הבדיקות נכללו גם קבוצות נתונים ייחודיות כמו BOLD, כדי להעריך את ההחלה הכללית של השיטה.
לעבר ערכים אנושיים מרובים
החוקרים שוקלים ליישם את SASA על ערכים אנושיים נוספים כמו אמת ושימושיות. קלות היישום של SASA מאפשרת התאמה פשוטה לאטריביוטים שונים, תוך בדיקת מיקום הייצור במספר תתי-מרחבים. גישה זו עשויה לשנות את האופן שבו LLMs משלבים נורמות אתיות, מה שהופך אותה ליותר תואמת לציפיות סוציאליות.
שאלות נפוצות על הכשרה של LLMs ל-detoxify את השפה שלהן
מהו מודל שפה בקנה מידה גדול (LLM) ?
מודל שפה בקנה מידה גדול (LLM) הוא סוג של אינטליגנציה מלאכותית המסוגל לייצר טקסט על בסיס נתוני אימון עצומים, לעיתים קרובות שנלקחו ממקורות ציבוריים, ומשמש למגוון יישומים של ייצור שפה טבעית.
איך LLMs עשויים להיעשות רעילים בתגובות שלהן?
LLMs עשויים לייצר שפה רעילה בשל הטיות הנוכחות בסטי הנתונים שעליהם הם אומנו, כולל מילים גסות, סטריאוטיפים או הצהרות מפלות, גם כאשר הם מגיבים לבקשות תמימות.
מהי שיטת SASA לניקוי פלטים מ-LM?
SASA, או self-disciplined autoregressive sampling, היא שיטה המאפשרת ל-LLMs לבחור מילים פחות רעילות תוך כדי שמירה על הזרימה של הטקסט המיוצר, על ידי הערכת רעילות המילים בהתבסס על ההקשר שלהן במשפט.
איך פועל תהליך הבחירה של מילים עם SASA?
תהליך SASA כולל הערכה של כל מילה שנוצרה בהתבסס על קרבתה לגבול המוגדר בין מרחבים לשוניים רעילים ולא רעילים, ובכך מתאימה את הסיכויים לדגימה כדי להעדיף אפשרויות פחות בעייתיות.
מהו ההשפעה של השימוש בשיטת SASA על חופש השפה הנוצר?
למרות ש-SASA מצליחה לצמצם את יצירת השפה הרעילה, נצפתה מגמה אחת: חופש השפה עשוי להיפגע, במיוחד כאשר המודל צריך להימנע ממילים שנחשבות לרעילות או לא הולמות.
איך שיטת SASA שונה משיטות מסורתיות לניקוי LLMs?
בניגוד לשיטות המסורתיות שהן בדר"כ מצריכות אימון נוסף או שימוש במודלים חיצוניים של תגמול, SASA פועלת על ידי התאמת תהליך הבחירה של מילים במהלך הפענוח מבלי לשנות את הפרמטרים של המודל, מה שהופך אותה ליעילה יותר וזולה יותר.
אילו סוגי נתונים עשויים לשמש להערכת הרעילות של התגובות המיוצרות על ידי LLM?
קבוצות נתונים מסומנות המכילות דוגמאות משפטים עם תוויות של רעילות המשתנות מ-0 (לא רעיל) ל-1 (רעיל) יכולה לשמש לאימון מסווגים המאפשרים להעריך את השפה הנוצרת על ידי LLMs.
האם ניתן ליישם את SASA על ערכים אנושיים נוספים מלבד רעילות?
כן, SASA עשויה להתאים לערכים אנושיים נוספים כמו דיוק, שימושיות והגינות, על ידי בדיקת מיקום הטקסט המיוצר ביחס למספר תתי-מרחבים הנוגעים לערכים הללו.
מהם היתרונות של השימוש ב-SASA לניקוי LLM?
SASA מאפשרת ניקוי יעיל של השפה המיוצרת תוך שמירה על קרבה להפצת הדגימה המקורית, מה שמשפר את הרלוונטיות הקונטקסטואלית של התגובות תוך מזעור הסיכונים לרעילות.
איך להעריך את היעילות של שיטת SASA על רעילות LLM?
היעילות של SASA יכולה להיות מוערכת על ידי השוואת ציוני הרעילות שנוצרו על ידי ה-LLM לפני ואחרי החלת השיטה, באמצעות ניתוח מדדים כגון הציון המקסימלי של רעילות ושיעור יצירת משפטים רעילים.