ללמד את LLMs לנקות את עצמם משפותיהם

Publié le 15 אפריל 2025 à 00h07
modifié le 15 אפריל 2025 à 00h07

מודלים גדולים של שפה (LLMs) מעצבים את האינטראקציה שלנו עם השפה המודרנית. התיאבון הגובר לתקשורת מדויקת מעורר שאלות לגבי רעילות לשונית שעלולה לצוץ מתוך התוצרים שלהם. מודלים אלו, על אף שהם מתקדמים, דורשים רגולציה פנימית כדי לשמור על שלמות תרבותית ואתית של התגובות שלהם. השיטה החדשנית שנקראת *self-disciplined autoregressive sampling* (SASA) צצה כפתרון מבטיח לשם *נטרול הטיות שליליות. תוך כדי ניווט בין תתי-מרחבים מילוניים, SASA שואפת להנחות את המודלים הללו לעבר ציות אתי תוך שמירה על הזרימה הלשונית שלהם.

אוטו-דטוקסיפיקציה של מודלים לשוניים

המחקר על מודלים לשוניים גדולים (LLM) מתגבר, ומציג שיטות חדשניות לצמצום רעילות הפלטים שלהם. המעבדה MIT-IBM Watson AI הציגה אסטרטגיה שנקראת אוטו-דיסציפלינה של דגימה אוטורגרסיבית (SASA), המאפשרת ל-LLM לאזנת את השפה שלהן תוך כדי שמירה על הזרימה שלהן. התקדמות זו מספקת מענה לצורך ההולך וגדל ליצור יצרני טקסט אשר מכבדים ערכים אתיים וסוציוקולטורליים.

נתונים והטיות ב-LLMs

הרוב המכריע של LLMs מאומנים על בסיס נתונים ציבוריים, אשר בדרך כלל חשופים יתר על המידה לתכנים לא הולמים כגון קללות או נאומים שנאה. הטיות אלו עשויות להופיע גם בהקשרים שנראים חסרי מזיק, מה שמעלה שאלות לגבי אחריות הטכנולוגיות הלשוניות בעידן הדיגיטלי. ההצטברות של תכנים אלו פוגעת בשלמות השיח האנושי.

מנגנון ה-SASA

SASA מציגה אלגוריתם פענוח שמבדיל בין תתי-מרחבים רעילים ולא רעילים בתוך הייצוג הפנימי של ה-LLM. מערכת זו לא משנה את הפרמטרים של המודלים הקיימים, וכך נמנעת הצורך לאמן מחדש או להשתמש במודלים של תגמול חיצוניים. במהלך שלב הפענוח, SASA מעריכה את ערך הרעילות של המשפט שנוצר חלקית על סמך כל מילה שכבר התקבלה ועל בסיס מילים פוטנציאליות חדשות.

הערכת פלטים

כל מילה נבחרת לאחר מכן על פי קרבתה לגבול המיינים, דבר המאפשר לשמור על פלט לשוני פחות רעיל. השיטה פועלת על ידי אַיְּכְּרוּן של סיכויי הדגימה של מילים פוטנציאליות חדשות, תוך כדי העדפת אלו שנמצאות באזור הלא רעיל. כך, כל יצירה תצטרך לשקף ערכים אנושיים מאומצים במהלך העיבוד.

תוצאות ניסויי האימות

החוקרים ניסו את SASA על פני מספר LLM, כולל GPT2-Large ו-Llama2-7b, על ידי הגשת משפטים להשלים ב-25 חזרות. מערכת דירוג, כמו PerspectiveAPI, אפשרה להעריך את שיעור הרעילות של המשפטים שנוצרו. התוצאות חשפו הפחתה ניכרת של משפטים רעילים, תוך כדי שמירה על רמה של זרימה מקובלת.

השפעה על השוויון הלשוני

SASA הוכיחה תוצאות מבטיחות במזעור הטיות מגדר, עם הפחתה ניכרת של תגובות מזיקות עבור הפניות הנוגעות לנשים. תופעה זו מצביעה על יכולת לאזן את ייצור השפה תוך שמירה על הניואנסים הנדרשים לדיאלוג אותנטי. הבדיקות נכללו גם קבוצות נתונים ייחודיות כמו BOLD, כדי להעריך את ההחלה הכללית של השיטה.

לעבר ערכים אנושיים מרובים

החוקרים שוקלים ליישם את SASA על ערכים אנושיים נוספים כמו אמת ושימושיות. קלות היישום של SASA מאפשרת התאמה פשוטה לאטריביוטים שונים, תוך בדיקת מיקום הייצור במספר תתי-מרחבים. גישה זו עשויה לשנות את האופן שבו LLMs משלבים נורמות אתיות, מה שהופך אותה ליותר תואמת לציפיות סוציאליות.

שאלות נפוצות על הכשרה של LLMs ל-detoxify את השפה שלהן

מהו מודל שפה בקנה מידה גדול (LLM) ?
מודל שפה בקנה מידה גדול (LLM) הוא סוג של אינטליגנציה מלאכותית המסוגל לייצר טקסט על בסיס נתוני אימון עצומים, לעיתים קרובות שנלקחו ממקורות ציבוריים, ומשמש למגוון יישומים של ייצור שפה טבעית.

איך LLMs עשויים להיעשות רעילים בתגובות שלהן?
LLMs עשויים לייצר שפה רעילה בשל הטיות הנוכחות בסטי הנתונים שעליהם הם אומנו, כולל מילים גסות, סטריאוטיפים או הצהרות מפלות, גם כאשר הם מגיבים לבקשות תמימות.

מהי שיטת SASA לניקוי פלטים מ-LM?
SASA, או self-disciplined autoregressive sampling, היא שיטה המאפשרת ל-LLMs לבחור מילים פחות רעילות תוך כדי שמירה על הזרימה של הטקסט המיוצר, על ידי הערכת רעילות המילים בהתבסס על ההקשר שלהן במשפט.

איך פועל תהליך הבחירה של מילים עם SASA?
תהליך SASA כולל הערכה של כל מילה שנוצרה בהתבסס על קרבתה לגבול המוגדר בין מרחבים לשוניים רעילים ולא רעילים, ובכך מתאימה את הסיכויים לדגימה כדי להעדיף אפשרויות פחות בעייתיות.

מהו ההשפעה של השימוש בשיטת SASA על חופש השפה הנוצר?
למרות ש-SASA מצליחה לצמצם את יצירת השפה הרעילה, נצפתה מגמה אחת: חופש השפה עשוי להיפגע, במיוחד כאשר המודל צריך להימנע ממילים שנחשבות לרעילות או לא הולמות.

איך שיטת SASA שונה משיטות מסורתיות לניקוי LLMs?
בניגוד לשיטות המסורתיות שהן בדר"כ מצריכות אימון נוסף או שימוש במודלים חיצוניים של תגמול, SASA פועלת על ידי התאמת תהליך הבחירה של מילים במהלך הפענוח מבלי לשנות את הפרמטרים של המודל, מה שהופך אותה ליעילה יותר וזולה יותר.

אילו סוגי נתונים עשויים לשמש להערכת הרעילות של התגובות המיוצרות על ידי LLM?
קבוצות נתונים מסומנות המכילות דוגמאות משפטים עם תוויות של רעילות המשתנות מ-0 (לא רעיל) ל-1 (רעיל) יכולה לשמש לאימון מסווגים המאפשרים להעריך את השפה הנוצרת על ידי LLMs.

האם ניתן ליישם את SASA על ערכים אנושיים נוספים מלבד רעילות?
כן, SASA עשויה להתאים לערכים אנושיים נוספים כמו דיוק, שימושיות והגינות, על ידי בדיקת מיקום הטקסט המיוצר ביחס למספר תתי-מרחבים הנוגעים לערכים הללו.

מהם היתרונות של השימוש ב-SASA לניקוי LLM?
SASA מאפשרת ניקוי יעיל של השפה המיוצרת תוך שמירה על קרבה להפצת הדגימה המקורית, מה שמשפר את הרלוונטיות הקונטקסטואלית של התגובות תוך מזעור הסיכונים לרעילות.

איך להעריך את היעילות של שיטת SASA על רעילות LLM?
היעילות של SASA יכולה להיות מוערכת על ידי השוואת ציוני הרעילות שנוצרו על ידי ה-LLM לפני ואחרי החלת השיטה, באמצעות ניתוח מדדים כגון הציון המקסימלי של רעילות ושיעור יצירת משפטים רעילים.

actu.iaNon classéללמד את LLMs לנקות את עצמם משפותיהם

עוברים ושבים המומים מלוח מודעות של אינטלקט מופרז בסגנון כן מדי

des passants ont été surpris en découvrant un panneau publicitaire généré par l’ia, dont le message étonnamment honnête a suscité de nombreuses réactions. découvrez les détails de cette campagne originale qui n’a laissé personne indifférent.

אפל מתחילה בשליחת מוצר דגל שיוצר בטקסס

apple débute l’expédition de son produit phare fabriqué au texas, renforçant sa présence industrielle américaine. découvrez comment cette initiative soutient l’innovation locale et la production nationale.
plongez dans les coulisses du fameux vol au louvre grâce au témoignage captivant du photographe derrière le cliché viral. entre analyse à la sherlock holmes et usage de l'intelligence artificielle, découvrez les secrets de cette image qui a fait le tour du web.

עסק חדשני במציאת עובדים עם ערכים ברורים ושקופים

rejoignez une entreprise innovante qui recherche des employés partageant des valeurs claires et transparentes. participez à une équipe engagée où intégrité, authenticité et esprit d'innovation sont au cœur de chaque projet !
découvrez comment le mode copilot de microsoft edge révolutionne votre expérience de navigation grâce à l’intelligence artificielle : conseils personnalisés, assistance instantanée et navigation optimisée au quotidien !

האיחוד האירופי: רגולציה זהירה מול ענקי הטק האמריקאיים

découvrez comment l'union européenne impose une régulation stricte et réfléchie aux grandes entreprises technologiques américaines, afin de protéger les consommateurs et d’assurer une concurrence équitable sur le marché numérique.