למה 3.3 70B: ביצועים דומים ל-lama 3.1 405B
המודל למה 3.3 70B, שהוכרז לאחרונה על ידי Meta, מתמקם אסטרטגית בשוק המודלים הפתוחים. Meta מדגישה שהמודל הזה משווה את ביצועי ל-lama 3.1, שיש לו 405 מיליארד פרמטרים, תוך הצגת עלות נמוכה באופן משמעותי. יתרון חשוב עבור חברות המעוניינות לשלב אינטיליגנציה מלאכותית תוך כדי שליטה על התקציבים שלהן.
סדרת השקות מהירה
Meta לא מאטה את קצב ההשקה שלה, והציגה את למה 3.1 ביולי, ולאחר מכן למה 3.2 בסוף ספטמבר, ולבסוף, למה 3.3 בשבוע שעבר. Meta מדווחת כי המודל למה 3.3 70B מאפשר גישה לאיכות וביצועים מעולים עבור יישומים טקסטואליים, עדיין בעלות נמוכה.
הכנה ומידע על אימון
לגרסה הסופית הזו, Meta הכשירה את המודל שלה על כ- 15,000 טריליון טוקנים המקורים ממקורות ציבוריים. השכלול כלל מערכי נתונים של הוראות ציבוריות ולמעלה מ-25 מיליון דוגמאות שנוצרו באופן סינטטי. החוקרים מציינים שהנתונים שהשתמשו בהם לאימון המוקדם מתפרסים עד דצמבר 2023.
ארכיטקטורה ופיתוח
למה 3.3 70B מבוסס על ארכיטקטורת Transformer ומשתמש במודל אוטו-רגיסיבי. הפיתוח כלל שיפור מפוקח וכמו כן למידה באמצעות חיזוק עם משוב אנושי (RLHF). המודל מציע חלון הקשר של 128,000 טוקנים, וכך אופטימיזציה של השימוש שלו עבור הוראות טקסטואליות מגוונות.
השוואת ביצועים
תוצאות הבדיקות מראות שלמה 3.3 70B משווה את ביצועי למה 3.1 70B ודגם נובה Pro של אמזון, שהוצג לאחרונה. דרך מגוון בדיקות, למה 3.3 70B יעלה על מתחרים כמו ג'מיני Pro 1.5 ו-GPT-4o. הוא מבדל את עצמו בהציע ביצועים דומים ל-lama 3.1 405B בעלות נמוכה בעשרה אחוזים.
רב-לשוניות ויישומים עסקיים
המודל תומך בשמונה שפות: גרמנית, ספרדית, צרפתית, הינדית, איטלקית, פורטוגזית, תאילנדית וסקראולית. למה 3.3 נועדה לשימושים עסקיים ומחקריים, יכולה לתפקד כ-assistant סוג צ'אט או למשימות של生成 טקסט. Meta מעודדת מפתחים לנצל את יכולות השפה הנרחבות של המודל, תוך הדגשה של החשיבות של שיפור מפוקח לשפות שאינן נתמכות.
תשתית ומשאבים
כמות רבה של משאבים הוקצתה עבור האימון: 39.3 מיליון שעות GPU חישוב על חומרה H100-80GB. התשתיות של האימון המוקדם, השיפור המפוקח, הא annotation וההערכה שולבו באקוסיסטם של Meta, ובכך אפשרו אופטימיזציה של איכות הביצועים.
פוטנציאל והמלצות
Meta מציינת שלמה 3.3 מציעה ביצועים משתלמים עם החזקה שניתן לבצע על תחנות עבודה רגילות. אף על פי שהמודל מסוגל לייצר טקסט בשפות אחרות, Meta ממליצה שלא להשתמש בו עבור שיחות בשפות שאינן רשמיות ללא התאמות מוקדמות.
שאלות נפוצות על למה 3.3 70B
מה ההבדל העיקרי בין למה 3.3 70B ללמה 3.1 405B?
ההבדל העיקרי הוא שלמה 3.3 70B מציעה ביצועים דומים ל-lama 3.1 405B תוך צורך בפחות משאבים כספיים ובחישוב.
מה היתרונות הכספיים שלמה 3.3 70B מציעה בהשוואה למודלים אחרים?
המודל למה 3.3 70B מאפשר לחברות גישה לטכנולוגיה מתקדמת של אינטיליגנציה מלאכותית בעלות מופחתת מאוד, מה שהופך את האינטליגנציה המלאכותית לנגישה יותר.
איך למה 3.3 70B משיגה ביצועים כאלה עם פחות פרמטרים?
הביצועים הללו מושגים באמצעות אופטימיזציה של האלגוריתמים ואימון על כמות גדולה יותר של נתונים, כמו גם ארכיטקטורת מודל מתקדמת.
אילו שפות נתמכות על ידי למה 3.3 70B?
למה 3.3 70B תומכת ב-8 שפות, כולל גרמנית, ספרדית, צרפתית, הינדית, איטלקית, פורטוגזית ותאית.
איך למה 3.3 70B מאומנת מראש?
המודל אומן מראש על כ-15,000 טריליון טוקנים ממקורות זמינים לציבור, וכמו כן על מערכת נתונים של הוראות.
אילו סוגי יישומים יכולים להרוויח מ-למה 3.3 70B?
למה 3.3 70B אידיאלי ליישומים של שיחות רב-לשוניות, צ'אט-רובוטים ומגוון משימות生成 טקסט בהקשר של עסקים ומחקר.
מה הקיבולת של חלון ההקשר של למה 3.3 70B?
למודל יש חלון הקשר של 128,000 טוקנים, מה שמאפשר לנהל הקשרים טקסטואליים ארוכים ומורכבים יותר.
האם למה 3.3 70B מומלץ לשפות שאינן נתמכות?
על אף שאפשר לייצר טקסט בשפות אחרות, Meta ממליצה שלא להשתמש בו ללא שיפור מפוקח ובקרי בטיחות באותן שפות שאינן נתמכות.
אילו תשתיות טכניות שימש עבור אימון למה 3.3 70B?
האימון המוקדם בוצע על קלאסטר GPU מותאם אישית של Meta, תוך שימוש בסך של 39.3 מיליון שעות GPU על חומרה מסוג H100-80GB.
האם למה 3.3 70B עדיין מודל פתוח?
כן, למה 3.3 70B נשאר מודל פתוח עם רישיון קהילתי המאפשר מגוון רחב של יישומים עסקיים ומחקריים.