Grok-4 : l'IA d'Elon Musk redéfinit les benchmarks

Grok-4 מגדיר מחדש את הנוף של אינטליגנציה מלאכותית, צומח כעמוד תווך של ביצועים בלתי מתפשרים. חידוש זה של xAI, שהוקם על ידי אילון מאסק, חורג מנורמות שהוקמו על ידי מדדי ביצוע מסורתיים. *תוצאות עליונות על המודלים של OpenAI*, אנתרופיק וגוגל DeepMind מעידות על התקדמות משמעותית.

הדגש על חשיבה לוגית מעניק ל-Grok-4 עליונות במשימות מורכבות. *היכולות המתואמות במקביל של Grok-4 Heavy* מציעות פרספקטיבה חדשה על פתרון בעיות. ההשלכות של הישג טכנולוגי זה חושפות פוטנציאל חדשני חסר תקדים בתחום ה-AI.

Grok-4: מהפכה בביצועים באינטליגנציה מלאכותית

המודל Grok-4, שפותח על ידי הסטארט-אפ xAI שהוקם על ידי אילון מאסק, עבר לאחרונה את המוביל הקודם, o3-pro של OpenAI, במהלך מדדי הביצוע. התקדמות זו היא תוצאה של הגברת מחקר על חשיבה לוגית מורכבת.

מיקוד בהיגיון

xAI החליטה למקד את מאמציה בהיגיון, בניגוד למודלים כלליים. Grok-4 מתמחה במשימות שדורשות חשיבה מתוחכמת והיגיון מתקדם. הושם דגש על למידת חיזוק, עם השקעות כגון השימוש ב-200,000 GPU מהמחשב העל Colossus.

ביצועים יוצאי דופן במדדים

מודל זה קבע שיאים מרשימים במספר מדדים. במבחן ברמת דוקטורט, Humanities Last Exam, Grok-4 פותר כמעט 26.9% מהשאלות במצב רגיל ו-45% עם גרסת ה-Heavy שלו. תוצאות אלו ממקמות אותו בבירור ברמה של מחקר פוסט-דוקטורט. בשום מקום אחר, אדם לא יכול לקוות להשיג אפילו 5% הצלחה במבחן זה.

במתמטיקה, הציון המושלם של Grok-4 מגיע ל-100% על ה-AIME25, עובר את o3 שהשיג 98.4%. על HMMT25, הוא מתבלט גם עם 96.7% מול 82.5% של Claude 4 Opus.

שיאים חדשים באינטליגנציה נזילה

Grok-4 מתבלט במיוחד במבחן ARC-AGI, הופך למודל ציבורי הראשון שחוצה את רף ה-10% דיוק עם 15.9%. גרג קמרט, נשיא ARC Prize, אישר את הביצועים יוצאי הדופן הללו. הציון הקודם היה בערך 8% עם Claude Opus 4.

הכרה במגבלות

אף על פי ש-Grok-4 נמצא בחזית החשיבה, חלק מהיכולות שלו מעוררות שאלות. הביצועים שלו במודלים מרובים עדיין בסיסיים. אילון מאסק עצמו הכיר בכך שמודל זה היה עיוור בחלקו ושההבנה שלו של תמונות זקוקה לשיפור.

בהתחשב בתכנות, Grok-4 מציג תוצאות מעורבות. במבחן LiveCodeBench, הוא רושם ציון של 79.4%, משתווה ל-Gemini 2.5 Pro ומעט מתחת ל-o3.

תמחור ומנויים

Grok-4 זמין לציבור הרחב דרך מנוי SuperGrok ב-30 דולר לחודש. המנוי SuperGrok Heavy, ב-300 דולר לחודש, מעניק גישה לגרסה מרובי סוכנים. המיצוב המחירתי הזה הופך את xAI לאחד מספקי ה-AI היקרים ביותר.

בינתיים, ה-API של Grok גם הוא נגיש, אם כי מחירים עדיין צריכים להיקבע.

פרספקטיבות עתידיות

xAI מתכננת לוח זמנים שאפתני לעתיד. מודל קידוד מקצועי מתוכנן לאוגוסט, אחריו סוכן מרובה-מודלים בספטמבר ומודל יצירת וידאו באוקטובר. התחרות נותרת אינטנסיבית, כאשר שחקנים נוספים כמו Claude וגוגל פועלים לפיתוח מודלים משלהם.

שאלות נפוצות

מהן התכונות העיקריות של Grok-4?
Grok-4 מתמקד בהיגיון מורכב, מפרק בעיות לשלבים ומזהה קשרים לוגיים. הוא משתמש בטכניקות מתקדמות של למידת חיזוק ויש לו הקשר של 256,000 טוקנים.

איך Grok-4 משווה למודלים אחרים של אינטליגנציה מלאכותית כמו אלה של OpenAI וגוגל?
Grok-4 עלה על ביצועי מודלים כמו o3-pro של OpenAI ו-Gemini 2.5 Pro, קובע שיאים חדשים במגוון מדדי ביצוע וטוען לביצועים עליונים מאלה של אנתרופיק וגוגל DeepMind.

מהן התוצאות של מדדי הביצוע של Grok-4?
Grok-4 השיג ציונים מרשימים: 26.9% הצלחה על Humanities Last Exam ו-100% על AIME25, וגם עלה על הביצועים של Claude-4 ושחקנים נוספים במבחנים שונים.

מהן המגבלות הנוכחיות של Grok-4?
אף על פי ש-Grok-4 מצטיין בהיגיון, היכולות המודולוליות שלו עדיין מוגבלות והוא מציג ביצועים מגוונים בתכנות, במיוחד על LiveCodeBench, שם הוא נוגע ב-79.4%.

מהו מודל Grok-4 Heavy וכיצד הוא שונה מהמודל הרגיל?
Grok-4 Heavy מעסיק מספר סוכנים במקביל לפתרון בעיות מורכבות, בכך מאפשר גישה יותרRobust ומגוונת לשאלות המוצקות.

מהו עלות הגישה ל-Grok-4 עבור המשתמשים?
המנוי SuperGrok ל-Grok-4 עולה 30 דולר לחודש, בעוד שהמנוי SuperGrok Heavy, המעביר גישה ליכולות המתקדמות של Grok-4 Heavy, מוצע ב-300 דולר לחודש.

אילו חידושים עתידיים מתוכננים ל-Grok-4?
xAI מתכננת להשיק מודל קידוד מקצועי באוגוסט, סוכן מרובה-מודלים בספטמבר ומודל יצירת וידאו באוקטובר, ובכך להוסיף תכנים נוספים לפלטפורמה.

Grok-4, הישג חדש עבור הבינה המלאכותית של אלון מאסק במבחנים

Grok-4: מהפכה בביצועים באינטליגנציה מלאכותית

מיקוד בהיגיון

ביצועים יוצאי דופן במדדים

שיאים חדשים באינטליגנציה נזילה

הכרה במגבלות

תמחור ומנויים

פרספקטיבות עתידיות

שאלות נפוצות

עוברים ושבים המומים מלוח מודעות של אינטלקט מופרז בסגנון כן מדי

אפל מתחילה בשליחת מוצר דגל שיוצר בטקסס

גניבה בלובר: הסוד של התמונה הוויראלית מפוענח על ידי הצלם שלה, בין שרלוק הולמס לאינטליגנציה מלאכותית

עסק חדשני במציאת עובדים עם ערכים ברורים ושקופים

Microsoft Edge : הדפדפן שהשתנה בזכות מצב קו ההנחיה, אינטליגנציה מלאכותית בשירות הגלישה שלכם!

האיחוד האירופי: רגולציה זהירה מול ענקי הטק האמריקאיים

Grok-4, הישג חדש עבור הבינה המלאכותית של אלון מאסק במבחנים

Grok-4: מהפכה בביצועים באינטליגנציה מלאכותית

מיקוד בהיגיון

ביצועים יוצאי דופן במדדים

שיאים חדשים באינטליגנציה נזילה

הכרה במגבלות

תמחור ומנויים

פרספקטיבות עתידיות

שאלות נפוצות

.tdi_114{z-index:84546!important}אפל מתחילה בשליחת מוצר דגל שיוצר בטקסס

.tdi_133{z-index:84546!important}גניבה בלובר: הסוד של התמונה הוויראלית מפוענח על ידי הצלם שלה, בין שרלוק הולמס לאינטליגנציה מלאכותית

.tdi_152{z-index:84546!important}עסק חדשני במציאת עובדים עם ערכים ברורים ושקופים

.tdi_171{z-index:84546!important}Microsoft Edge : הדפדפן שהשתנה בזכות מצב קו ההנחיה, אינטליגנציה מלאכותית בשירות הגלישה שלכם!

.tdi_190{z-index:84546!important}האיחוד האירופי: רגולציה זהירה מול ענקי הטק האמריקאיים

אפל מתחילה בשליחת מוצר דגל שיוצר בטקסס

גניבה בלובר: הסוד של התמונה הוויראלית מפוענח על ידי הצלם שלה, בין שרלוק הולמס לאינטליגנציה מלאכותית

עסק חדשני במציאת עובדים עם ערכים ברורים ושקופים

Microsoft Edge : הדפדפן שהשתנה בזכות מצב קו ההנחיה, אינטליגנציה מלאכותית בשירות הגלישה שלכם!

האיחוד האירופי: רגולציה זהירה מול ענקי הטק האמריקאיים