Grok-4, הישג חדש עבור הבינה המלאכותית של אלון מאסק במבחנים

Publié le 11 יולי 2025 à 10h06
modifié le 11 יולי 2025 à 10h06

Grok-4 מגדיר מחדש את הנוף של אינטליגנציה מלאכותית, צומח כעמוד תווך של ביצועים בלתי מתפשרים. חידוש זה של xAI, שהוקם על ידי אילון מאסק, חורג מנורמות שהוקמו על ידי מדדי ביצוע מסורתיים. *תוצאות עליונות על המודלים של OpenAI*, אנתרופיק וגוגל DeepMind מעידות על התקדמות משמעותית.

הדגש על חשיבה לוגית מעניק ל-Grok-4 עליונות במשימות מורכבות. *היכולות המתואמות במקביל של Grok-4 Heavy* מציעות פרספקטיבה חדשה על פתרון בעיות. ההשלכות של הישג טכנולוגי זה חושפות פוטנציאל חדשני חסר תקדים בתחום ה-AI.

Grok-4: מהפכה בביצועים באינטליגנציה מלאכותית

המודל Grok-4, שפותח על ידי הסטארט-אפ xAI שהוקם על ידי אילון מאסק, עבר לאחרונה את המוביל הקודם, o3-pro של OpenAI, במהלך מדדי הביצוע. התקדמות זו היא תוצאה של הגברת מחקר על חשיבה לוגית מורכבת.

מיקוד בהיגיון

xAI החליטה למקד את מאמציה בהיגיון, בניגוד למודלים כלליים. Grok-4 מתמחה במשימות שדורשות חשיבה מתוחכמת והיגיון מתקדם. הושם דגש על למידת חיזוק, עם השקעות כגון השימוש ב-200,000 GPU מהמחשב העל Colossus.

ביצועים יוצאי דופן במדדים

מודל זה קבע שיאים מרשימים במספר מדדים. במבחן ברמת דוקטורט, Humanities Last Exam, Grok-4 פותר כמעט 26.9% מהשאלות במצב רגיל ו-45% עם גרסת ה-Heavy שלו. תוצאות אלו ממקמות אותו בבירור ברמה של מחקר פוסט-דוקטורט. בשום מקום אחר, אדם לא יכול לקוות להשיג אפילו 5% הצלחה במבחן זה.

במתמטיקה, הציון המושלם של Grok-4 מגיע ל-100% על ה-AIME25, עובר את o3 שהשיג 98.4%. על HMMT25, הוא מתבלט גם עם 96.7% מול 82.5% של Claude 4 Opus.

שיאים חדשים באינטליגנציה נזילה

Grok-4 מתבלט במיוחד במבחן ARC-AGI, הופך למודל ציבורי הראשון שחוצה את רף ה-10% דיוק עם 15.9%. גרג קמרט, נשיא ARC Prize, אישר את הביצועים יוצאי הדופן הללו. הציון הקודם היה בערך 8% עם Claude Opus 4.

הכרה במגבלות

אף על פי ש-Grok-4 נמצא בחזית החשיבה, חלק מהיכולות שלו מעוררות שאלות. הביצועים שלו במודלים מרובים עדיין בסיסיים. אילון מאסק עצמו הכיר בכך שמודל זה היה עיוור בחלקו ושההבנה שלו של תמונות זקוקה לשיפור.

בהתחשב בתכנות, Grok-4 מציג תוצאות מעורבות. במבחן LiveCodeBench, הוא רושם ציון של 79.4%, משתווה ל-Gemini 2.5 Pro ומעט מתחת ל-o3.

תמחור ומנויים

Grok-4 זמין לציבור הרחב דרך מנוי SuperGrok ב-30 דולר לחודש. המנוי SuperGrok Heavy, ב-300 דולר לחודש, מעניק גישה לגרסה מרובי סוכנים. המיצוב המחירתי הזה הופך את xAI לאחד מספקי ה-AI היקרים ביותר.

בינתיים, ה-API של Grok גם הוא נגיש, אם כי מחירים עדיין צריכים להיקבע.

פרספקטיבות עתידיות

xAI מתכננת לוח זמנים שאפתני לעתיד. מודל קידוד מקצועי מתוכנן לאוגוסט, אחריו סוכן מרובה-מודלים בספטמבר ומודל יצירת וידאו באוקטובר. התחרות נותרת אינטנסיבית, כאשר שחקנים נוספים כמו Claude וגוגל פועלים לפיתוח מודלים משלהם.

שאלות נפוצות

מהן התכונות העיקריות של Grok-4?
Grok-4 מתמקד בהיגיון מורכב, מפרק בעיות לשלבים ומזהה קשרים לוגיים. הוא משתמש בטכניקות מתקדמות של למידת חיזוק ויש לו הקשר של 256,000 טוקנים.

איך Grok-4 משווה למודלים אחרים של אינטליגנציה מלאכותית כמו אלה של OpenAI וגוגל?
Grok-4 עלה על ביצועי מודלים כמו o3-pro של OpenAI ו-Gemini 2.5 Pro, קובע שיאים חדשים במגוון מדדי ביצוע וטוען לביצועים עליונים מאלה של אנתרופיק וגוגל DeepMind.

מהן התוצאות של מדדי הביצוע של Grok-4?
Grok-4 השיג ציונים מרשימים: 26.9% הצלחה על Humanities Last Exam ו-100% על AIME25, וגם עלה על הביצועים של Claude-4 ושחקנים נוספים במבחנים שונים.

מהן המגבלות הנוכחיות של Grok-4?
אף על פי ש-Grok-4 מצטיין בהיגיון, היכולות המודולוליות שלו עדיין מוגבלות והוא מציג ביצועים מגוונים בתכנות, במיוחד על LiveCodeBench, שם הוא נוגע ב-79.4%.

מהו מודל Grok-4 Heavy וכיצד הוא שונה מהמודל הרגיל?
Grok-4 Heavy מעסיק מספר סוכנים במקביל לפתרון בעיות מורכבות, בכך מאפשר גישה יותרRobust ומגוונת לשאלות המוצקות.

מהו עלות הגישה ל-Grok-4 עבור המשתמשים?
המנוי SuperGrok ל-Grok-4 עולה 30 דולר לחודש, בעוד שהמנוי SuperGrok Heavy, המעביר גישה ליכולות המתקדמות של Grok-4 Heavy, מוצע ב-300 דולר לחודש.

אילו חידושים עתידיים מתוכננים ל-Grok-4?
xAI מתכננת להשיק מודל קידוד מקצועי באוגוסט, סוכן מרובה-מודלים בספטמבר ומודל יצירת וידאו באוקטובר, ובכך להוסיף תכנים נוספים לפלטפורמה.

actu.iaNon classéGrok-4, הישג חדש עבור הבינה המלאכותית של אלון מאסק במבחנים

עוברים ושבים המומים מלוח מודעות של אינטלקט מופרז בסגנון כן מדי

des passants ont été surpris en découvrant un panneau publicitaire généré par l’ia, dont le message étonnamment honnête a suscité de nombreuses réactions. découvrez les détails de cette campagne originale qui n’a laissé personne indifférent.

אפל מתחילה בשליחת מוצר דגל שיוצר בטקסס

apple débute l’expédition de son produit phare fabriqué au texas, renforçant sa présence industrielle américaine. découvrez comment cette initiative soutient l’innovation locale et la production nationale.
plongez dans les coulisses du fameux vol au louvre grâce au témoignage captivant du photographe derrière le cliché viral. entre analyse à la sherlock holmes et usage de l'intelligence artificielle, découvrez les secrets de cette image qui a fait le tour du web.

עסק חדשני במציאת עובדים עם ערכים ברורים ושקופים

rejoignez une entreprise innovante qui recherche des employés partageant des valeurs claires et transparentes. participez à une équipe engagée où intégrité, authenticité et esprit d'innovation sont au cœur de chaque projet !
découvrez comment le mode copilot de microsoft edge révolutionne votre expérience de navigation grâce à l’intelligence artificielle : conseils personnalisés, assistance instantanée et navigation optimisée au quotidien !

האיחוד האירופי: רגולציה זהירה מול ענקי הטק האמריקאיים

découvrez comment l'union européenne impose une régulation stricte et réfléchie aux grandes entreprises technologiques américaines, afin de protéger les consommateurs et d’assurer une concurrence équitable sur le marché numérique.