שיטה חדשה לסייע לדגמים של בינה מלאכותית גנרטיבית לזהות אובייקטים מותאמים אישית

Publié le 17 אוקטובר 2025 à 09h34
modifié le 17 אוקטובר 2025 à 09h35

מודלים של בינה מלאכותית גנרטיבית מתמודדים עם אתגרים חדשים כאשר הם מנסים לזהות אובייקטים מותאמים אישית. היכולת לאתר אובייקט, כמו חיית מחמד, בסביבה עשירה בהסחות דעת מהווה פער משמעותי. שיטה חדשנית חדשה, שפותחה על ידי חוקרים ממכוני טכנולוגיה של מסצ'וסטס וממעבדת MIT-IBM Watson AI, שואפת לגשר על הפער הזה.

ההתקדמות הזו מתבססת על למידה הקשרית, המאפשרת למודלים לנצל רמזים ויזואליים. _שיפור הדיוק של מודלי בינה מלאכותית הוא אתגר בלתי ניתן להתעלמות ממנו._ היכולת לזהות אובייקטים ספציפיים בהקשרים שונים מהווה מהפכה עבור מגוון תחומי יישום. _שיטה זו ממסגרת את בעיית מיקום האובייקטים המותאמים הייחודיים כבעיה של התאמה._ בזכות הגישה הזו, מודלי הבינה המלאכותית יכולים כעת לפעול ביעילות רבה יותר, מה שמשנה את האינטראקציות האנושיות עם טכנולוגיה.

שיטה חדשנית לזיהוי אובייקטים מותאמים אישית על ידי בינה מלאכותית

חוקרים ממכוני טכנולוגיה של מסצ'וסטס ומהמעבדה MIT-IBM Watson AI פיתחו שיטה חדשה לשיפור יכולות המיקום של מודלי בינה מלאכותית גנרטיביים בהקשר של זיהוי אובייקטים מותאמים אישית. כיום, מודלים כמו GPT-5 מתמודדים עם אתגרים משמעותיים כשמדובר באיתור אובייקטים מוגדרים בתמונות, במיוחד כאשר לאובייקטים יש תכונות ייחודיות.

מגבלות של מודלים של ראייה-שפה

רוב המודלים של ראייה-שפה מתבלטים ביכולתם לזהות אובייקטים כלליים, כמו כלב או רכב, אך היעילות שלהם פוחתת במידה ניכרת כשמדובר במיקום אובייקט מותאם אישית, כמו חיית מחמד. לדוגמה, זיהוי של בולדוג צרפתי בפארק כלבים מציב קשיים בפני מערכות הבינה המלאכותית הקיימות.

החוקרים ציינו כי המודלים הנוכחיים לפעמים מתבססים על ידע קודם, תוך הזנחת רמזים הקשריים הנדרשים כדי לזהות בצורה ספציפית את האובייקט המבוקש. זה מדגיש תובנה מדאיגה לגבי יכולת המערכות הללו לפרש ראיות ויזואליות מורכבות.

שיטת הכשרה מבוססת מעקב ווידאו

כדי להתגבר על חיסרון זה, המדענים הציגו שיטת הכשרה המבוססת על נתוני מעקב ווידאו שהוכנו בקפדנות. טכניקה זו כוללת מעקב חוזר של אובייקט אחד דרך מספר תמונות, מה שמעודד את המודל להתמקד בהקשר ולא בידע קודם.

יצירת אוסף נתונים חדש, מתוך קטעי ווידאו, הייתה חיונית. באמצעות שימוש ברצפים המראים את אותו אובייקט בסביבות מגוונות, המדענים הצליחו לארגן כניסות המקלות על הלמידה באמצעות דוגמאות הקשריות. זה מאפשר למודלים להבין טוב יותר את הדקויות הקשורות למיקום של אובייקט ספציפי בהקשר נתון.

אתגרים של זיהוי בהקשר

אספקט מרתק של מחקר זה טמון במגמה של המודלים ל"התאכזר". כאשר מבקשים ממערכת לציין אובייקט, היא לפעמים נעזרת בידע קודם במקום לסמוך על רמזים הקשריים שצוינו בתמונה. לדוגמה, מודל עשוי לזהות טיגריס על סמך מאגר הנתונים שלו, ולא בגלל המסגרת הויזואלית הספציפית שבה הוא מופיע.

כדי לשפר מגמה זו, החוקרים השתמשו בכינויים לאובייקטים באוסף הנתונים שלהם. במקום לקרוא לטיגריס פשוט "טיגריסים", הם קראו לו בשם בדוי, מה שכפה על המודל להסתמך על הסביבה כדי לבצע את המסקנות שלו.

תוצאות והשלכות עתידיות

תוצאות מחקר זה מבטיחות. הכשרת ה-VLMs (מודלי ראייה-שפה) עם אוסף נתונים זה הובילה לשיפור של כ-12% ביעילות המיקום בממוצע. כאשר כינויים שולבו, רמות הביצועים עלו שיאים עם עלייה של 21%. התפתחות כזו עשויה לשנות את נוף הטכנולוגיות המסייעות והמעקב, ומאפשרת מעקב מדויק אחר אובייקטים בסביבות שונות.

החוקרים מתכוונים לחקור יותר מדוע ה-VLMs לא מצליחים להעביר את יכולות הלמידה ההקשרית שהועברו ל-LLMs (מודלי שפה). על ידי שיפור שיטות אלו, הם פותחים את הדרך ליישומים מעשיים, החל ממעקב אקולוגי ועד לסיוע למשתמשים עם לקויות ראייה.

הדוח הסופי על מחקר זה יוגש במהלך הכנס הבינלאומי על ראייה ממוחשבת (ICCV 2025) בהונולולו, הוואי, פלטפורמה אידיאלית לשיתוף ההתקדמות הזו.

שאלות נפוצות

מה השיטה החדשה לאיתור אובייקטים מותאמים אישית במודלי בינה מלאכותית גנרטיביים?
שיטה זו מלמדת את מודלי הראייה-שפה (VLM) לאתר אובייקטים ספציפיים על סמך דוגמאות הקשריות, ולא על סמך מידע ממוסד, ובכך מאפשרת זיהוי טוב יותר של אובייקטים מותאמים אישית בתמונות חדשות.

איך השיטה משפרת את הדיוק של מודלי בינה מלאכותית במיקום אובייקטים?
על ידי שימוש בנתוני מעקב ווידאו שהוכנו בקפדנות, שבהם האובייקט אותו עוקבים אחריו מהלך דרך מספר תמונות, זה מכפיף את המודל להסתמך על רמזים הקשריים כדי לזהות את האובייקט, ובכך לשפר את היעילות שלהם בזיהוי.

אילו סוגי אובייקטים מותאמים אישית יכולה השיטה הזו לזהות?
השיטה יכולה להיות מותאמת לזיהוי סוגים שונים של אובייקטים מותאמים אישית, כמו חיות מחמד, תיקי ילדים או אפילו פריטים מסוימים בסביבה ביתית.

איך שיטה זו שונה מטכניקות קודמות לאיתור אובייקטים?
בניגוד לטכניקות הקודמות שהתבססו על אוספי נתונים רנדומליים, שיטה זו משתמשת באוסף נתונים מסודר של רצפי ווידאו כדי ללמד את המודלים לאתר ללא צורך בהגדרות מראש.

מה היתרונות של שימוש בכינויים לאימון המודל?
כינויים מונעים מהמודל את האפשרות להשתמש בקשרים ממוסדים בין אובייקטים לתוויותיהם, מה שכרוך בסיכון להתרכז בהקשר הוויזואלי לזיהוי מדויק.

מה היקף שיפור הביצועים שהושג עם שיטה זו?
החוקרים ציפו לשיפור של כ-12% ביעילות בממוצע בזכות שיטה זו, ועד 21% כאשר נעשה שימוש בכינויים, מה שמעיד על האפקטיביות שלה.

אילו יישומים מעשיים עשויה השיטה הזו להיות בעולם האמיתי?
שיטה זו עשויה לשמש ביישומים כמו מעקב אחר חיות, סיוע מציאות מדומה, ואפילו בטכנולוגיות סיוע עבור אנשים עם לקויות ראייה, מה שמקל על איתור אובייקטים ספציפיים.

האם מודלי בינה מלאכותית צריכים להיות מאומנים לחלוטין עבור כל יישום חדש עם שיטה זו?
לא, בזכות ההכשרה ההקשרית, המודלים יכולים להתאים את ההבנה שלהם למשימה נתונה עם מספר מועט של דוגמאות, מה שצמצם את הצורך בהכשרה מורכבת בכל פעם.

actu.iaNon classéשיטה חדשה לסייע לדגמים של בינה מלאכותית גנרטיבית לזהות אובייקטים מותאמים אישית

איך גוגל איבדה יותר מ-150 מיליארד דולר בעקבות 'המשפט' שאמר מנכ"ל OpenAI, סם אלטמן

découvrez comment une simple déclaration de sam altman, pdg d’openai, a provoqué une chute de plus de 150 milliards de dollars dans la valorisation de google, bouleversant le secteur de la tech.
découvrez atlas, le nouveau navigateur web révolutionnaire signé openai, propulsé par chatgpt. innovation, rapidité et intelligence artificielle s'allient pour offrir une expérience de navigation unique, prête à concurrencer google.

AgentKit של OpenAI: הדרך עוד ארוכה לפני שנוליד את הסוכן שלנו

découvrez pourquoi agentkit d'openai représente une étape prometteuse mais encore incomplète vers la création d'un véritable agent autonome. analyse des défis à relever avant de voir naître un agent intelligent pleinement opérationnel.

גלה את קלוד קוד באינטרנט וב-iOS: מדריך גישה שלם

découvrez comment accéder facilement à claude code sur le web et ios grâce à notre guide complet. profitez d'une présentation claire des étapes pour utiliser claude code sur tous vos appareils.
des centaines d'experts et pionniers de l'ia lancent un appel urgent pour ralentir le développement de l'intelligence artificielle surpuissante, mettant en garde contre les risques et la nécessité d'un encadrement éthique accru.
harry et meghan rejoignent des experts en intelligence artificielle pour demander l'interdiction des systèmes d'ia superintelligents, soulignant les risques potentiels et appelant à une action internationale urgente.