Les chercheurs d’OpenAI présentent MLE-bench : une nouvelle référence pour évaluer les performances des agents d’IA en ingénierie de l’apprentissage automatique.

Publié le 22 ಫೆಬ್ರವರಿ 2025 à 20h47
modifié le 22 ಫೆಬ್ರವರಿ 2025 à 20h47

MLE-bench : ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ ಸೃಜನಶೀಲ ತಂತ್ರಜ್ಞಾನ

OpenAI ಈಗಾಗಲೆ MLE-bench ಅನ್ನು ಪರಿಚಯಿಸಿದೆ, ಇದು ಯಂತ್ರ ಕಲೋಶಾಭಿವೃದ್ಧಿಯಲ್ಲಿ ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅಳೆಯಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ನಾವೀನ್ಯತೆಯ ತಾಣವಾಗಿದೆ. ಈ ಉಪಕ್ರಮವು IA ಮಾದರಿಗಳ ಅಭಿವೃದ್ಧಿ ಮತ್ತು ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ಉಲ್ಲೇಖಿಸಲು ಶ್ರೇಣೀಬದ್ಧ ಮಾನದಂಡವನ್ನು ಸ್ಥಾಪಿಸಲು ಉದ್ದೇಶಿತವಾಗಿದೆ.

75 ವಾಸ್ತವಿಕ ಇಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳು

MLE-bench ತನ್ನ 75 ವಾಸ್ತವಿಕ ಇಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳ ಆಧಾರದ ಮೇಲೆ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ ವಿಭಜಿತವಾಗಿರುತ್ತದೆ, ಇದು ಡೇಟಾ ವಿಜ್ಞಾನದ ಸ್ಪರ್ಧೆಗಳಿಗೆ ಪ್ರಸಿದ್ದವಾದ Kaggle ವೇದಿಕೆಯಲ್ಲಿಗೆ ಹೋಗುತ್ತದೆ. ಈ ಕಾರ್ಯಗಳು ವ್ಯಾಪಕವಾದ ಅಪ್ಲಿಕೇಷನ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತವೆ, thereby allowing researchers to test and compare the capabilities of AI agents in diverse contexts.

ಮಾದರಿಗಳ ನಡುವಿನ ಹೋಲಣೆಯನ್ನು ಉತ್ತೇಜನೆ

ಈ ವೇದಿಕೆಯು ಸಂಶೋಧಕರಿಗೆ ಮತ್ತು ಡೆವಲಪರ್‌ಗಳಿಗೆ ವಿಭಿನ್ನ ಯಂತ್ರ ಕಲಿಕೆ ಮಾದರಿಗಳ ಕಾರ್ಯಕ್ಷಮತೆಗಳ ಹೋಲಣೆ ಮಾಡಲು ಅನುಕೂಲ ಮಾಡುತ್ತದೆ. ಡೇಟಾವನ್ನು ಕೇಂದ್ರಿತಗೊಳಿಸುವ ಮೂಲಕ, MLE-bench ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ವಾಸ್ತವ ಸಹಾಯಮಟ್ಟವನ್ನು ಒದಗಿಸುತ್ತದೆ, ಇದರಿಂದಾಗಿ ವಿಶೇಷ ಸಂದೇಶಗಳಿಗೆ ಅತ್ಯಂತ ಕಾರ್ಯಕ್ಷಮ ಮಾದರಿಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಲು ಸುಲಭವಾಗುತ್ತದೆ.

ಏಜೆಂಟ್‌ಗಳ ದುರ್ಬಲತೆಗಳನ್ನು ಗುರುತಿಸುವುದು

ಶೋಧನೆಗಳು ಸಾಂಪ್ರದಾಯಿಕ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಜ ಕುತೂಹಲವನ್ನು ಶ್ರದ್ಧೆಗೊಳ್ಳುವಂತಹನೆಂದರೆ, ಈಸಾಂಪ್ರದಾಯಿಕ ಬೆಂಚ್‌ಮಾರ್ಕುಗಳನ್ನು ವರ್ಣಾತ್ಮಕವಾಗಿ ಕಾರ್ಯ ನಿರ್ವಹಿಸುವ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಪರಿಕಲ್ಪನೆಯಲ್ಲಿ ದುರ್ಬಲತೆಗಳನ್ನು ಏನು ತೆಗೆಯಲ್ಲ. MLE-bench ಮೂಲಕ, OpenAI ಈ ಪುಳಕತೆಗಳನ್ನು ಚೂರಿಸುತ್ತವೆ, AI ಏಜೆಂಟ್‌ಗಳ ಸಾಮರ್ಥ್ಯದ ಒಪ್ಪಂದವನ್ನು ಹೆಚ್ಚು ನಂಬಿಕೀಯವಾಗಿ ನೀಡಲು ಅನಿಶ್ಚಿತಕ средствами.

ಉತ್ಪಾದಕತೆ ಮತ್ತು ಕೈಗಾರಿಕೆಯಲ್ಲಿ ಪರಿಣಾಮಗಳು

ಜನನಶಕ್ತಿ ಬೆರೆಯುವ AI ತಮ್ಮ ಉದ್ಯೋಗದ ದೃಶ್ಯವನ್ನು ಬದಲಾಯಿಸಬಹುದು, ಇದು ಕಾರ್ಯದ ಉತ್ಪಾದಕತನವನ್ನು ಶ್ರೇಣೀಬದ್ಧಿಸುತ್ತದೆ. ಶೋಧಕರು ಈ ತಂತ್ರಜ್ಞಾನವು ಮುಂದಿನ ದಶಕದಲ್ಲಿ ಆರ್ಥಿಕ ಉದ್ದಿಮೆಗಳಿಗೆ ಮಹತ್ವಪೂರ್ಣ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತದೆ ಎಂದು ಊಹಿಸುತ್ತಾರೆ.

AI ತತ್ವಶೋಧನೆಗೆ ಟರ್ನಿಂಗ್ ಪಾಯಿಂಟ್

MLE-bench ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡುವ ಮೂಲಕ, OpenAI AI ಸೃಜನಶೀಲತೆಯಲ್ಲಿ ಮಾದರಿಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೇಗೆ ಅಳೆಯುತ್ತದೆ ಎಂಬುದರಲ್ಲಿ ಬದಲಾವಣೆಯನ್ನು ಸ್ಥಾಪಿಸುತ್ತವೆ. ಇದು ಸಮಾನ ರೀತಿಯ ಇನ್ನಷ್ಟು ಪ್ರಯತ್ನಗಳನ್ನು ಉತ್ತೇಜಿಸುತ್ತವೆ, ML ಅಳವಡಿಕೆಯನ್ನು ಸಾಧ worldwide.

ಭವಿಷ್ಯದ ದೃಷ್ಠಿ

MLE-bench ಮೂಲಕ ಪ್ರಗತಿಗಳು AI ಯ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿನ ಹೆಚ್ಚು ಪ್ರಾಮುಖ್ಯವಾದ ಮತ್ತು ಪ್ರಾಯೋಗಿಕ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಿಗೆ ದಾರಿ ತೆಗೆಯಬಹುದು. ಉಲ್ಲೇಖಿತ ಸಮಯದಲ್ಲಿ ಸಂಶೋಧಕರು ಹೊಸ ಮಾನದಂಡವನ್ನು ಅನ್ವೇಷಿಸಲು ಮುಂದಾಗುತ್ತಿರುವಾಗ, ತಾಂತ್ರಿಕ ಮತ್ತು ಕೈಗಾರಿಕ ಶ್ರೇಣಿಗಳಲ್ಲಿ ಲಕ್ಷ್ಯಗಳು ಉಲ್ಲೇಖಿತವಾಗುವ ಮೂಲಕ ಪ್ರಕಟವಾಗುತ್ತವೆ.

MLE-bench ಮತ್ತು AI ಏಜೆಂಟ್‌ಗಳ ಮೌಲ್ಯಮಾಪನದ ಕುರಿತಂತೆ ಸಾಮಾನ್ಯ ಪ್ರಶ್ನೆಗಳು

MLE-bench ಎಂದರೆ ಏನು ಮತ್ತು ಇದು ಏಕೆ ಬಳಸಲಾಗುತ್ತದೆ?
MLE-bench ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ವಿನ್ಯಾಸಗೊಳಿಸಿದ ಪ್ರಯೋಗಶೀಲಕವಾಗಿದೆ, ಇದು 75 ವಾಸ್ತವಿಕ ಇಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳಲ್ಲಿ ಪರೀಕ್ಷಿಸುತ್ತದೆ, ಹೀಗಾಗಿ ಕರಾರುವ ಕೈಗಾರಿಕೆಗೆ ಸೇರಿಸಲಾಗಿದೆ.
MLE-bench AI ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೇಗೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತದೆ?
MLE-bench AI ಏಜೆಂಟ್‌ಗಳನ್ನು ವಿವಿಧ ಕಾರ್ಯಗಳನ್ನು ತಲುಪಿಸಿ, ಅದು ವೇದಿಕೆಯ ಅಗತ್ಯತೆಗೆ ಅನುಕೂಲವಾಗುವಂತೆ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅಳೆಯುತ್ತದೆ.
MLE-bench ಗೆ ಒಳಗೊಂಡ ಕಾರ್ಯಗಳ ಪರ್ಯಾಯಗಳು ಯಾವದನ್ನು ಆಗುತ್ತವೆ?
MLE-bench ಗೆ ಒಳಗೊಂಡ ಕಾರ್ಯಗಳು ವಿಭಿನ್ನDeps ನಡೆಸುವುದರಲ್ಲಿ ಯಶಸ್ವಿವನ್ನು ಒಳಗೊಂಡ ಪರಿಕಲ್ಪನೆಗಳನ್ನು ವ್ಯಾಪಕವಾಗಿ ತಲುಪಿಸುತ್ತವೆ.
ಯಾರು MLE-bench ಬಳಸಬಹುದು?
MLE-bench ಅನ್ನು ಸಂಶೋಧಕರು, ಡೆವೆಲಪರ್‌ಗಳು ಮತ್ತು ವಿಭಿನ್ನ AI ಮಾದರಿಯ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಚಾರ್ಜ್ ಮಾಡುವ ಸಾಫ್ಟ್‌ವೇರ್ ಉತ್ಪಾದಕರಂತೆ ಬಳಸಬಹುದು.
MLE-bench ಅನ್ನು ಬಳಸುವುದು ಯಾಕೆ ಪ್ರಾಮುಖ್ಯವಾಗುವದು?
MLE-bench ಯು ಕೃತ್ಯಿಗಳ ಕಾರ್ಯಚಟುವಟಿಕೆಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ სივრცೆಯಲ್ಲಿ ಶ್ರೇಣೀಬದ್ಧಗುಂಡಾದ ಘಟಕವನ್ನು ಬಳಸಿ, ಉತ್ಪಾದಕಶೀಲತೆಯ ನಿರ್ದಿಷ್ಟತೆ ಒಳಗೊಂಡಿರುವಂತೆ ಸಂಖ್ಯೆಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯ ಕುರಿತಂತೆ ಬೆಂಬಲವನ್ನು ನೀಡುತ್ತವೆ.
MLE-bench ಓಪನ್ ಸೋರ್ಸ್ ಅಥವಾ ವ್ಯಾಪಾರವಾಗಿದೆ?
MLE-bench ಪ್ರಾಥಮಿಕವಾಗಿ ಶ್ರೇಣೀಬದ್ಧ ಸಂಶೋಧನಾ ವೇದಿಕೆ, ಆದರೆ ಅದರ ಓಪನ್ ಸೋರ್ಸ್ ಅಥವಾ ವ್ಯಾಪಾರವನ್ನು ಸಂಬಂಧಿಸಿದೆ.
MLE-bench ಅನ್ನು ಬಳಸಲು ಹೇಗೆ ಪ್ರಾರಂಭಿಸುವುದು?
MLE-bench ಅನ್ನು ಬಳಸಲು ಪ್ರಾರಂಭಿಸಲು, OpenAI ಅಧಿಕೃತ ದಾಖಲೆ ಹೀಗೆ ಬಳಸಲು ಇರುವ ಮಾರ್ಗವನ್ನು ಫಾಲೋ ಮಾಡಲು ಸುಪಾರ್ಹ ಇರುತ್ತದೆ.
MLE-bench ಬಳಸುವಲ್ಲಿ AI ಏಜೆಂಟ್‌ಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಸಮಸ್ಯೆ ಇದೆ ?
MLE-bench ಗೆಲ್ಲುವವರೆಗೂ, ಹಲವಾರು ಉಪಕರಣಗಳಿಗೆ ಸಂಬಂಧಿಸಿದಂತೆ ವಿಶೇಷ ಸ್ಪಷ್ಟತೆಗಳಿಗೆ ಹಾಗೂ ಬೆಲೆಗಳನ್ನು ಒಳಗೊಂಡ, ಅವಕಾಶಗಳನ್ನು ಪಡೆಯುತ್ತವೆ.
MLE-bench AI ಗೆ ಸಂಬಂಧಿಸಿದ ವಿವಿಧ ಮಟ್ಟಗಳನ್ನು ಹೊಂದಿಸಿರುವೆ ?
ಹೌದು, MLE-bench ಎಮಿಗೆ ಬುದ್ಧಿಮತ್ತೆ ತಂತ್ರಜ್ಞಾನ ಮತ್ತು ಅದನ್ನು ಬಳಸುವ ಸೇವೆ ಗಳ ಬಂದ ಮೊದಲೆ ಅಪ್ಲಿಕೇಶನ್ ಮಾಡುವುದು, ದ್ರಢವಾದ ವ್ಯವಸ್ಥೆಯ ಬಗ್ಗೆ ಅಭಿನಯಿಸುತ್ತವೆ.

actu.iaNon classéLes chercheurs d'OpenAI présentent MLE-bench : une nouvelle référence pour évaluer les...

ಗಣಕಿಯೊಬ್ಬರ ಹಣೆಯನ್ನು ತುಂಬಾ ಸತ್ಯವಾಗಿ ಹೊಂದಿರುವ ಜಾಹೀರಾತು ಪಟಕ್ಕೆ ಅದ್ಭುತವಾಗಿ ತೀವ್ರವಾದ ವ್ಯಾಪಾರಿಗಳು

des passants ont été surpris en découvrant un panneau publicitaire généré par l’ia, dont le message étonnamment honnête a suscité de nombreuses réactions. découvrez les détails de cette campagne originale qui n’a laissé personne indifférent.
apple débute l’expédition de son produit phare fabriqué au texas, renforçant sa présence industrielle américaine. découvrez comment cette initiative soutient l’innovation locale et la production nationale.
plongez dans les coulisses du fameux vol au louvre grâce au témoignage captivant du photographe derrière le cliché viral. entre analyse à la sherlock holmes et usage de l'intelligence artificielle, découvrez les secrets de cette image qui a fait le tour du web.
rejoignez une entreprise innovante qui recherche des employés partageant des valeurs claires et transparentes. participez à une équipe engagée où intégrité, authenticité et esprit d'innovation sont au cœur de chaque projet !
découvrez comment le mode copilot de microsoft edge révolutionne votre expérience de navigation grâce à l’intelligence artificielle : conseils personnalisés, assistance instantanée et navigation optimisée au quotidien !
découvrez comment l'union européenne impose une régulation stricte et réfléchie aux grandes entreprises technologiques américaines, afin de protéger les consommateurs et d’assurer une concurrence équitable sur le marché numérique.