Les chercheurs d’OpenAI présentent MLE-bench : une nouvelle référence pour évaluer les performances des agents d’IA en ingénierie de l’apprentissage automatique.

Publié le 22 ಫೆಬ್ರವರಿ 2025 à 20h47
modifié le 22 ಫೆಬ್ರವರಿ 2025 à 20h47

MLE-bench : ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ ಸೃಜನಶೀಲ ತಂತ್ರಜ್ಞಾನ

OpenAI ಈಗಾಗಲೆ MLE-bench ಅನ್ನು ಪರಿಚಯಿಸಿದೆ, ಇದು ಯಂತ್ರ ಕಲೋಶಾಭಿವೃದ್ಧಿಯಲ್ಲಿ ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅಳೆಯಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ನಾವೀನ್ಯತೆಯ ತಾಣವಾಗಿದೆ. ಈ ಉಪಕ್ರಮವು IA ಮಾದರಿಗಳ ಅಭಿವೃದ್ಧಿ ಮತ್ತು ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ಉಲ್ಲೇಖಿಸಲು ಶ್ರೇಣೀಬದ್ಧ ಮಾನದಂಡವನ್ನು ಸ್ಥಾಪಿಸಲು ಉದ್ದೇಶಿತವಾಗಿದೆ.

75 ವಾಸ್ತವಿಕ ಇಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳು

MLE-bench ತನ್ನ 75 ವಾಸ್ತವಿಕ ಇಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳ ಆಧಾರದ ಮೇಲೆ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ ವಿಭಜಿತವಾಗಿರುತ್ತದೆ, ಇದು ಡೇಟಾ ವಿಜ್ಞಾನದ ಸ್ಪರ್ಧೆಗಳಿಗೆ ಪ್ರಸಿದ್ದವಾದ Kaggle ವೇದಿಕೆಯಲ್ಲಿಗೆ ಹೋಗುತ್ತದೆ. ಈ ಕಾರ್ಯಗಳು ವ್ಯಾಪಕವಾದ ಅಪ್ಲಿಕೇಷನ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತವೆ, thereby allowing researchers to test and compare the capabilities of AI agents in diverse contexts.

ಮಾದರಿಗಳ ನಡುವಿನ ಹೋಲಣೆಯನ್ನು ಉತ್ತೇಜನೆ

ಈ ವೇದಿಕೆಯು ಸಂಶೋಧಕರಿಗೆ ಮತ್ತು ಡೆವಲಪರ್‌ಗಳಿಗೆ ವಿಭಿನ್ನ ಯಂತ್ರ ಕಲಿಕೆ ಮಾದರಿಗಳ ಕಾರ್ಯಕ್ಷಮತೆಗಳ ಹೋಲಣೆ ಮಾಡಲು ಅನುಕೂಲ ಮಾಡುತ್ತದೆ. ಡೇಟಾವನ್ನು ಕೇಂದ್ರಿತಗೊಳಿಸುವ ಮೂಲಕ, MLE-bench ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ವಾಸ್ತವ ಸಹಾಯಮಟ್ಟವನ್ನು ಒದಗಿಸುತ್ತದೆ, ಇದರಿಂದಾಗಿ ವಿಶೇಷ ಸಂದೇಶಗಳಿಗೆ ಅತ್ಯಂತ ಕಾರ್ಯಕ್ಷಮ ಮಾದರಿಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಲು ಸುಲಭವಾಗುತ್ತದೆ.

ಏಜೆಂಟ್‌ಗಳ ದುರ್ಬಲತೆಗಳನ್ನು ಗುರುತಿಸುವುದು

ಶೋಧನೆಗಳು ಸಾಂಪ್ರದಾಯಿಕ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಜ ಕುತೂಹಲವನ್ನು ಶ್ರದ್ಧೆಗೊಳ್ಳುವಂತಹನೆಂದರೆ, ಈಸಾಂಪ್ರದಾಯಿಕ ಬೆಂಚ್‌ಮಾರ್ಕುಗಳನ್ನು ವರ್ಣಾತ್ಮಕವಾಗಿ ಕಾರ್ಯ ನಿರ್ವಹಿಸುವ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಪರಿಕಲ್ಪನೆಯಲ್ಲಿ ದುರ್ಬಲತೆಗಳನ್ನು ಏನು ತೆಗೆಯಲ್ಲ. MLE-bench ಮೂಲಕ, OpenAI ಈ ಪುಳಕತೆಗಳನ್ನು ಚೂರಿಸುತ್ತವೆ, AI ಏಜೆಂಟ್‌ಗಳ ಸಾಮರ್ಥ್ಯದ ಒಪ್ಪಂದವನ್ನು ಹೆಚ್ಚು ನಂಬಿಕೀಯವಾಗಿ ನೀಡಲು ಅನಿಶ್ಚಿತಕ средствами.

ಉತ್ಪಾದಕತೆ ಮತ್ತು ಕೈಗಾರಿಕೆಯಲ್ಲಿ ಪರಿಣಾಮಗಳು

ಜನನಶಕ್ತಿ ಬೆರೆಯುವ AI ತಮ್ಮ ಉದ್ಯೋಗದ ದೃಶ್ಯವನ್ನು ಬದಲಾಯಿಸಬಹುದು, ಇದು ಕಾರ್ಯದ ಉತ್ಪಾದಕತನವನ್ನು ಶ್ರೇಣೀಬದ್ಧಿಸುತ್ತದೆ. ಶೋಧಕರು ಈ ತಂತ್ರಜ್ಞಾನವು ಮುಂದಿನ ದಶಕದಲ್ಲಿ ಆರ್ಥಿಕ ಉದ್ದಿಮೆಗಳಿಗೆ ಮಹತ್ವಪೂರ್ಣ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತದೆ ಎಂದು ಊಹಿಸುತ್ತಾರೆ.

AI ತತ್ವಶೋಧನೆಗೆ ಟರ್ನಿಂಗ್ ಪಾಯಿಂಟ್

MLE-bench ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡುವ ಮೂಲಕ, OpenAI AI ಸೃಜನಶೀಲತೆಯಲ್ಲಿ ಮಾದರಿಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೇಗೆ ಅಳೆಯುತ್ತದೆ ಎಂಬುದರಲ್ಲಿ ಬದಲಾವಣೆಯನ್ನು ಸ್ಥಾಪಿಸುತ್ತವೆ. ಇದು ಸಮಾನ ರೀತಿಯ ಇನ್ನಷ್ಟು ಪ್ರಯತ್ನಗಳನ್ನು ಉತ್ತೇಜಿಸುತ್ತವೆ, ML ಅಳವಡಿಕೆಯನ್ನು ಸಾಧ worldwide.

ಭವಿಷ್ಯದ ದೃಷ್ಠಿ

MLE-bench ಮೂಲಕ ಪ್ರಗತಿಗಳು AI ಯ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿನ ಹೆಚ್ಚು ಪ್ರಾಮುಖ್ಯವಾದ ಮತ್ತು ಪ್ರಾಯೋಗಿಕ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಿಗೆ ದಾರಿ ತೆಗೆಯಬಹುದು. ಉಲ್ಲೇಖಿತ ಸಮಯದಲ್ಲಿ ಸಂಶೋಧಕರು ಹೊಸ ಮಾನದಂಡವನ್ನು ಅನ್ವೇಷಿಸಲು ಮುಂದಾಗುತ್ತಿರುವಾಗ, ತಾಂತ್ರಿಕ ಮತ್ತು ಕೈಗಾರಿಕ ಶ್ರೇಣಿಗಳಲ್ಲಿ ಲಕ್ಷ್ಯಗಳು ಉಲ್ಲೇಖಿತವಾಗುವ ಮೂಲಕ ಪ್ರಕಟವಾಗುತ್ತವೆ.

MLE-bench ಮತ್ತು AI ಏಜೆಂಟ್‌ಗಳ ಮೌಲ್ಯಮಾಪನದ ಕುರಿತಂತೆ ಸಾಮಾನ್ಯ ಪ್ರಶ್ನೆಗಳು

MLE-bench ಎಂದರೆ ಏನು ಮತ್ತು ಇದು ಏಕೆ ಬಳಸಲಾಗುತ್ತದೆ?
MLE-bench ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ವಿನ್ಯಾಸಗೊಳಿಸಿದ ಪ್ರಯೋಗಶೀಲಕವಾಗಿದೆ, ಇದು 75 ವಾಸ್ತವಿಕ ಇಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳಲ್ಲಿ ಪರೀಕ್ಷಿಸುತ್ತದೆ, ಹೀಗಾಗಿ ಕರಾರುವ ಕೈಗಾರಿಕೆಗೆ ಸೇರಿಸಲಾಗಿದೆ.
MLE-bench AI ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೇಗೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತದೆ?
MLE-bench AI ಏಜೆಂಟ್‌ಗಳನ್ನು ವಿವಿಧ ಕಾರ್ಯಗಳನ್ನು ತಲುಪಿಸಿ, ಅದು ವೇದಿಕೆಯ ಅಗತ್ಯತೆಗೆ ಅನುಕೂಲವಾಗುವಂತೆ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅಳೆಯುತ್ತದೆ.
MLE-bench ಗೆ ಒಳಗೊಂಡ ಕಾರ್ಯಗಳ ಪರ್ಯಾಯಗಳು ಯಾವದನ್ನು ಆಗುತ್ತವೆ?
MLE-bench ಗೆ ಒಳಗೊಂಡ ಕಾರ್ಯಗಳು ವಿಭಿನ್ನDeps ನಡೆಸುವುದರಲ್ಲಿ ಯಶಸ್ವಿವನ್ನು ಒಳಗೊಂಡ ಪರಿಕಲ್ಪನೆಗಳನ್ನು ವ್ಯಾಪಕವಾಗಿ ತಲುಪಿಸುತ್ತವೆ.
ಯಾರು MLE-bench ಬಳಸಬಹುದು?
MLE-bench ಅನ್ನು ಸಂಶೋಧಕರು, ಡೆವೆಲಪರ್‌ಗಳು ಮತ್ತು ವಿಭಿನ್ನ AI ಮಾದರಿಯ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಚಾರ್ಜ್ ಮಾಡುವ ಸಾಫ್ಟ್‌ವೇರ್ ಉತ್ಪಾದಕರಂತೆ ಬಳಸಬಹುದು.
MLE-bench ಅನ್ನು ಬಳಸುವುದು ಯಾಕೆ ಪ್ರಾಮುಖ್ಯವಾಗುವದು?
MLE-bench ಯು ಕೃತ್ಯಿಗಳ ಕಾರ್ಯಚಟುವಟಿಕೆಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ სივრცೆಯಲ್ಲಿ ಶ್ರೇಣೀಬದ್ಧಗುಂಡಾದ ಘಟಕವನ್ನು ಬಳಸಿ, ಉತ್ಪಾದಕಶೀಲತೆಯ ನಿರ್ದಿಷ್ಟತೆ ಒಳಗೊಂಡಿರುವಂತೆ ಸಂಖ್ಯೆಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯ ಕುರಿತಂತೆ ಬೆಂಬಲವನ್ನು ನೀಡುತ್ತವೆ.
MLE-bench ಓಪನ್ ಸೋರ್ಸ್ ಅಥವಾ ವ್ಯಾಪಾರವಾಗಿದೆ?
MLE-bench ಪ್ರಾಥಮಿಕವಾಗಿ ಶ್ರೇಣೀಬದ್ಧ ಸಂಶೋಧನಾ ವೇದಿಕೆ, ಆದರೆ ಅದರ ಓಪನ್ ಸೋರ್ಸ್ ಅಥವಾ ವ್ಯಾಪಾರವನ್ನು ಸಂಬಂಧಿಸಿದೆ.
MLE-bench ಅನ್ನು ಬಳಸಲು ಹೇಗೆ ಪ್ರಾರಂಭಿಸುವುದು?
MLE-bench ಅನ್ನು ಬಳಸಲು ಪ್ರಾರಂಭಿಸಲು, OpenAI ಅಧಿಕೃತ ದಾಖಲೆ ಹೀಗೆ ಬಳಸಲು ಇರುವ ಮಾರ್ಗವನ್ನು ಫಾಲೋ ಮಾಡಲು ಸುಪಾರ್ಹ ಇರುತ್ತದೆ.
MLE-bench ಬಳಸುವಲ್ಲಿ AI ಏಜೆಂಟ್‌ಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಸಮಸ್ಯೆ ಇದೆ ?
MLE-bench ಗೆಲ್ಲುವವರೆಗೂ, ಹಲವಾರು ಉಪಕರಣಗಳಿಗೆ ಸಂಬಂಧಿಸಿದಂತೆ ವಿಶೇಷ ಸ್ಪಷ್ಟತೆಗಳಿಗೆ ಹಾಗೂ ಬೆಲೆಗಳನ್ನು ಒಳಗೊಂಡ, ಅವಕಾಶಗಳನ್ನು ಪಡೆಯುತ್ತವೆ.
MLE-bench AI ಗೆ ಸಂಬಂಧಿಸಿದ ವಿವಿಧ ಮಟ್ಟಗಳನ್ನು ಹೊಂದಿಸಿರುವೆ ?
ಹೌದು, MLE-bench ಎಮಿಗೆ ಬುದ್ಧಿಮತ್ತೆ ತಂತ್ರಜ್ಞಾನ ಮತ್ತು ಅದನ್ನು ಬಳಸುವ ಸೇವೆ ಗಳ ಬಂದ ಮೊದಲೆ ಅಪ್ಲಿಕೇಶನ್ ಮಾಡುವುದು, ದ್ರಢವಾದ ವ್ಯವಸ್ಥೆಯ ಬಗ್ಗೆ ಅಭಿನಯಿಸುತ್ತವೆ.

actu.iaNon classéLes chercheurs d'OpenAI présentent MLE-bench : une nouvelle référence pour évaluer les...

Les infrastructures de données : le pilier essentiel du succès en intelligence artificielle

découvrez comment les infrastructures de données représentent le fondement incontournable pour réussir en intelligence artificielle. explorez l'importance cruciale de la gestion des données, leur collecte, stockage et traitement dans le développement de solutions ia performantes.
découvrez l'essor fulgurant du secteur de l'intelligence artificielle, prévoyant d'atteindre un objectif de 1000 milliards de dollars d'ici 2027. analyse des tendances, des innovations et des opportunités qui façonnent l'avenir de cette technologie révolutionnaire.
découvrez les motivations qui ont poussé mira murati à quitter son poste de directrice technique chez openai. cet article analyse les facteurs personnels et professionnels derrière sa démission, ainsi que son impact sur l'avenir de l'entreprise.
découvrez comment le pdg de tradeweb explore l'impact révolutionnaire de l'intelligence artificielle sur le secteur de l'investissement dans cette analyse préliminaire approfondie. un aperçu des tendances et des implications futures pour les investisseurs.
découvrez le nouveau programme innovant du mit en technologie musicale et computation. plongez dans l'intersection de la musique et des technologies avancées, formation idéale pour les créateurs de demain.
découvrez comment la pression de pékin pousse les entreprises locales à délaisser les puces nvidia, révélant un déclin significatif pour le géant technologique. analyse des implications sur le marché et des stratégies alternatives.