Les chercheurs d’OpenAI présentent MLE-bench : une nouvelle référence pour évaluer les performances des agents d’IA en ingénierie de l’apprentissage automatique.

Publié le 22 ಫೆಬ್ರವರಿ 2025 à 20h47
modifié le 22 ಫೆಬ್ರವರಿ 2025 à 20h47

MLE-bench : ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ ಸೃಜನಶೀಲ ತಂತ್ರಜ್ಞಾನ

OpenAI ಈಗಾಗಲೆ MLE-bench ಅನ್ನು ಪರಿಚಯಿಸಿದೆ, ಇದು ಯಂತ್ರ ಕಲೋಶಾಭಿವೃದ್ಧಿಯಲ್ಲಿ ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅಳೆಯಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ನಾವೀನ್ಯತೆಯ ತಾಣವಾಗಿದೆ. ಈ ಉಪಕ್ರಮವು IA ಮಾದರಿಗಳ ಅಭಿವೃದ್ಧಿ ಮತ್ತು ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ಉಲ್ಲೇಖಿಸಲು ಶ್ರೇಣೀಬದ್ಧ ಮಾನದಂಡವನ್ನು ಸ್ಥಾಪಿಸಲು ಉದ್ದೇಶಿತವಾಗಿದೆ.

75 ವಾಸ್ತವಿಕ ಇಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳು

MLE-bench ತನ್ನ 75 ವಾಸ್ತವಿಕ ಇಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳ ಆಧಾರದ ಮೇಲೆ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ ವಿಭಜಿತವಾಗಿರುತ್ತದೆ, ಇದು ಡೇಟಾ ವಿಜ್ಞಾನದ ಸ್ಪರ್ಧೆಗಳಿಗೆ ಪ್ರಸಿದ್ದವಾದ Kaggle ವೇದಿಕೆಯಲ್ಲಿಗೆ ಹೋಗುತ್ತದೆ. ಈ ಕಾರ್ಯಗಳು ವ್ಯಾಪಕವಾದ ಅಪ್ಲಿಕೇಷನ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತವೆ, thereby allowing researchers to test and compare the capabilities of AI agents in diverse contexts.

ಮಾದರಿಗಳ ನಡುವಿನ ಹೋಲಣೆಯನ್ನು ಉತ್ತೇಜನೆ

ಈ ವೇದಿಕೆಯು ಸಂಶೋಧಕರಿಗೆ ಮತ್ತು ಡೆವಲಪರ್‌ಗಳಿಗೆ ವಿಭಿನ್ನ ಯಂತ್ರ ಕಲಿಕೆ ಮಾದರಿಗಳ ಕಾರ್ಯಕ್ಷಮತೆಗಳ ಹೋಲಣೆ ಮಾಡಲು ಅನುಕೂಲ ಮಾಡುತ್ತದೆ. ಡೇಟಾವನ್ನು ಕೇಂದ್ರಿತಗೊಳಿಸುವ ಮೂಲಕ, MLE-bench ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ವಾಸ್ತವ ಸಹಾಯಮಟ್ಟವನ್ನು ಒದಗಿಸುತ್ತದೆ, ಇದರಿಂದಾಗಿ ವಿಶೇಷ ಸಂದೇಶಗಳಿಗೆ ಅತ್ಯಂತ ಕಾರ್ಯಕ್ಷಮ ಮಾದರಿಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಲು ಸುಲಭವಾಗುತ್ತದೆ.

ಏಜೆಂಟ್‌ಗಳ ದುರ್ಬಲತೆಗಳನ್ನು ಗುರುತಿಸುವುದು

ಶೋಧನೆಗಳು ಸಾಂಪ್ರದಾಯಿಕ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಜ ಕುತೂಹಲವನ್ನು ಶ್ರದ್ಧೆಗೊಳ್ಳುವಂತಹನೆಂದರೆ, ಈಸಾಂಪ್ರದಾಯಿಕ ಬೆಂಚ್‌ಮಾರ್ಕುಗಳನ್ನು ವರ್ಣಾತ್ಮಕವಾಗಿ ಕಾರ್ಯ ನಿರ್ವಹಿಸುವ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಪರಿಕಲ್ಪನೆಯಲ್ಲಿ ದುರ್ಬಲತೆಗಳನ್ನು ಏನು ತೆಗೆಯಲ್ಲ. MLE-bench ಮೂಲಕ, OpenAI ಈ ಪುಳಕತೆಗಳನ್ನು ಚೂರಿಸುತ್ತವೆ, AI ಏಜೆಂಟ್‌ಗಳ ಸಾಮರ್ಥ್ಯದ ಒಪ್ಪಂದವನ್ನು ಹೆಚ್ಚು ನಂಬಿಕೀಯವಾಗಿ ನೀಡಲು ಅನಿಶ್ಚಿತಕ средствами.

ಉತ್ಪಾದಕತೆ ಮತ್ತು ಕೈಗಾರಿಕೆಯಲ್ಲಿ ಪರಿಣಾಮಗಳು

ಜನನಶಕ್ತಿ ಬೆರೆಯುವ AI ತಮ್ಮ ಉದ್ಯೋಗದ ದೃಶ್ಯವನ್ನು ಬದಲಾಯಿಸಬಹುದು, ಇದು ಕಾರ್ಯದ ಉತ್ಪಾದಕತನವನ್ನು ಶ್ರೇಣೀಬದ್ಧಿಸುತ್ತದೆ. ಶೋಧಕರು ಈ ತಂತ್ರಜ್ಞಾನವು ಮುಂದಿನ ದಶಕದಲ್ಲಿ ಆರ್ಥಿಕ ಉದ್ದಿಮೆಗಳಿಗೆ ಮಹತ್ವಪೂರ್ಣ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತದೆ ಎಂದು ಊಹಿಸುತ್ತಾರೆ.

AI ತತ್ವಶೋಧನೆಗೆ ಟರ್ನಿಂಗ್ ಪಾಯಿಂಟ್

MLE-bench ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡುವ ಮೂಲಕ, OpenAI AI ಸೃಜನಶೀಲತೆಯಲ್ಲಿ ಮಾದರಿಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೇಗೆ ಅಳೆಯುತ್ತದೆ ಎಂಬುದರಲ್ಲಿ ಬದಲಾವಣೆಯನ್ನು ಸ್ಥಾಪಿಸುತ್ತವೆ. ಇದು ಸಮಾನ ರೀತಿಯ ಇನ್ನಷ್ಟು ಪ್ರಯತ್ನಗಳನ್ನು ಉತ್ತೇಜಿಸುತ್ತವೆ, ML ಅಳವಡಿಕೆಯನ್ನು ಸಾಧ worldwide.

ಭವಿಷ್ಯದ ದೃಷ್ಠಿ

MLE-bench ಮೂಲಕ ಪ್ರಗತಿಗಳು AI ಯ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿನ ಹೆಚ್ಚು ಪ್ರಾಮುಖ್ಯವಾದ ಮತ್ತು ಪ್ರಾಯೋಗಿಕ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಿಗೆ ದಾರಿ ತೆಗೆಯಬಹುದು. ಉಲ್ಲೇಖಿತ ಸಮಯದಲ್ಲಿ ಸಂಶೋಧಕರು ಹೊಸ ಮಾನದಂಡವನ್ನು ಅನ್ವೇಷಿಸಲು ಮುಂದಾಗುತ್ತಿರುವಾಗ, ತಾಂತ್ರಿಕ ಮತ್ತು ಕೈಗಾರಿಕ ಶ್ರೇಣಿಗಳಲ್ಲಿ ಲಕ್ಷ್ಯಗಳು ಉಲ್ಲೇಖಿತವಾಗುವ ಮೂಲಕ ಪ್ರಕಟವಾಗುತ್ತವೆ.

MLE-bench ಮತ್ತು AI ಏಜೆಂಟ್‌ಗಳ ಮೌಲ್ಯಮಾಪನದ ಕುರಿತಂತೆ ಸಾಮಾನ್ಯ ಪ್ರಶ್ನೆಗಳು

MLE-bench ಎಂದರೆ ಏನು ಮತ್ತು ಇದು ಏಕೆ ಬಳಸಲಾಗುತ್ತದೆ?
MLE-bench ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ವಿನ್ಯಾಸಗೊಳಿಸಿದ ಪ್ರಯೋಗಶೀಲಕವಾಗಿದೆ, ಇದು 75 ವಾಸ್ತವಿಕ ಇಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳಲ್ಲಿ ಪರೀಕ್ಷಿಸುತ್ತದೆ, ಹೀಗಾಗಿ ಕರಾರುವ ಕೈಗಾರಿಕೆಗೆ ಸೇರಿಸಲಾಗಿದೆ.
MLE-bench AI ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೇಗೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತದೆ?
MLE-bench AI ಏಜೆಂಟ್‌ಗಳನ್ನು ವಿವಿಧ ಕಾರ್ಯಗಳನ್ನು ತಲುಪಿಸಿ, ಅದು ವೇದಿಕೆಯ ಅಗತ್ಯತೆಗೆ ಅನುಕೂಲವಾಗುವಂತೆ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅಳೆಯುತ್ತದೆ.
MLE-bench ಗೆ ಒಳಗೊಂಡ ಕಾರ್ಯಗಳ ಪರ್ಯಾಯಗಳು ಯಾವದನ್ನು ಆಗುತ್ತವೆ?
MLE-bench ಗೆ ಒಳಗೊಂಡ ಕಾರ್ಯಗಳು ವಿಭಿನ್ನDeps ನಡೆಸುವುದರಲ್ಲಿ ಯಶಸ್ವಿವನ್ನು ಒಳಗೊಂಡ ಪರಿಕಲ್ಪನೆಗಳನ್ನು ವ್ಯಾಪಕವಾಗಿ ತಲುಪಿಸುತ್ತವೆ.
ಯಾರು MLE-bench ಬಳಸಬಹುದು?
MLE-bench ಅನ್ನು ಸಂಶೋಧಕರು, ಡೆವೆಲಪರ್‌ಗಳು ಮತ್ತು ವಿಭಿನ್ನ AI ಮಾದರಿಯ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಚಾರ್ಜ್ ಮಾಡುವ ಸಾಫ್ಟ್‌ವೇರ್ ಉತ್ಪಾದಕರಂತೆ ಬಳಸಬಹುದು.
MLE-bench ಅನ್ನು ಬಳಸುವುದು ಯಾಕೆ ಪ್ರಾಮುಖ್ಯವಾಗುವದು?
MLE-bench ಯು ಕೃತ್ಯಿಗಳ ಕಾರ್ಯಚಟುವಟಿಕೆಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ სივრცೆಯಲ್ಲಿ ಶ್ರೇಣೀಬದ್ಧಗುಂಡಾದ ಘಟಕವನ್ನು ಬಳಸಿ, ಉತ್ಪಾದಕಶೀಲತೆಯ ನಿರ್ದಿಷ್ಟತೆ ಒಳಗೊಂಡಿರುವಂತೆ ಸಂಖ್ಯೆಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯ ಕುರಿತಂತೆ ಬೆಂಬಲವನ್ನು ನೀಡುತ್ತವೆ.
MLE-bench ಓಪನ್ ಸೋರ್ಸ್ ಅಥವಾ ವ್ಯಾಪಾರವಾಗಿದೆ?
MLE-bench ಪ್ರಾಥಮಿಕವಾಗಿ ಶ್ರೇಣೀಬದ್ಧ ಸಂಶೋಧನಾ ವೇದಿಕೆ, ಆದರೆ ಅದರ ಓಪನ್ ಸೋರ್ಸ್ ಅಥವಾ ವ್ಯಾಪಾರವನ್ನು ಸಂಬಂಧಿಸಿದೆ.
MLE-bench ಅನ್ನು ಬಳಸಲು ಹೇಗೆ ಪ್ರಾರಂಭಿಸುವುದು?
MLE-bench ಅನ್ನು ಬಳಸಲು ಪ್ರಾರಂಭಿಸಲು, OpenAI ಅಧಿಕೃತ ದಾಖಲೆ ಹೀಗೆ ಬಳಸಲು ಇರುವ ಮಾರ್ಗವನ್ನು ಫಾಲೋ ಮಾಡಲು ಸುಪಾರ್ಹ ಇರುತ್ತದೆ.
MLE-bench ಬಳಸುವಲ್ಲಿ AI ಏಜೆಂಟ್‌ಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಸಮಸ್ಯೆ ಇದೆ ?
MLE-bench ಗೆಲ್ಲುವವರೆಗೂ, ಹಲವಾರು ಉಪಕರಣಗಳಿಗೆ ಸಂಬಂಧಿಸಿದಂತೆ ವಿಶೇಷ ಸ್ಪಷ್ಟತೆಗಳಿಗೆ ಹಾಗೂ ಬೆಲೆಗಳನ್ನು ಒಳಗೊಂಡ, ಅವಕಾಶಗಳನ್ನು ಪಡೆಯುತ್ತವೆ.
MLE-bench AI ಗೆ ಸಂಬಂಧಿಸಿದ ವಿವಿಧ ಮಟ್ಟಗಳನ್ನು ಹೊಂದಿಸಿರುವೆ ?
ಹೌದು, MLE-bench ಎಮಿಗೆ ಬುದ್ಧಿಮತ್ತೆ ತಂತ್ರಜ್ಞಾನ ಮತ್ತು ಅದನ್ನು ಬಳಸುವ ಸೇವೆ ಗಳ ಬಂದ ಮೊದಲೆ ಅಪ್ಲಿಕೇಶನ್ ಮಾಡುವುದು, ದ್ರಢವಾದ ವ್ಯವಸ್ಥೆಯ ಬಗ್ಗೆ ಅಭಿನಯಿಸುತ್ತವೆ.

actu.iaNon classéLes chercheurs d'OpenAI présentent MLE-bench : une nouvelle référence pour évaluer les...

Apple ಸಿದ್ದಾಂತರಿತವಾಗಿ Anthropic ಮತ್ತು OpenAI ಗೆ Siri ಗೆ ಶಕ್ತಿ ನೀಡಲು ಅವಕಾಶ ನೀಡುವುದಾಗಿ ಕಾಣಿಸುತ್ತದೆ

découvrez comment apple pourrait révolutionner siri en intégrant les technologies d'anthropic et d'openai. plongez dans les enjeux et les innovations à venir dans l'assistant vocal d'apple.
découvrez l'énigmatique succès d'un groupe fictif sur spotify et plongez dans une réflexion profonde sur les enjeux et dynamiques de la plateforme musicale. qu'est-ce qui rend ce phénomène si captivant ?
découvrez comment l'intelligence artificielle révolutionne la recherche scientifique en accélérant la découverte de nouveaux traitements, technologies et solutions innovantes. plongez dans un avenir où la science évolue à une vitesse vertigineuse grâce à des algorithmes avancés et des analyses de données puissantes.
découvrez le bilan des fusions-acquisitions en cybersécurité pour juin, où les avancées en intelligence artificielle révolutionnent le secteur. analyse des tendances et des impacts sur le marché.
découvrez comment l'épreuve du grand oral du bac évolue à l'ère de chatgpt, en explorant l'importance de la profondeur des connaissances et de l'argumentation. une réflexion essentielle pour les futurs bacheliers confrontés à de nouveaux outils numériques.
découvrez comment l'intelligence artificielle transforme notre quotidien en influençant nos habitudes, nos choix et nos interactions. explorez les technologies innovantes qui révolutionnent notre manière de vivre et de travailler, et plongez dans l'avenir façonné par l'ia.