Les chercheurs d’OpenAI présentent MLE-bench : une nouvelle référence pour évaluer les performances des agents d’IA en ingénierie de l’apprentissage automatique.

Publié le 22 ಫೆಬ್ರವರಿ 2025 à 20h47
modifié le 22 ಫೆಬ್ರವರಿ 2025 à 20h47

MLE-bench : ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ ಸೃಜನಶೀಲ ತಂತ್ರಜ್ಞಾನ

OpenAI ಈಗಾಗಲೆ MLE-bench ಅನ್ನು ಪರಿಚಯಿಸಿದೆ, ಇದು ಯಂತ್ರ ಕಲೋಶಾಭಿವೃದ್ಧಿಯಲ್ಲಿ ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅಳೆಯಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ನಾವೀನ್ಯತೆಯ ತಾಣವಾಗಿದೆ. ಈ ಉಪಕ್ರಮವು IA ಮಾದರಿಗಳ ಅಭಿವೃದ್ಧಿ ಮತ್ತು ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ಉಲ್ಲೇಖಿಸಲು ಶ್ರೇಣೀಬದ್ಧ ಮಾನದಂಡವನ್ನು ಸ್ಥಾಪಿಸಲು ಉದ್ದೇಶಿತವಾಗಿದೆ.

75 ವಾಸ್ತವಿಕ ಇಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳು

MLE-bench ತನ್ನ 75 ವಾಸ್ತವಿಕ ಇಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳ ಆಧಾರದ ಮೇಲೆ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ ವಿಭಜಿತವಾಗಿರುತ್ತದೆ, ಇದು ಡೇಟಾ ವಿಜ್ಞಾನದ ಸ್ಪರ್ಧೆಗಳಿಗೆ ಪ್ರಸಿದ್ದವಾದ Kaggle ವೇದಿಕೆಯಲ್ಲಿಗೆ ಹೋಗುತ್ತದೆ. ಈ ಕಾರ್ಯಗಳು ವ್ಯಾಪಕವಾದ ಅಪ್ಲಿಕೇಷನ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತವೆ, thereby allowing researchers to test and compare the capabilities of AI agents in diverse contexts.

ಮಾದರಿಗಳ ನಡುವಿನ ಹೋಲಣೆಯನ್ನು ಉತ್ತೇಜನೆ

ಈ ವೇದಿಕೆಯು ಸಂಶೋಧಕರಿಗೆ ಮತ್ತು ಡೆವಲಪರ್‌ಗಳಿಗೆ ವಿಭಿನ್ನ ಯಂತ್ರ ಕಲಿಕೆ ಮಾದರಿಗಳ ಕಾರ್ಯಕ್ಷಮತೆಗಳ ಹೋಲಣೆ ಮಾಡಲು ಅನುಕೂಲ ಮಾಡುತ್ತದೆ. ಡೇಟಾವನ್ನು ಕೇಂದ್ರಿತಗೊಳಿಸುವ ಮೂಲಕ, MLE-bench ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ವಾಸ್ತವ ಸಹಾಯಮಟ್ಟವನ್ನು ಒದಗಿಸುತ್ತದೆ, ಇದರಿಂದಾಗಿ ವಿಶೇಷ ಸಂದೇಶಗಳಿಗೆ ಅತ್ಯಂತ ಕಾರ್ಯಕ್ಷಮ ಮಾದರಿಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಲು ಸುಲಭವಾಗುತ್ತದೆ.

ಏಜೆಂಟ್‌ಗಳ ದುರ್ಬಲತೆಗಳನ್ನು ಗುರುತಿಸುವುದು

ಶೋಧನೆಗಳು ಸಾಂಪ್ರದಾಯಿಕ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಜ ಕುತೂಹಲವನ್ನು ಶ್ರದ್ಧೆಗೊಳ್ಳುವಂತಹನೆಂದರೆ, ಈಸಾಂಪ್ರದಾಯಿಕ ಬೆಂಚ್‌ಮಾರ್ಕುಗಳನ್ನು ವರ್ಣಾತ್ಮಕವಾಗಿ ಕಾರ್ಯ ನಿರ್ವಹಿಸುವ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಪರಿಕಲ್ಪನೆಯಲ್ಲಿ ದುರ್ಬಲತೆಗಳನ್ನು ಏನು ತೆಗೆಯಲ್ಲ. MLE-bench ಮೂಲಕ, OpenAI ಈ ಪುಳಕತೆಗಳನ್ನು ಚೂರಿಸುತ್ತವೆ, AI ಏಜೆಂಟ್‌ಗಳ ಸಾಮರ್ಥ್ಯದ ಒಪ್ಪಂದವನ್ನು ಹೆಚ್ಚು ನಂಬಿಕೀಯವಾಗಿ ನೀಡಲು ಅನಿಶ್ಚಿತಕ средствами.

ಉತ್ಪಾದಕತೆ ಮತ್ತು ಕೈಗಾರಿಕೆಯಲ್ಲಿ ಪರಿಣಾಮಗಳು

ಜನನಶಕ್ತಿ ಬೆರೆಯುವ AI ತಮ್ಮ ಉದ್ಯೋಗದ ದೃಶ್ಯವನ್ನು ಬದಲಾಯಿಸಬಹುದು, ಇದು ಕಾರ್ಯದ ಉತ್ಪಾದಕತನವನ್ನು ಶ್ರೇಣೀಬದ್ಧಿಸುತ್ತದೆ. ಶೋಧಕರು ಈ ತಂತ್ರಜ್ಞಾನವು ಮುಂದಿನ ದಶಕದಲ್ಲಿ ಆರ್ಥಿಕ ಉದ್ದಿಮೆಗಳಿಗೆ ಮಹತ್ವಪೂರ್ಣ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತದೆ ಎಂದು ಊಹಿಸುತ್ತಾರೆ.

AI ತತ್ವಶೋಧನೆಗೆ ಟರ್ನಿಂಗ್ ಪಾಯಿಂಟ್

MLE-bench ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡುವ ಮೂಲಕ, OpenAI AI ಸೃಜನಶೀಲತೆಯಲ್ಲಿ ಮಾದರಿಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೇಗೆ ಅಳೆಯುತ್ತದೆ ಎಂಬುದರಲ್ಲಿ ಬದಲಾವಣೆಯನ್ನು ಸ್ಥಾಪಿಸುತ್ತವೆ. ಇದು ಸಮಾನ ರೀತಿಯ ಇನ್ನಷ್ಟು ಪ್ರಯತ್ನಗಳನ್ನು ಉತ್ತೇಜಿಸುತ್ತವೆ, ML ಅಳವಡಿಕೆಯನ್ನು ಸಾಧ worldwide.

ಭವಿಷ್ಯದ ದೃಷ್ಠಿ

MLE-bench ಮೂಲಕ ಪ್ರಗತಿಗಳು AI ಯ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿನ ಹೆಚ್ಚು ಪ್ರಾಮುಖ್ಯವಾದ ಮತ್ತು ಪ್ರಾಯೋಗಿಕ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಿಗೆ ದಾರಿ ತೆಗೆಯಬಹುದು. ಉಲ್ಲೇಖಿತ ಸಮಯದಲ್ಲಿ ಸಂಶೋಧಕರು ಹೊಸ ಮಾನದಂಡವನ್ನು ಅನ್ವೇಷಿಸಲು ಮುಂದಾಗುತ್ತಿರುವಾಗ, ತಾಂತ್ರಿಕ ಮತ್ತು ಕೈಗಾರಿಕ ಶ್ರೇಣಿಗಳಲ್ಲಿ ಲಕ್ಷ್ಯಗಳು ಉಲ್ಲೇಖಿತವಾಗುವ ಮೂಲಕ ಪ್ರಕಟವಾಗುತ್ತವೆ.

MLE-bench ಮತ್ತು AI ಏಜೆಂಟ್‌ಗಳ ಮೌಲ್ಯಮಾಪನದ ಕುರಿತಂತೆ ಸಾಮಾನ್ಯ ಪ್ರಶ್ನೆಗಳು

MLE-bench ಎಂದರೆ ಏನು ಮತ್ತು ಇದು ಏಕೆ ಬಳಸಲಾಗುತ್ತದೆ?
MLE-bench ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ವಿನ್ಯಾಸಗೊಳಿಸಿದ ಪ್ರಯೋಗಶೀಲಕವಾಗಿದೆ, ಇದು 75 ವಾಸ್ತವಿಕ ಇಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳಲ್ಲಿ ಪರೀಕ್ಷಿಸುತ್ತದೆ, ಹೀಗಾಗಿ ಕರಾರುವ ಕೈಗಾರಿಕೆಗೆ ಸೇರಿಸಲಾಗಿದೆ.
MLE-bench AI ಏಜೆಂಟ್‌ಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೇಗೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತದೆ?
MLE-bench AI ಏಜೆಂಟ್‌ಗಳನ್ನು ವಿವಿಧ ಕಾರ್ಯಗಳನ್ನು ತಲುಪಿಸಿ, ಅದು ವೇದಿಕೆಯ ಅಗತ್ಯತೆಗೆ ಅನುಕೂಲವಾಗುವಂತೆ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅಳೆಯುತ್ತದೆ.
MLE-bench ಗೆ ಒಳಗೊಂಡ ಕಾರ್ಯಗಳ ಪರ್ಯಾಯಗಳು ಯಾವದನ್ನು ಆಗುತ್ತವೆ?
MLE-bench ಗೆ ಒಳಗೊಂಡ ಕಾರ್ಯಗಳು ವಿಭಿನ್ನDeps ನಡೆಸುವುದರಲ್ಲಿ ಯಶಸ್ವಿವನ್ನು ಒಳಗೊಂಡ ಪರಿಕಲ್ಪನೆಗಳನ್ನು ವ್ಯಾಪಕವಾಗಿ ತಲುಪಿಸುತ್ತವೆ.
ಯಾರು MLE-bench ಬಳಸಬಹುದು?
MLE-bench ಅನ್ನು ಸಂಶೋಧಕರು, ಡೆವೆಲಪರ್‌ಗಳು ಮತ್ತು ವಿಭಿನ್ನ AI ಮಾದರಿಯ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಚಾರ್ಜ್ ಮಾಡುವ ಸಾಫ್ಟ್‌ವೇರ್ ಉತ್ಪಾದಕರಂತೆ ಬಳಸಬಹುದು.
MLE-bench ಅನ್ನು ಬಳಸುವುದು ಯಾಕೆ ಪ್ರಾಮುಖ್ಯವಾಗುವದು?
MLE-bench ಯು ಕೃತ್ಯಿಗಳ ಕಾರ್ಯಚಟುವಟಿಕೆಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ სივრცೆಯಲ್ಲಿ ಶ್ರೇಣೀಬದ್ಧಗುಂಡಾದ ಘಟಕವನ್ನು ಬಳಸಿ, ಉತ್ಪಾದಕಶೀಲತೆಯ ನಿರ್ದಿಷ್ಟತೆ ಒಳಗೊಂಡಿರುವಂತೆ ಸಂಖ್ಯೆಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯ ಕುರಿತಂತೆ ಬೆಂಬಲವನ್ನು ನೀಡುತ್ತವೆ.
MLE-bench ಓಪನ್ ಸೋರ್ಸ್ ಅಥವಾ ವ್ಯಾಪಾರವಾಗಿದೆ?
MLE-bench ಪ್ರಾಥಮಿಕವಾಗಿ ಶ್ರೇಣೀಬದ್ಧ ಸಂಶೋಧನಾ ವೇದಿಕೆ, ಆದರೆ ಅದರ ಓಪನ್ ಸೋರ್ಸ್ ಅಥವಾ ವ್ಯಾಪಾರವನ್ನು ಸಂಬಂಧಿಸಿದೆ.
MLE-bench ಅನ್ನು ಬಳಸಲು ಹೇಗೆ ಪ್ರಾರಂಭಿಸುವುದು?
MLE-bench ಅನ್ನು ಬಳಸಲು ಪ್ರಾರಂಭಿಸಲು, OpenAI ಅಧಿಕೃತ ದಾಖಲೆ ಹೀಗೆ ಬಳಸಲು ಇರುವ ಮಾರ್ಗವನ್ನು ಫಾಲೋ ಮಾಡಲು ಸುಪಾರ್ಹ ಇರುತ್ತದೆ.
MLE-bench ಬಳಸುವಲ್ಲಿ AI ಏಜೆಂಟ್‌ಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಸಮಸ್ಯೆ ಇದೆ ?
MLE-bench ಗೆಲ್ಲುವವರೆಗೂ, ಹಲವಾರು ಉಪಕರಣಗಳಿಗೆ ಸಂಬಂಧಿಸಿದಂತೆ ವಿಶೇಷ ಸ್ಪಷ್ಟತೆಗಳಿಗೆ ಹಾಗೂ ಬೆಲೆಗಳನ್ನು ಒಳಗೊಂಡ, ಅವಕಾಶಗಳನ್ನು ಪಡೆಯುತ್ತವೆ.
MLE-bench AI ಗೆ ಸಂಬಂಧಿಸಿದ ವಿವಿಧ ಮಟ್ಟಗಳನ್ನು ಹೊಂದಿಸಿರುವೆ ?
ಹೌದು, MLE-bench ಎಮಿಗೆ ಬುದ್ಧಿಮತ್ತೆ ತಂತ್ರಜ್ಞಾನ ಮತ್ತು ಅದನ್ನು ಬಳಸುವ ಸೇವೆ ಗಳ ಬಂದ ಮೊದಲೆ ಅಪ್ಲಿಕೇಶನ್ ಮಾಡುವುದು, ದ್ರಢವಾದ ವ್ಯವಸ್ಥೆಯ ಬಗ್ಗೆ ಅಭಿನಯಿಸುತ್ತವೆ.

actu.iaNon classéLes chercheurs d'OpenAI présentent MLE-bench : une nouvelle référence pour évaluer les...

Taco Bell ಡ್ರೈವ್-ಇನ್‌ನಲ್ಲಿ ಎಐ ಬಳಸುವ svojದ انتخابವನ್ನು ಮರುಪರಿಗಣಿಸುತ್ತದೆ

découvrez comment taco bell reconsidère l'utilisation de l'intelligence artificielle pour améliorer l'expérience au drive-in, entre innovation technologique et attentes des clients.
découvrez comment un électrocardiogramme intelligent révolutionne le diagnostic cardiaque. grâce à cette technologie innovante, les médecins détectent les maladies cardiaques plus rapidement et avec une précision accrue, offrant ainsi des soins optimisés aux patients.
taco bell ralentit le déploiement de ses drive-in intelligents en raison de problèmes techniques et de comportements inappropriés, mettant ainsi en pause sa transformation numérique pour garantir la sécurité et la qualité du service.
découvrez comment l'intelligence artificielle transforme les relations clients grâce à l'émergence des agents interactifs : des solutions innovantes pour personnaliser et améliorer l'expérience client.
découvrez comment activer facilement la traduction vocale en français sur google meet grâce à notre guide complet. simplifiez vos réunions multilingues en quelques étapes simples !
découvrez pourquoi l'intelligence artificielle doit être considérée comme un outil d'aide à l'écriture plutôt qu'une échappatoire, et comment elle peut enrichir votre créativité sans remplacer l'essence humaine.