ವಿಸ್ತರಣೆ ಆಧಾರಿತ ಭಾಷಾ ಮಾದರಿಯ ಉತ್ಖಾತನವಾದ d1 ಆರಾಧನೆಯನ್ನು ಪುನರೆರೆದೆಯಾದ ಸ್ನೇಹಿತ್ತಿಕೆಗಳ ಪಾರಂಪರಿಕತೆಗಳನ್ನು ಅರ್ಥಮಾಡಿಸುತ್ತದೆ. ತೀವ್ರ ವಿಚಾರವನ್ನು *ಉತ್ತಮಗೊಳಿಸಲು* ತೀವ್ರ ಅಧ್ಯಯನವಿಷ್ಟೆ ಹಾಕುತ್ತದೆ, ಇದು ಕೊನೆಗೆ ಹರಿದಿರುವ ಆಸಕ್ತಿ ಸಾಫಲ್ಯವಾಗಿ ಒಬ್ಬನೆ. *ಯಾದೃಚ್ಛಿಕ ಮಸ್ಸ್ಕಿಂಗ್* ಮತ್ತು ಪ್ರಗತಿಶೀಲ ತರಬೇತಿ ತಂತ್ರಗಳನ್ನು ಎಂಬ ಸೇರಿದಂತೆ ಉದ್ದ ಭಾರೂಲತೆಗಳು ಲಗತ್ತಿಸುತ್ತವೆ, d1 ಇದೀಗ ತನ್ನ ಹಿಂದಿನ ಮಾದರಿಗಳನ್ನು ಮೀರಿಸುತ್ತವೆ. ಶಕ್ತಿ ಸೌಕರ್ಯ ತುಣ್ಣೆ ಮತ್ತು ವಿಚಾರಣೆಯಲ್ಲಿ ಕಾರ್ಯಗತ ಭದ್ರತೆಗಳು ಕ್ರಾಂತಿಕಾರಿ ಎಂದು ತಿಳಿಯುತ್ತವೆ. ಈ ಹೊಸಬಾರಿಗೆ ಶ್ರದ್ಧಿಸಲು, ಕೃತಿಕಾರಣವನ್ನು ಬಲ್ಲಿರಲು ಅಪಾರ ಶಕ್ತಿಯನ್ನು ಹೊರಹಾಕುತ್ತದೆ.
D1 ಮಾದರಿಯ ಪರಿಚಯ
ಕ್ಯಾಲಿಫೋರ್ನಿಯಾಲ್ಲಿರುವ ಯುನಿವರ್ಸಿಟಿ ಆಫ್ ಕ್ಯಾಲಿಫೋರ್ನಿಯಾ ಲಾಸ್ ಏಂಜೆಲ್ಸ್ನಲ್ಲಿ ಕೃತಿಕಾರಣಜ್ಞರ ಒಂದು ಗುಂಪು, ಮೆಟಾ ಐನ್ಸ್ ಜೊತೆ ಸಹಕಾರದ ಮೂಲಕ ಹೊಸ ಆಂಜಾಗಿ ಚಲಿಸುವ ಡೆಂಕ್ ಮಾಡಲಾದ d1 ಎಂಬ ಅಧ್ಯಯನವನ್ನು ರೂಪಿಸಲಾಗಿದೆ. ಈ ಮಾದರಿ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಭಾಷಾ ಮಾದರಿಗಳನ್ನು ವಿಸ್ತಾರಿತ ಮಾಡುವ ತಂತ್ರ ಮತ್ತು ತೀವ್ರ ಅಧ್ಯಯನವನ್ನು ಬಳಸುತ್ತದೆ. ಅವರ ಸಂಶೋಧನೆ arXivದಲ್ಲಿ ಪ್ರಕಟಿತವಾಗಿದೆ.
ಭಾಷಾ ಮಾದರಿಗಳ ಅಭಿವೃದ್ಧಿ
ಈ ಕಳೆದ ವರ್ಷಗಳಲ್ಲಿ, ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳು (LLMs) ಬಳಸುವಿಕೆಯನ್ನು ವರ್ಧಿತಗೊಳಿಸಲ್ಪಟ್ಟಿದೆ. ಆ ಪ್ರಮಾಣಕ್ಕಾಗಿ ಉಲ್ಲೇಖಿಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಲಕ್ಷಾಂತರ ಬಳಕೆದಾರರು ಕೃತ್ರಿಮ ಬುದ್ಧಿಮತ್ತೆ ಆಧಾರಿತ ಅಪ್ಲಿಕೇಶನ್ಗಳನ್ನು ಕಾರ್ಖಾನಾ ಉಪಯೋಗಿಸುತ್ತಿದ್ದಾರೆ. ಈ ವಿಚಾರವು ಡೇಟಾ ಕೇಂದ್ರಗಳ ನಿಯಮಿತ ಕಳಕ್ಕು ಒಮ್ಮತಕ್ಕೆ ಕಾರಣವಾಗುತ್ತಿದೆ. ಈ ಸಮಸ್ಯೆಯು ಸಂಶೋಧಕರನ್ನು ವೃತ್ತಗೋಚರ್ ಪ್ರಮಾಣಾವಳಿಗಳನ್ನು ತಿಳಿದುಕೊಳ್ಳಲು ಮಾನ್ಯತೆಯನ್ನು ಪ್ರಶ್ನಿಸುವಾದ್ ಉತ್ತೇಜಿಸುತ್ತಿದೆ.
ವಿಸ್ತಾರಿತ ಭಾಷಾ ಮಾದರಿಗಳು (dLLMs) ಪರಂಪರಾ LLM ಗಳಲ್ಲಿ ಹಾಕಿರುವ ಅನುಭಾವಕ್ಕೆ ಡಿವಿಯಾನಾಗಿ ಕಂಡುಬರುತ್ತವೆ. ತಂತ್ರಜ್ಞಾನದ ಶ್ರೇಣಿಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಿದ ಸಂಖ್ಯೆಗೆ ಅದರ ವರ್ತನೆ ವಿವರವಾಗಿ ವರ್ತಿಸುತ್ತವೆ. ಪ್ರಥಮವಾಗಿ ಚಿತ್ರಗಳ ತೀರ್ಮಾನದಲ್ಲಿ ಅಣ್ತುಡಿ ಹಾಕುವ ಪರಿಕರವನ್ನು ಹೊರತುಪಡಿಸಲು, ಆ ಕಂದಕವನ್ನು ರೇಶಿಯಲ್ಲಿಯೂ ಇದ್ದವುಗಳು. ಈ ರೀತಿಯ ರೂಹಿಗೊಳಸ ವ್ಯಾಲಿಟಾಮರ್ಕೆಯಲ್ಲಿ ನಾದವನ್ನು ಪುನರಾವೃತ್ತಗೊಳಿಸಲು ಪರಿಕರವನ್ನು ಪರಿಗಣಿಸುತ್ತವೆ.
D1 ನಿಂದ ತರನೆಯುಂಟಾದ ನಾವೀನ್ಯತೆಗಳು
ಈ ವಿಧಾನವನ್ನು ವಿಷಯಕ್ಕೆ ಹೊಂದಿಸಲು ಅಕ್ಷರಗಳನ್ನು ಅಥವಾ ಶಬ್ದಗಳನ್ನು ಪಿಕ್ಸೆಲುಗಳಿಗೆ ಪರಿವರ್ತಿಸಲು ಅಗತ್ಯವಾಯಿತು. ಶಬ್ದಗಳನ್ನು ಸೀಮಾನಿರುದ್ಧರಿಸಲು ಮ್ಯಾಸ್ಕ್ಗಳನ್ನು ಬಳಸಿಕೊಂಡು, ಮಾದರಿ ಶ್ರೇಣಿಕೆಯಲ್ಲಿ ಟ್ರಾನ್ ಶ್ರೇಣಿಯನ್ನು ಗತಿಸಿದರು, ಮಾತ್ರ ಆತ್ಮ ಗೌರವದಲ್ಲಿ ನಡೆಸಬಹುದು. ಸಂಪೂರ್ಣ ಬಗೆಗೆ, ಈ ತರಬೇತಿ ಪಾಲುದಾರರಿಗೆ ಸಂಪೂರ್ಣ ಶ್ರೇಣೆಯ ಅಳತೆಯನ್ನು ಸಾಧಿಸುವುದು}()
ಆರೋಗ್ಯದ ಪ್ರಯೋಜನಗಳ ಸಮ್ಮಿಲನ
dLLMs ರ ನಿಜವಾದ ಮುಚ್ಚಿಗಳು ಸಿದ್ಧತೆಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಫಲಾನುಭವಿಗಳು. ಕ್ಯಾಲಿಫೋರ್ನಿಯ ತಂಡದ ಈಗಂದ ಲೇಖನ ಹಿತ್ತಾಗುವ ಅಪಾಯವನ್ನು ಹೆಚ್ಚು ಎಳೆಯುತ್ತವೆ. ಈ ವಿಧಾನವು ಮಾದರಿಗಳನ್ನು ಬಹುಕೋಷ್ಟೆಯಲ್ಲಿ ಕಲಿತಿದ್ದಕ್ಕೆ ಹೋಗುತ್ತದೆ, ಇದು ಈ ಬೇಡಿಕೆಯ ಕೆಂಪು ಹಾಕುತ್ತದೆ.
D1 ಕಾರ್ಯಾಗಾರ ತಂತ್ರಜ್ಞಾನ
D1 ಆವೃತ್ತಿಗೆ ನಿರ್ಮಾಣಗೊಳ್ಳುವಿದು, ಸಂಶೋಧಕರು ಎರಡು ಹಂತಗಳಲ್ಲಿ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಸ್ಥಾಪಿಸಿದರು. ಮೊದಲ ಹಂತವು ಪ್ರದೇಶದಿಂದ ಹೊಸದಾಗಿ ಸೂಪರ್ ರಾಮ್ಣ್ಯಗಳನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ, ಇದರಿಂದಲೂ ಹೆಚ್ಚು ಪ್ರಸ್ತುತವಾಗುತ್ತದೆ. ಎರಡನೇ ಹಂತವು ಹೆಚ್ಚು ಗಣನೆಗೆ ಎರಡನೆಯ ಘಟ್ಟದಲ್ಲಿ ದಿಂಪೊ-GRPO ಎಂಬ ತಂತ್ರಾಂಶವು ದಿಗಂತದಂತೆ ಕಾರಣವನ್ನು ಮಾಡಲು ಸಂಘಟಿಸುತ್ತದೆ, ಇದು ಗಣಿತ ವಿಜ್ಞಾನಗಳು ಹುಟ್ಟಿಸುತ್ತದೆ ಮತ್ತು ಮಸ್ಸ್ಕಿಂಗ್ ಕ್ರಮವನ್ನು ಕಟ್ಟಿ ಹಾಕುತ್ತದೆ.
ಚಟುವಟಿಕೆಗಳ ಫಲಿತಾಂಶಗಳು ಮತ್ತು ಭವಿಷ್ಯದ ಶ್ರೇಣಿಗಳನ್ನು
D1 ಮೇಲೆ ಮಾಡಲಾದ ಪರೀಕ್ಷೆಗಳನ್ನು ಲಕ್ಷಣದ ಸಾಧನೆಯ ಪ್ರಮಾಣವಿಲ್ಲ. ಈ ತಂತ್ರಜ್ಞಾನವನ್ನು ಹೊಂದಿರುವ ಮಾದರಿಗಳು ಗಣಿತ ಮತ್ತು ಚಿಂತನದಲ್ಲಿ ತೆಳ್ಳಿದಾಯ ಇಂದು ತಂದಿವೆ. ಸಂಶೋಧಕರ ಒಂದನೆಯ ಪೈಕಿ ಐಆರ್ ಮತ್ತು ವಿಷಯಕ್ಕೊಮ್ಮೆ ತ್ವರಿತದ ಐಂಡೆಸ್ಟ್ ಅವರು ಅಧಿಕಾರಿಗಳಿಂದ ಅದರ ವೆಬ್ಬಿಗೆ ಸಂವೇದನ ನೀಡುತ್ತಾರೆ.
ಅಪ್ಲಿಕೇಶನ್ ಮತ್ತು ಅಭಿವೃದ್ಧಿಯ ಪ್ರಸ್ತಾಪ
ತೀವ್ರ ಅಧ್ಯಯನವನ್ನು ಸೇರಿಸಿದ AI ನ ಮಾದರಿಗಳಿಗೆ ವ್ಯಾಪಕವಾಗಿ ಶ್ರೇಣಿಯ ಅವಕಾಶಗಳನ್ನು ಕೊಡುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಸಂಬಂಧಿತ ಆರೋಗ್ಯದ ಕುರಿಯ ಸಐಡರಿಗೆ ನಿಯಮಿತವಾಗಿರುವಂತಹ ಪದಗಳ ಅಧ್ಯಯನವು ಸದನಿಯ ಕಾರ್ಯಗಳ ಮಧ್ಯೆ ನಿರಂತರ ಬದಲಾವಣೆಗಳೊಂದಿಗೆ ಹೆರಟುತ್ತವೆ. ಇತರ ನಾವೀನ್ಯತೆಗಳು, ಕಿರುಚಿದ ಮುಖವನ್ನು ಸರ್ಕಾರ ಮೌಲ್ಯ ಹೊಂದಿರುವ ಶ್ರೇಣಿಯಲ್ಲಿ ಕಾಳಜಿ என்ற ಚಿತ್ರೀಕರಣವು ಭಾರತೀಯೀಕರಣವನ್ನು ತೋರಿಸುತ್ತದೆ.
ಸಾಮಾನ್ಯ ಪ್ರಶ್ನೆಗಳ ಉತ್ತರ
D1 ಮಾದರಿ ಏನು ಮತ್ತು ಇದರ ಉಪಯುಕ್ತತೆ ಏನು?
D1 ಮಾದರಿ ವಿಸ್ತಾರಿತ ಭಾಷಾ ಮಾದರಿಗಳ ಆಧಾರಿತ ಕಲ್ಪನೆ, ತೀವ್ರ ಅಧ್ಯಯನದ ಮೂಲಕ ಚಿಂತನೆಯ ಸಿದ್ಧತೆಗಳಲ್ಲಿದೆ, ವಿಶೇಷವಾಗಿ ಗಣಿತ ಮತ್ತು ಯೋಚನೆಯ ಕಾರ್ಯಗಳಲ್ಲಿ.
ತೀವ್ರ ಅಧ್ಯಯನವು D1 ಮಾದರಿಯಲ್ಲಿ ವಿಚಾರಣೆಯನ್ನು ಹೇಗೆ ಉತ್ತಮಗೊಳಿಸುತ್ತದೆ?
ತೀವ್ರ ಅಧ್ಯಯನವು ಮಾದರಿಯ ಉತ್ತಮ ಉತ್ತರಗಳಿಗೆ ಬಹುಮಾನ ನೀಡುವ ಆಲ್ಗಾರ್ತೆಮಕವನ್ನು ಬಳಸುತ್ತದೆ, ಹೀಗಾಗಿ વિચಾರಣೆಯುದ್ದಾರೆಯ ಪುನರಾವೃತ್ತಕ್ಕಾಗಿ ಸುಲಭವಾಗಿ ಮತ್ತು ಸುಧಾರಿತ ಸಾಧನೆಗಳ ಕಡೆ ಹರವು.
dLLMs ಬಳಸ ಮೇಲೆ ಪ್ರಧಾನ ಸುಲಭಿಕ чиқಿಗೆ ಎಲ್ಲಾ ಉಕ್ಕಗಳೀತಿ?
D1 ನಂತಹ dLLMs ಇದ್ದಂತೆ, ತಮ್ಮ ಸುಲಭ ಸಾಮರ್ಥ್ಯದ ತೊಳಲಿಗೆ ಹಿಂತಿರುಗುತ್ತದೆ ಮತ್ತು ಲ್ಲಾಮಾದ್ವಿಗೆಯ ಉಳಿತಾಯ ರೀತಿಯಲ್ಲಿರುವ ನಿರ್ದೇಶನೂ ಬಹುಮಾನವನ್ನು ತಲುಪಿಸುತ್ತದೆ.
D1 ಮಾದರಿಯ ಚಟುವಟಿಕೆಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ಯಾವ ಮಾದರಿಗಳನ್ನು ಬಳಸಲಾಗಿದೆ?
D1 ಮಾದರಿಯನ್ನು ಹಲವು ಗಣಿತ ಮತ್ತು ಯೋಚನೆ ಕಾರ್ಯಗಳಲ್ಲಿ ಪರೀಕ್ಷಿಸಲಾಗಿದೆ, ಅಲ್ಲಿ ಲ್ಲಾಮಾದ್ಗೆ ಘೃತ್ತ ಸರಿ ಹರಿದಿದೆ.
D1 ಮಾದರಿಯ ತರಬೇತಿಯು ಯಾವ ತಂತ್ರವನ್ನು ಬಳಸುತ್ತದೆ?
D1 ಮಾದರಿಯ ತರಬೇತಿಯಲ್ಲಿ ಇಬ್ಬರು ಹಂತಗಳನ್ನು ರಷ್ಟಿಸಿರುವುದು: ಸೂಪರ್ ಶ್ರೇಣಿಯನ್ನು ಉತ್ತಮಗೊಳಿಸುತ್ತಿರುವುದರಲ್ಲಿ, ತೀವ್ರ ಅಧ್ಯಯನವು diffu-GRPO ಸಂವಹನದಿಂದ ಸಾಧಿತವಾಗಿದೆ.
D1 ಮಾದರಿಯ ಸಂದರ್ಭದಲ್ಲಿ “ಯಾದೃಚ್ಛಿಕ ಪ್ರಾಂಪ್ಟ್ ಮಸ್ಕಿಂಗ್” ಎಂಬ ಶಬ್ದವೆಂದರೇನು?
“ಯಾದೃಚ್ಛಿಕ ಪ್ರಾಂಪ್ಟ್ ಮಸ್ಕಿಂಗ್” ಯಾದೃಚ್ಛಿಕ ಪ್ರಾಂಪ್ಟ್ನ ಕೆಲ ಭಾಗಗಳನ್ನು ಆಳತೆಗೊಳ್ಳುವುದು, ಇದರಿಂದ ಮಾದರಿ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಪುನರಾವೃತ್ತಗೊಳಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.
ತೀವ್ರ ಅನಾಲಿಸಿಸ್ ಮಾದರಿಗಳ ಆರೋಗ್ಯವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಅಗತ್ಯವೇನು?
ತೀವ್ರ ಅಧ್ಯಯನವುAI ಮಾದರಿಗಳಿಗೆ ತಮ್ಮ ತಪ್ಪುಗಳಿಂದ ಅನುಸರಿಸುವ ಸಾಧ್ಯತೆಯನ್ನು ನೀಡುತ್ತದೆ, ಈ ಮೂಲಕ ಹೆಚ್ಚು ನಿರ್ಧಾರವನ್ನು ಮಾರ್ಪಡಿಸುತ್ತವೆ ಮತ್ತು ಸೂಕ್ತವಾದ ವ್ಯವಸ್ಥಾ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸುತ್ತವೆ.
D1 ಮಾದರಿ ವ್ಯಾಪಾರ ಉದ್ದೇಶಗಳಿಗಾಗಿ ಅತಿಯಾಗಿ ಇದೆಯೇ?
ನೊಟ್ಜರ್ ಕಿಮ್ಮಿಗೆ D1 ಕಂಪೊತ್ರೋದಲ್ಲಿ ಇತರ ಸಂಸ್ಥೆಗಳು ತನ್ನ AI ಮಾದರಿಯನ್ನು ಉತ್ತೇಜಿಸಲು ಹೊಂದಿದ್ದರೆ, ಇವರೊಬ್ಬರು ತಿಳಿಯುತ್ತದೆ.