ಕಾಮೆರಾಗಳನ್ನು ಬಳಸುವ ಶ್ರೇಣಿಯ ವೃದ್ಧಿಯ ಕಾರಣದಿಂದ, ಆಳವಾದ ಕಲಿಕೆಗೆ 3D ಮಾನವ ಸ್ಥಿತಿಗಳ ಅಂದಾಜಿಸಲು ಅಮೆರಿಕಾದ ಅಪೂರ್ಣ ಸಹಾಯವನ್ನು ನೀಡುತ್ತದೆ. *ಬಹು-ಕಾಮೆರಾ ಪರಿಣಾಮಗಳಿಗೆ* ದಾರಿ ಗಮನಿಸುವ ಮುರಿಯು, ಆಲ್ಗೋರಿದಮ್ ವಾಸ್ತುಶಿಲ್ಪವನ್ನು ಮೀರಿಸುವಂತೆ, ತೀವ್ರ ದೇಶಿಕ ಕಮರಾಸ್ಪತ್ತನ್ನು ಒಳಗೊಂಡ ಮಾಹಿತಿಯನ್ನು ನಿರ್ವಹಿಸಲು ಸಮಸ್ಯೆಗಳಿಗೆ ಹೊರತೆಗೆಲ್ಲಿಸಲಾಗಿದೆ. ಚಾಲಿತ ವಿಧಾನಗಳು 2D ಚಿತ್ರಗಳನ್ನು ಉಪಯೋಗಿಸುತ್ತವೆ, ಆದರೆ ವಿಭಿನ್ನ ಭೂಕೊಂಬಡಗಳಲ್ಲಿ ಫಲಿತಾಂಶ ಸ್ವೀಕರಿಸುತ್ತವೆ.
ಸಾಧುವಾಗುವ ಆಮ್ಲ ನಿರ್ವಹಣೆ ಅಗತ್ಯವಿದೆ, ಏಕೆಂದರೆ ಪರಂಪರಾ ವಿಧಾನಗಳು ಕಠಿಣತೆಗಳಿಗೆ ತಲುಪುತ್ತವೆ. MV-SSM ಮುಂತಾದ ಇತ್ತೀಚಿನ ಮಾದ್ರೆಗಳು ಈ ಪರಿಕರಗಳನ್ನು ಹೊಸ ತಂತ್ರಗಳ ಮೂಲಕ ಮುನ್ನೋಟಗಳನ್ನು ಗೆಲ್ಲಲು ಪ್ರಯತ್ನಿಸುತ್ತವೆ. ಪ್ರತಿ ಪಿಕ್ಸೆಲ್ ಅನ್ನು ಒಳಗೊಂಡ ವಾಸ್ತುಶಿಲ್ಪವನ್ನು ವ್ಯಾಪ್ತಿಯ ಸುರಕ್ಷಿತ ಪದ್ದತಿಯಲ್ಲಿದೆ, ಇದು ಚೂರಣ-ಬೀಜದ ಕೃತಕ ಮರುಕಟ್ಟೆಯಿಂದ ಮಾರ್ಪಡುವ ಭೇದವನ್ನು ಮೀರುವ ಕೀಲಿಯಾಗಿದೆ.
ಮಾನವ ಸ್ಥಿತಿಯ 3D ಪತ್ತೆ ಮಾಡಲು ಸವಾಲುಗಳು
ಮಾನವ ಸ್ಥಿತಿಯ ಅಂದಾಜನೆಯ ಆರಂಭ ಚಿತ್ರೀಕರಣಗಳ ಡೀಪ್ ಲರ್ನಿಂಗ್ ಮಾದ್ರೆಗಳಂತಹ OpenPose ನಿಂದವಾಗಿದೆ. ಈ ಮೊದಲ ಪರಿಕರಗಳು 2D ಚಿತ್ರಗಳಲ್ಲಿ ಮಾನವ ಹೆಜ್ಜೆಗಳನ್ನು ಗುರುತಿಸುವಿಕೆ ಮೇಲೆ ಕೇಂದ್ರೀತಿಸುತ್ತವೆ. ನಂತರ, Google ನ Mediapipe ಮತ್ತು YOLOpose ಮುಂತಾದ ಹೆಚ್ಚಿನ ಉದ್ದಿಮೆ ಮಾಡಿದ ವ್ಯವಸ್ಥೆಗಳಿಲ್ಲ ದೂರದೃಷ್ಟಿ ಮತ್ತು ಶಾಧನವಿಲ್ಲ.
3D ಗೆ ಹಾರಾಟ: ಸಂಕೀರ್ಣ ಸಮಸ್ಯೆ
ಈ ಸವಾಲಿನ ಅಂದಾಜು 3D ಮಾನವ ಸ್ಥಿತಿಯ ಉದ್ದೀಪನವಾಗಿ ಹೊರಗೊಳ್ಳುತ್ತದೆ, ಜಾಗತಿಕ ನಿಯಮದಲ್ಲಿ (x, y, z) ಮೂಲಕ ಕೆಲಸ ಮಾಡಿಕೊಂಡು ನಡೆಯುತ್ತವೆ. ಒಂದು ಚಿತ್ರದಿಂದ 3Dಗೆ ಬದಲಾವಣೆಯಾದ ಪ್ರಯತ್ನವು ಪ್ರಶ್ನಿತ ವಿಷಯಗಳನ್ನು ಸಂಕೀರ್ಣಕೊಳ್ಳುತ್ತದೆ. ಬಹು-ಕಾಮೆರಾಗಳ ಬಳಕೆ ಈ ಕಾರ್ಯವು ಸುಧಾರಣೆಗೆ ಹೊರಗೊಳ್ಳುತ್ತವೆ, ಆದರೆ 3D ನ ಬಹುನೋಟ ದೇಹದ ಸ್ಥಿತಿಯ ಅಂದಾಜಿಸಲು ಪ್ರತಿಭಾಸಮೂಷ್ಟ ಬಹಳ ಕಷ್ಠಕರವಾಗಿದೆ.
3D ಬಹು-ಕೋನಗಳಲ್ಲಿ ಅಂದಾಜನೆಯ ವಿಭಜನೆ
ಮಾನವ ಸ್ಥಿತಿಯ 3D ಬಹು-ಕೋನಗಳು ಅಂದಾಜನೆಯು ಹಲವು ಉಪಸಮಸ್ಯೆಗಳಿಗೆ ದೂರಕರು. ಪರಂಪರೆ, ಅಧ್ಯಯನವು ಬಹು-ಕೋನಗಳಲ್ಲಿ 2D ಚಿತ್ರಗಳಲ್ಲಿ ಮುಖ್ಯ ಬಿಂದುಗಳನ್ನು ಅಂದಾಜಿಸಲು ಆರಂಭಿಸುತ್ತವೆ, ನಂತರ ದೃಶ್ಯದಲ್ಲಿ ಹೊಂದಿರುವ ಹೆಜ್ಜೆಗಳನ್ನು ಅಂತಸ್ವೀಕರಿಸುತ್ತವೆ. ಈ ವಿಧಾನವು, ಇದನ್ನು ಸಂಪರ್ಕದಂತೆ ಪರಿಗಣಿಸುವಾಗ, ಪ್ರಮುಖ ತೊಂದರೆಯಾಗಿದೆ: ಪ್ರತಿ ಹಂತದಲ್ಲಿ ತಪ್ಪುಗಳು ಏಕೀಕರಿಸುತ್ತವೆ. ಈ ಜಾಗದಲ್ಲಿ ನಿರಂತರ ಎಡವಣಿಗೆಯನ್ನು ಬಳಸಬೇಕಾದಾಗ, ಪ್ರಥಮ ಹಂತವು ಪಿಕ್ಸೆಲ್ ಮಾಹಿತಿ ತೆವಳಿಸುವ ಮೂಲಕ ವಿಫಲವಾಗುತ್ತವೆ.
ಅಂತುತ್ತು-ಮಾಡುವ ಅಭ್ಯಾಸ: ಹೊಸ ದೃಷ್ಟಿಕೋণ
ಇಸೂಕೊನೆ, ಸಂಶೋಧಕರು ಸಂಪೂರ್ಣ ಅಂದಾಜನಾ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಪರಿಗಣಿಸಿದ್ದಾರೆ. ಕೊನೆ ರಿಯಾಗುವಂತೀ ಪರಿಷ್ಕಾರವನ್ನು ಹೇಗೆ ನಡೆಯುತ್ತದೆ ಎನ್ನುವುದನ್ನು ವಿಶ್ಲೇಷಿಸುವುದರಿಂದ ಬೃಹತ್ ತಂತ್ರಜ್ಞಾನ ಸವಾಲುಗಳುವೇನಲ್ಲ. ಬಹು-ಕೋನ ಚಿತ್ರಗಳ ಎಲ್ಲಾ ನಿಕಾಸಗಳನ್ನು ಬಳಸಬೇಕಾದ ಅಗತ್ಯವು ಲೆಕ್ಕಕ್ಕೆ ನಾನು ಕಷ್ಟವಾಗುತ್ತದೆ. ಅಂತಹ ರೀತಿಯ ದಿಕ್ವನರವನ್ನು ನಾನು ಹೊಂದಿಸಲು, ಪಂಶ್ಞಿಗಳು ಮತ್ತು ಪಾರಾ ಯಾವುದೇ ಪ್ರಮಾಣವನ್ನು ಪರಿಹರಿಸುವ ಮೂಲಕ ಕಲಿಯುವುದು ಉದಾಹರಣೆ.
ಮಾದರಿಯ ವಾಸ್ತುಶಿಲ್ಪ: MV-SSM ಮತ್ತು ಅದರ ಉನ್ನತ ವಿಧಾನ
MV-SSM ಮಾದರಿಯು ResNet-50 ದೃಷ್ಟಿಯ ಆಧಾರಿತ ವಾಸ್ತುಶಿಲ್ಪವನ್ನು ಉಪಯೋಗಿಸುತ್ತದೆ. ಈ ವಾಸ್ತುಶಿಲ್ಪವು ಕ್ರಮಣಶೀಲ ವಾಸ್ತುಶಿಲ್ಪವನ್ನು ಬಳಸುತ್ತದೆ, ಅಂದಾಜನಾ ಬಿಂದುಗಳನ್ನು ತಿದ್ದುಪಡಿಸಲು ವಿಶೇಷ ಬ್ಲಾಕುಗಳನ್ನು ಉಪಯೋಗಿಸುತ್ತವೆ, ಕೊನೆಗೆ 3D ಬಿಂದುಗಳನ್ನು ತ್ರಿಕೋನಗೊಳಿಸುತ್ತವೆ. ಈ ಮಾದರಿಯು ಉತ್ತಮ ಬದಲಾವಣೆ ಕಾಣುತ್ತಿದೆ, ಯಾಕೆಂದರೆ ಇದು ಕಲಿಕೆಯಲ್ಲಿ ಜ್ಯಾಮಿತಿಯ ಮಾರ್ಗನಿರ್ದೇಶನವನ್ನು ಸೇರಿಸುತ್ತದೆ. ಸಮಸ್ಯೆಯ ನಡುವಿನ ಗಮನವು ಅತಿಯಾಗಿ ಮಂಡಿಸಲು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿ ರೀತಿಯಲ್ಲಿ ಕ್ರಮಣವನ್ನು ಸ್ವೀಕರಿಸುತ್ತದೆ.
ದೃಢೀಕರಣಕ್ಕಾಗಿ ಪ್ರಗತಿಗಳು
ಗಂಭೀರ್ ವಿಶ್ಲೇಷಣೆಯ ಮೂಲಕ, MV-SSM ಮುಂಚಿನ ಮಾದರಿಯ ಹಿತಾದಿಗೇಶವು ಶ್ರೇಷ್ಠತೆಯನ್ನು ತೋರಿಸುತ್ತದೆ. ಫಲಿತಾಂಶವು ಮೂರು ಕ್ಯಾಮೆರಾಗಳ ಸಂಕೀರ್ಣ ದೃಶ್ಯಗಳಲ್ಲಿ +24 % ಸುಧಾರಣೆಯು, ವಿವಿಧ ಕ್ಯಾಮೆರಾ ಸಾಧನಗಳೊಂದಿಗೆ +13 %, ಮತ್ತು ಡೇಟಾಸೆಟ್ ತಂಡಗಳ ಕ್ರಿಯಾತ್ಮಕ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ +38 % ಹೆಚ್ಚಳವನ್ನು ತೋರಿಸುತ್ತವೆ. ಈ ಉತ್ತಮಾನವು ಮುಂಚಿನ ಶ್ರೇಣಿಯ ಮಾನವ ಚಲನೆಯ ಗ್ರಾಹಿಕಾರರು ಬದಲಾವಣೆಯನ್ನು ಆಗಾಗ್ಗೆ ನೀಡಬಹುದು.
ಸ್ಥಾಯಿತ ವೈದ್ಯಲು: ಸೇವಾರಿ ಕೋನಗಳು
MV-SSM ಮಾದರಿಯ ಪ್ರಮುಖ ತೊಂದರೆಯಾಗಿ ಕ್ಯಾಮೆರಾ ಸಾಮಾನುಗಳಿಗೆ ಪರಿಚಯವಾದ ಉಲ್ಲೇಖವು ಹೊಂದಿದ್ದು ಎಲ್ಲಿದೆ. ಶ್ರೇಷ್ಠ ಫಲಿತಾಂಶಗಳು ಕಂಡುಬರುತ್ತದೆ, ಆದರೆ ಕ್ಯಾಮೆರಾಗಳ ವ್ಯವಸ್ಥೆ ಮೇಲೆ ಯಾವುದೇ ನಿರ್ಧಾರ ಇಲ್ಲದೆ ಬರುವ 3D ಸ್ಥಿತಿಯ ಅಂದಾಜನೆ ಒಂದು ಪ್ರಮುಖ ಸವಾಲು ನೀಡುತ್ತದೆ. ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸುವ ಮೂಲಕ ಕೈಗಾರಿಕ ಕ್ಯಾಪಾಶಿಟಿಯಲ್ಲಿ ಸಂವಾದ ಅಥವಾ ಸಹಾಯಕ್ಕೆ ಹೊಸ ಸುಮಾರು ಹೊಂದಾಗುವುದು, ಹಿಸೇಕೋಮೆ ಮತ್ತು ಮಾನವ ಸಹಾಯದ ಸಮರ್ಥನೆಯ ಸಕ್ರಿಯತೆಯನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ.
ಅವಿಷ್ಕಾರ ಮತ್ತು ಸಂಪೂರ್ಣ ಸಂಶೋಧನೆ
Learnable Triangulation, MvP, ಮತ್ತು MVGFormer ಮುಂತಾದ ಸಂಶೋಧನೆಗಳು ಈ ವಿಷಯಗಳನ್ನು ಹೊಂದಿವೆ, ಪ್ರತಿ ಕನಸುಗಳು ತ್ರಿಕೋನ ಮತ್ತು ಸೇವಾರಿಗಳ ಹೊಸ ಪ್ರಯತ್ನಕ್ಕೆ ತರಲು. ಜ್ಯಾಮಿತಿಯ ಗಮನವನ್ನು ಉಪಯೋಗಿಸುವ ಮೂಲಕ, ಈ ಸಂಶೋಧನೆಗಳು ವಿಶೇಷ ಮಾಹಿತಿಯ ಕಸದ ಕಾಯನ್ನು ಬದಲಾಯಿಸುತ್ತವೆ. MVGFormer, ವಿಶೇಷವಾಗಿ, ಮುಂದೆ ಉತ್ತಮವಾಗಿರುವ ಸಮಸ್ಯೆಗಳ ಮೇಲೆ ಅತಿಭಾರವನ್ನು ನೀಡಿದ ಕೃತ್ಯವು ಪರ್ಣಿಗೆ ಹೆಚ್ಚು ಅಭಿವೃದ್ಧಿಯ ಅಗತ್ಯವಿದೆ.
ಮುಂದಿನ ಸಂಶೋಧನೆಗಳ ದೃಷ್ಟಿ
ಟೆಕ್ನಾಲಜಿಯ 3D ಅಂದಾಜನೆಯಲ್ಲಿ ಫ್ಲೆಕ್ಸಿಬಲ್ ಶ್ರೇಷ್ಠ ಶ್ರೇಣಿಯನ್ನು ಉತ್ತೀರ್ಣಗೊಳ್ಳಲು ಕಲಿಕೆಯನ್ನು ಅವರು ಪ್ರಮುಖವಾಗುತ್ತದೆ. ತ್ರಿಕೋನನವನ್ನ ಆರಂಭಿಸುವುದಕ್ಕೆ ಇತರ ವ್ಯಾಪ್ತಿಯನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಸೇರಿಸಲು, ಅನುಕೂಲಕರ ಹೆಚ್ಚಿನವೃತ್ತಿಯ ಕಾರ್ಯಾವರಣೆಗಳನ್ನು ನಿಶ್ಚಯಿಸುವುದಾದರೂ, ಮಾನವ ಪತ್ತೆಯ ಶ್ರೇಷ್ಠ ಪರಿಸರದಲ್ಲಿ ಜಾರಿ ಮಾಡಿದ ಸಮಾನತೆಗಳು ಈ ಬದಲಾವಣೆಗಳಿಂದ ಹೊಸ ಪ್ರದೇಶವನ್ನು ರೂಪಿಸುತ್ತವೆ.
ಪ್ರಸಕ್ತ ಪ್ರಶ್ನೆಗಳ ಕೇಳುವುದು
ಬಹು-ಕಾಮೆರಾಗಳನ್ನು 3D ಸ್ಥಿತಿಗೆ ಬಳಸುವಾಗ ಪ್ರಮುಖ ಸವಾಲುಗಳು ಯಾವುವು?
ಮೂಲಸಮರ್ಥನವು ದರ್ಶನದ ಬೀಜದ ದೊಡ್ಡ ಪ್ರಮಾಣವನ್ನು ಸಾಧಿಸುವ ಅಗತ್ಯವನ್ನು, ಕ್ಯಾಮೆರಾಗಳ ಅನುದ್ರಷ್ಟರಿಗೆ ಸಂಬಂಧಿಸಿದ ಅಲೆವು ಮತ್ತು ಪತ್ತೆ ಮತ್ತು ತ್ರಿಕೋನದ ಹಂತಗಳ ಮೂಲಕ ತಪ್ಪುಗಳಿಗೆ ಒಳಪಟ್ಟ ಅಪಾಯಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.
ಹಾಗಾದರೆ, 3D ಮಾನವ ಸ್ಥಿತಿಯ ಪತ್ತೆ ಹೇಗಿದೆ?
ಹೆಚ್ಚು ಮುಖಿಕೆಯ ಕೈಗಾರಿಕರೆ ಮೂಲಕ ದರ್ಶನಕ್ಕಾಗಿ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಯನ್ನು ಪಡೆಯಲು, ಆದರೆ ಇದರ ಹಂತವು ಸುಧಾರಣೆಯಾದಂತೆ ವಿನ್ಯಾಸ ಮತ್ತು ಪರಿವರ್ತನವನ್ನು ಒದಗಿಸುತ್ತಿದೆ, ಇದನ್ನು ಬಳಕೆ ಮಾಡಿದಾಗ ಉಲ್ಲೇಖದ ಪ್ರದರ್ಶನ ಮತ್ತು ಉಲ್ಬಣವನ್ನು ಹಿಂಪಡೆಯುತ್ತದೆ.
ಮಾದರಿಯ ಸಾಮಾರ್ತಗಳು ಹೇಗೆ ಹೆಚ್ಚಾಗುತ್ತದೆ?
ಮಾಧ್ಯಮದಲ್ಲಿ ಮೆಚ್ಚುಗೆಯಾದವುಗಳನ್ನು ನನ್ನ ಸ್ಪಷ್ಟವಾಗಿ ತೋರುವ ನೈವುಗಳಲ್ಲಿ ವೈವಿಧ್ಯಗೊಳಿಸಲು, ಇದು ಬಳಸುವ ಮುಂಚಿನ ಮಾಹಿತೀಗಳಲ್ಲಿ ಹೆಚ್ಚು ಜೆಯರಾರಿಗೊಳಿಸುತ್ತದೆ.
ನಾನು ಹೇಗೆ ಬೆಳೆದು ಬರುವ ಹೊಸ ವಿಧಾನಗಳನ್ನು ಸ್ಥಾಪಿಸಲು?
ಸಂಕೀರ್ಣ ಸಮಯವನ್ನು ಮಾದರಿಯಲ್ಲ ಪುರಂತ್ರಗಳಿಗೆ ಸಾಗಿಸುವ ಪಂದೆಯು ಬಹು-ಕೋನ ಮಾಹಿತಿಯನ್ನು ಬಳಸುವುದರಿಂದ ಯತ್ನಿಸುತ್ತವೆ, ಇದರ ಮಧ್ಯಸ್ಥ ಹಂತಗಳನ್ನು ಬಿಟ್ಟು ಯಾವುದೇ ನಿಖರವಾದ ಪ್ರವೇಶಗಳನ್ನು ಬಳಸುವ (ಅವರ್ಯಾತ್ಮಕ) ಯಂತ್ರವನ್ನು ಸಾಧಿಸಲು.
ಕೊನೆಯ ದಿನಗಳು ಬಂದಿರುವ ವಿಧಾನದಲ್ಲಿ ತ್ರಿಕೋನ ನೀಡುವ ಅನುಕರಣಗಳು ಹೇಗೆ ಶ್ರೇಣಿಗೆ ಸೇರಿಸುತ್ತವೆ?
ಜ್ಯಾಮಿತಿಯ ನಾಶ ಕೊನೆಗೆ ಪ್ರಯೋಜನಕಾರಿಯ ಅಂದಾಜು ಪರಿಶೀಲನೆಗಳ ಮೂಲಕ ನಿರ್ವಹಣೆಯ ಕೆಲವು ಕಲಿಕೆಯನ್ನು ಶ್ರೇಣಗೊಳಿಸಬಹುದು.
ಮಾಧ್ಯಮಗಳ ಸ್ತರವು ನನಗೆ ಏನನ್ನು ಸಾಧಿಸುತ್ತದೆ?
ನೀವು ಪ್ರಮಾಣಗಳಿಂದ ಕಲಿತ ಯಾವುದೇ ಪ್ರಮಾಣದಲ್ಲಿ ಇರುವ ತ್ರಿಕೋನಾವಯವನ್ನು ಪಡೆಯಲು ಇಲ್ಲಿನ ಎಲ್ಲಾ ಕಲಿಕೆಯನ್ನು ಮಾಡುತ್ತವೆ.
ಹೆಚ್ಚಾಗಿ ಕಂಪನಗಳ ಲಲ್ಲಿ ನಿಮ್ಮ ಸಮಯವು ಕಡಿಮೆ ಸುತ್ತು ಮಾಡುತ್ತದೆ?
ಮೂಲಕ ಅನುಷ್ಠಾನ ತೆರೆದಾಗ ದೂರದರ್ಶನದಲ್ಲಿ ದಾರದ ವಿಶ್ರಾಂತಿಗೆ ನೀವು ಸಾಮಾನ್ಯವಾಗಿರುವ ಒಂದು ಚೆನ್ನಾದ ಅನು manureೆಯ ಅಂದಾಜಿಸುತ್ತಾರೆ.
ಇತರ ತರುಣಿಗಳುನಲ್ಲಿ ಟರ್ಕರ್ ಆರಾಕಾಚಾರದ ದಿಸೆಯಲ್ಲಿ ದುಡಿಯುತ್ತವೆ ಮತ್ತು ನಿಮಿಷ ದೃಷ್ಟಿಯ ಗಳಿಕೆಯನ್ನು ಕಂಡು ಹಾಕುತ್ತವೆ?
3D ಮಾತುಕತೆ ಮತ್ತು ಸ್ಥಿತಿಯ ಬಗ್ಗೆ ಸಾಮರ್ಥ್ಯ ಅಥವಾ ಮಾತುಕತೆಗೆ ಸ್ವಾತಂತ್ರ್ಯವನ್ನು ಸ್ಥಾಪಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ, ಏಕೆಂದರೆ ಮಾದರಿಯೂ ಗುಣೋತ್ಪತ್ತಿಯಾಗುತ್ತವೆ.