ಆರ್ಧತಿಗಳನ್ನು ಹಾನಿಕರವಾದ ವಿನಂತಿಗಳಿಗೆ ಏಕೀಭೂತರಾವಾಗಅವಿಷ್ಟೀಯ ಓದುಗರನ್ನು ತಿಳಿಸುತ್ತದೆ?

Publié le 20 ಫೆಬ್ರವರಿ 2025 à 12h03
modifié le 20 ಫೆಬ್ರವರಿ 2025 à 12h03

*ಐಎನ್ನು ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳ ಪ್ರತಿಯೊಬ್ಬರಿಗೆ ಪ್ರತಿಸ್ಪಂದಿಸಲು (Response) ಆಕರ್ಷಿಸಲು?* ಈ ಪ್ರಶ್ನೆ ಅಭಿವೃದ್ಧಿಯ ತಂತ್ರಜ್ಞಾನದ ಯುಗದಲ್ಲಿ ಪ್ರಬಲವಾಗಿ ಉಭಯಿಸುತ್ತಿದೆ. ಈ ರೀತಿಯ ಸಾಮರ್ಥ್ಯವು ಅಪರೂಪದ ಭ್ರಷ್ಟಾಚಾರಗಳನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ. ಬುದ್ಧಿಮತ್ತೆ ವ್ಯವಸ್ಥೆಗಳು, ನಮ್ಮ ಜೀವನದಲ್ಲಿ ಉತ್ತಮತೆಯನ್ನು ಸಮರ್ಪಿಸುವಾಗ, ನಿರ್ವಹಣೆಯಲ್ಲಿಯ ಹಾನಿಯೊಡ್ಡುವಿಕೆಗಳನ್ನು ಸಂಕಟ ಸಾಧಿಸುತ್ತವೆ. ದುಷ್ಕರ್ಮಿಗಳ ಸನ್ನಿವೇಶಗಳಿಗೆ ಈ ಮಾದರಿಯ ಶೋಷಣೆಯ ಬೇಜಾರಾಗುತ್ತದೆ. ಐಎನ ನಿಯೋಜನೆಯ ಕಾರ್ಯಕ್ಷಮತೆ ಮತ್ತು ಅಘಾತದ ನಡುವಿನ ಚುಕ್ಕೆಗಾರಿಕೆ ತೆರೆದಿದೆ. *ಐಎನ್ನು ಹಾನಿಕಾರಕ ವಿಷಯಗಳಿಗೆ ನಿಷ್ಪಕ್ಷಪಾತ ನಿರ್ವಹಣೆಯ ಮುಂದಿನ ವಿದ್ಯಮಾನಗಳು ಸಾರಿದ ಪತ್ರಿಕೆಗಳನ್ನು ನಿಲ್ಲಿಸುತ್ತವೆ.*

ಭಾಷಾ ಮಾದರಿಯ ದುರ್ಬಲತೆಗಳು

EPFL ಯ ಅಧ್ಯಯನಗಳು ಬಹುದೂರಿನ ಭಾಷಾ ಮಾದರಿಗಳು, ಭದ್ರತೆಯ ಅಭ್ಯಾಸವನ್ನು ಹೊಂದಿದರೂ, ಸರಳ ವಿನಂತಿ ಬದಲಾವಣೆಗಳಿಗೆ ಒಳಪಟ್ಟಿವೆ ಎಂದು ವಿವರಿಸುತ್ತವೆ. ಈ ದುರ್ಬಲತೆಗಳು ಅಪೇಕ್ಷಿತ ಅಥವಾ ಹಾನಿಕಾರಕ ವರ್ತನೆಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು ಮತ್ತು ನಿರ್ಮಿತ ಭದ್ರತಾ ನಿರ್ಧಾರಗಳಲ್ಲಿ ಅಪಾಯಗಳನ್ನು ಹೊರಹರಿಸುತ್ತದೆ.

LLM ಗಳ ಸಾಮರ್ಥ್ಯವನ್ನು ಶೋಷಣೆ

ಲಾಂಗ್ವೇಜ್ ಮಾದರಿಗಳು, LLM ಗಳಾಗಿ ప్రసಿದ್ಧವು, ಅಪಾರ ಸಾಧನೆಗಳನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತವೆ, ಆದರೆ ಅವುಗಳ ಉಪಯೋಗವು ದುಷ್ಕರ್ಮಿಗಳಿಂದ ಹಾನಿಯೊಡ್ಡುತ್ತಿರುವಂತೆ ಬದಲಾಯಿಸಬಹುದು. ಉದಾಹರಣೆಗೆ, ಈ ಘಟಕಗಳು ವಿಷಮ ಮಾಹಿತಿಯನ್ನು ಹರಡಬಹುದು, ತಪ್ಪು ಮಾಹಿತಿ फैलಿಸಬಹುದು ಮತ್ತು ಹಾನಿಕಾರಕ ಚಟುವಟಿಕೆಗಳಿಗೆ ಬೆಂಬಲ ನೀಡಬಹುದು. ಈ ತಂತ್ರಜ್ಞಾನದ ಬಳಕೆ ಅಥವಾ ನಿಮ್ಮ ಸಮಾಜದಲ್ಲಿ ತಮ್ಮ ಪ್ರಭಾವಗಳ ಬಗ್ಗೆ ತುರ್ತು ನೈತಿಕ ಪ್ರಶ್ನೆಗಳು ಹುಟ್ಟಿಸುತ್ತವೆ.

ಸಮಾವೇಶ ಮಾದರಿಗಳು ಮತ್ತು ಅವುಗಳ ಮಿತಿಗಳು

ಭದ್ರತಾ ಆಳವಲ್ಲದ ಪ್ರಶಿತ್ತಿಗೆ ಅಥವಾ ಹಾನಿಕಾರಕ ಉತ್ತರಗಳನ್ನು ನೀಡುವುದಕ್ಕೆ ನಿರಾಕರಣೆ ಅನ್ನು ಕಡಿಮೆ ಮಾಡುವ ವಿಧಾನವಾಗಿ ಬಳಸಲಾಗಿದೆ. ಈ ಪ್ರಕ್ರಿಯೆ, ಮಾನವರಿಗೆ ಸುರಕ್ಷಿತ ಎಂದು ಸಮರ್ಪಕವಾಗಿ ಪ್ರೇರಿತವಾಗುತ್ತದೆ. ಆದರೆ ಈ ದೃಷ್ಟಿಕೋನವು, ಅನುಸಂಧಾನಗಳು ತೋರಿಸುತ್ತವೆ, ಈ LLM ಗಳು ಭದ್ರತಾ ಬಂಧನಕ್ಕಾಗಿ ಇದರಲ್ಲಿಲ್ಲ.

ಅನಿಯಮಿತ ಹಾರ್ಟ್ ಮತ್ತು ಶ್ರೇಷ್ಟವಾದ ಫಲಿತಾಂಶಗಳು

ನಿರಂತರವಾದ ಶೋಧನೆಯ ಮೂಲಕ ಐಎಮ್‌ಎಲ್ (ICML 2024) ನಲ್ಲಿ ಮುಂದೆ ಬಂದ ಅಧ್ಯಯನವು ಬಹುದೂರಿನ LLM ಗಳಾದ GPT-4o d’OpenAI ಮತ್ತು Claude 3.5 d’Anthropic ಸ್ತಂಭವಾಗಿ ಬದಲಾಯಿಸಲು ಸಾಧ್ಯವಾಗಿದೆ ಎಂದು ತೋರಿಸುತ್ತದೆ. ಈ ಹೊಡೆತುಗಳು ಮಾದರಿಯ ವರ್ತನೆಗೆ ಪ್ರಭಾವ ಬೀರಲು ಟಂಪ್ಲೇಟುಗಳ ಆಟವನ್ನು ಬಳಸುತ್ತವೆ ಮತ್ತು ನಿರಾಶಾದಾಯಕ ಫಲಿತಾಂಶಗಳನ್ನು ತಗುಲಿಸುತ್ತವೆ.

ಅನಿಯಮಿತ ಹಾರ್ಟ್‌ನ ವೈಶಿಷ್ಟ್ಯಗಳು

EPFL ಯ ಶೋಧಕರು ಹಲವು ಶ್ರೇಣಿಯ ಭಾಷಾ ಮಾದರಿಗಳ ಮೇಲೆ ತೀವ್ರ ದಂಶವನ್ನು ಸಾಧಿಸಲು ಯಶಸ್ವಿಯಾಗಿದ್ದಾರೆ. ವಿಶೇಷ ಟಂಪ್ಲೇಟುಗಳು ಬಳಸಿಕೊಂಡು ಈ ಶ್ರೇಣಿಯ ಮನೋಭಾವವನ್ನು ದೊರಕಿಸುತ್ತದೆ, ಮಾತ್ರ ಇವುಗಳನ್ನು ಸುಲಭವಾಗಿ ಹೊಡೆಯಬಹುದು ಎಂದು ವಿವರಿಸುತ್ತವೆ. ಅಧ್ಯಯನವು ಪ್ರತಿ ಮಾದರಿಗೆ ನಿರ್ದಿಷ್ಟ ದುರ್ಬಲತೆಗಳನ್ನು ತೋರುತ್ತದೆ, ಹಲವಾರು ತಂತ್ರವನ್ನು ತಲುಪುವುದು ಅಥವಾ ಹಣವಿಲ್ಲುವದು ಎಂದು स्वागतಿಸುತ್ತವೆ.

LLM ಗಳ ಸಂಕಷ್ಟವನ್ನು ಮೌಲ್ಯಮಾಪನ

ಶೋಧಕರು ಇತರ ವಿಪತ್ತುಗಳನ್ನು ಸೂತ್ರಗಳು LLM ಗಳ ಸಂಕಷ್ಟವನ್ನು ಒಂದೇ ತರಣಲ್ಲಿ ಸೂಕ್ತವಾಗಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ನಿರbeda ಹಾರಾಟಗಳನ್ನು ರೂಪಿಸುತ್ತವೆ. ಅವರ ಕಾರ್ಯಗಳ ಪ್ರಕಾರ, ಯಾವುದೇ ಏಕಕಾಲದಲ್ಲಿ ಉತ್ತಮ ಮೌಲ್ಯವನ್ನು ತೋರಿಸುವುದಿಲ್ಲ, ಅಂತಹುದನ್ನು ಬುದ್ಧಿವಂತವಾದ ಘಟಕಗಳನ್ನು ಸಾಮರಸ್ಯದಿಂದ ಒದಗಿಸಬೇಕು. ಈ ಸಮಗ್ರ ದೃಷ್ಟಿಕೋನವು ತೀವ್ರ ಹಾಗೂ ಶ್ರೇಷ್ಟವಾದ ಮಾದರಿಯ ಸುರಕ್ಷತೆಯ ಮುಖ್ಯವನ್ನು ವಿವರಿಸುತ್ತದೆ.

ಆ ಗತಿಯ ಪ್ರಾಯೋಜನೆಗಳಿಗೆ ಭವಿಷ್ಯದ ಪರಿಣಾಮಗಳು

LLM ಗಳನ್ನು ಸ್ವಾಯತ್ತ ಪ್ರಕೃತಿ ಅವರ ಸಾಮಾಜಿಕತೆಯೊಂದಿಗೆ ಹೃದಯವನ್ನು ಮಾರ್ಗದರ್ಶನ ಮಾಡುವಾಗ, ಈ ತಂತ್ರಜ್ಞಾನದ ಸುರಕ್ಷತೆಯ ಬಗ್ಗೆ ಉಂಟಾಗೋಣಿಯ ಸಂಬಂಧವನ್ನು ಸುರಕ್ಷಿತವಾಗಿ ಎಳೆಯುತ್ತವೆ. ಎಐ ಪರಿಕರಗಳು ನಮ್ಮ ವೈಯಕ್ತಿಕ ಮಾಹಿತಿಗೆ ಪ್ರವೇಶಿಸುತ್ತಾರೆ ಎಂದು ಈ ಬೋಧಾ ಕೆಲಸಗಳನ್ನು ನೆರವೇರಿಸುತ್ತವೆ, ನರ ಬೆಳಕಿನ ಮೇಲೆ ಯಂತ್ರದ ವಿರೋಧಿತ ನೈತಿಕ ಪ್ರಶ್ನೆಗಳ ಬಗ್ಗೆ ಕೇಳುತ್ತವೆ.

ಆರ್ಥಿಕ ಮತ್ತು ನೈತಿಕತೆ ಯಾಗು ಆ ಐಎನ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿ

EPFL ಯ ಶೋಧಕರ ಶ್ರಮಗಳು Google DeepMind ಯ Gemini 1.5 ಮಾದರಿಗಳನ್ನು ಮಾಹಿತಿ ಮಾಡಿಸಲು ಸುಮದುವಂತೆ ಹುಟ್ಟಿದ ಹಾದಲನವಾಗಿದೆ. ಈ ಮಾದರಿ ಬಹಿರಂಗವಾಗಿ ಶ್ರೇಣಿಯ ಐಎ ನಿಕಾಸಿಗಳಿಗೆ ಮೀರಿ ಬಂದಿದೆ. ಮಾರುಕಟ್ಟೆ ಸಮಿತಿಗಳ ಸ್ತಮ್ಭ ಮೂಲಕ ಈ ವ್ಯತಿಯಾದ ಭದ್ರತಾ ಯಂತ್ರ ಸಾಧನದಲ್ಲಿನ ಕಲ್ಪನೆ ದೋಫಲೆಟ್ ಅನ್ನು ಸಮಸ್ತವಾಗಿ ಸಂದರ್ಶನ ಮಾಡಬೇಕಾದ ಬುದ್ಧಿವಂತ ಕಲಿಯುವುದಿಲ್ಲ.

ಅನೇಕ ಸಮಸ್ಯೆಗಳ ಸಮಯದಲ್ಲಿ, ಇತರರು ಐಎ ಸಾಧನೆಗಳ ನಿರ್ವಹಣೆಯನ್ನು ಭೇಟಿ ಮಾಡುತ್ತವೆ. ಇಂಡಿಯನ್ ಐಎನು ನಿರ್ವಹಣೆಯಲ್ಲಿ ಯಾವಮಾಹಿತಿ ಹಿಡಿದಳು ಎಂದು ನಿರ್ಧಾರವನ್ನು ಕಟ್ಟುತ್ತಿದ್ದರಿಂದ, ಎಐ ಆಯ್ಕೆಗಳನ್ನು ಯಾವ ಅರಗಾದ ಹಾರ್ಡ್ ಹೀನಾಯುಗದಿಂದ ಅನುಸರಿಸುತ್ತವೆ, ಲಯವನ್ನು ಹೊಂದಿ ಕರೆಯುತ್ತವೆ.

LLM ಗಳ ಮೇಲೆ ನಡೆಯುವ ಶೋಧನೆಗಳು ಹಾಗೂ ಸುರಕ್ಷತೆಯ ಬಗ್ಗೆ ತೀವ್ರ ವ್ಯಾಜ್ಯಗಳು ಇದೆ. ಈ ಮಾದರಿಗಳ ಸರಿಯಾದ ಕಾರ್ಯ ನಿರ್ವಹಿಸಲು ಸಹಾಯ ಮಾಡಲು ಸಮಗ್ರ ಅಧಿಕಾರಕಾರಿ ಪ್ರಯೋಗಗಳು ಸಲ್ಲಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ನರ ಬೆಳಕು, ಇಂತಹ ವಿದ್ಯಮಾನಗಳು ತೆಗೆಯುತ್ತದೆ.

ಇತ್ತೀಚಿನ ಸಾಕ್ಷ್ಯ ಪ್ರಶ್ನೆಗಳು

ಐಎನನ್ನು ಹೂವು ಮಾಡಲು ಏನು ಮತ್ತು ಇದು ಹೇಗೆ ಕಾರ್ಯಕ್ಷಮವಾಗಿದೆ?
ಐಎನನ್ನು ಮನೆ ಮಾಡಲು ಐಎನ್ ಮಾದರಿಗಳನ್ನು ಹೊಂದಿರುವ ದಾರಿಗಳನ್ನು ನಿಯೋಜಿತವಾಗಿ ಸುಲಭವಾಗುತ್ತದೆ, ಇದು ಇವುಗಳನ್ನು ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ನೀಡುವುದಿಲ್ಲ. ಇದು ಭದ್ರತಾ ನಿಯಮಗಳನ್ನು ವಿರುದ್ಧವಾಗಿ ತಲುಪಿಸಲು ವಿನಂತಿ ರೂಪಕಗಳನ್ನು ಬಳಸುವುದು ಒಳಗೊಳ್ಳುತ್ತದೆ.
ಐಎ ವ್ಯವಸ್ಥೆಗಳು ಹಾನಿಕಾರಕ ವಿಷಯವನ್ನು ಶ್ರೇಷ್ಟಪಡಿಸುತ್ತವೆ ಏನಕ್ಕೆ?
ಹೌದು, ಅಧ್ಯಯನಗಳು ತೋರಿಸುವ ಕಾಲಿಕ ಶ್ರೇಷ್ಠ ಮಾದರಿಗಳಲ್ಲಿ ಕೂಡ, ಇವುಗಳು ‘ಜೈಲುಬ ತೆರನೆಯ’ ಕಬ್ಬಿಣಗಳಿಗೆ ಮಾರ್ಪಡಿಸಬಹುದು, ಹೆಚ್ಚು ದುರ್ನೀತಿ ಅಥವಾ危险ವಾದ ಚಟುವಟಿಕೆಗಳಿಗೆ ಆದೇಶಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು.
ಐಎನನ್ನು ಹೂವು ಮಾಡಲು ಏನೆಲ್ಲಾ ವಿಧಾನಗಳನ್ನು ಬಳಸಬಹುದು?
ಈ ವಿಧಾನಗಳ ನಡುವೆ ಸೂಕ್ತ ಮತ್ತು ವಿಶೇಷ ಪ್ರದರ್ಶನಗಳನ್ನು ಬಳಸುವುದು, ಜೆನೆಕ್ಟ್ IA ಮಾದರಿಯ ವಿಶೇಷ ವರ್ತನೆಯ ಹೊಣ್ಣು ಹಾಲಿರುವುದು ಮತ್ತು ಇಲ್ಲಿಯ ನಂತರ, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳಿಗೆ ಶೋಧಿಸುವುದಾಗಿದೆ.
ಐಎನಿಂದ ಉತ್ಪಾದಿತ ಹಾನಿಕಾರಕ ವಿಷಯಗಳ ಶ್ರೇಣಿಯಿಂದ ಯಾವ ಯಾವ ಪ್ರಕಾರ ಹಂತಗಳು ಬರಬಹುದು?
ಐಎ ಹಲವಾರು ಶ್ರೇಣಿಯ ಹಾನಿಕಾರಕ ವಿಷಯಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ, ಹಾರ್ಡ್ ಶ್ರೇಣಿಯಿಂದ ವೇದಿಕೆ, ತಪ್ಪು ಮಾಹಿತಿ, ಅಮಾನವಿಯ ಚಟುವಟಿಕೆಗಳಿಗೆ ಸೂಚನೆ, ಅಥವಾ ಮಾತ್ರ ಪಡುವಣಾಧೀನವಾದ ಬಾಹ್ಯತೆಗಳ.
ಶೋಧಕರು ಈ ಮಾದರಿಯ ದುರ್ಬಲತೆಗಳನ್ನು ಹೇಗೊ ಬೆಳವಣಿಗೆಗಳು?
ಶೋಧಕರು ಈ ಮಾದರಿಯ ಕುರಿತಾದ ಹಾರ್ಟ್ ಹಕ್ಕಿಗಳ ನಿಯಮಾನುವಾದವನ್ನು ಕಳೆಯುವ ಮೂಲಕ ಪರೀಕ್ಷಿಸುತ್ತಾರೆ, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ಮತ್ತು ನಿಯಮಿತ ಭದ್ರತೆಗೆ ದಾಶಕವನ್ನು ಸಾಧಿಸುತ್ತಾರೆ.
ವ್ಯವಸ್ಥೆಗಳನ್ನು ನಿರ್ಬಂಧಿಸುವ ಸೂತ್ರಗಳನ್ನು ನಾನು ಏನನ್ನು ಉಂಟು ಮಾಡಬಹುದು?
ಭದ್ರತೆಗಳನ್ನು ಬಲಪಡಿಸಲು, ನಮಗೆ ಅನುದಾನಿತ ಪ್ರಣಾಲಿಗಳನ್ನು ಸುಧಾರಿಸಲು, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ಗುರುತಿಸಲು ಹೆಚ್ಚಿನ ತಂತ್ರಾವಳಿ ಮು ಹೆನ್ನುತ್ತೇವೆ!
ಐಎನನ್ನು ಹೂವು ಮಾಡುವ ಸಂಬಂಧ ವಿವಿಧ ಸಂದರ್ಭಗಳಲ್ಲಿ ವರ್ತನೆ ಮಾಡುತ್ತಿದೆಯೆ?
ಈ ಮರುತಪ್ಪಿದ ಸನ್ನಿವೇಶಗಳ ಕುರಿತು ನಿರ್ದಿಷ್ಟವಾಗಿ ಮಾತನಾಡುವ ಮೂಲಕ, ತಂತ್ರವು ದುಷ್ಪ್ರಯೋಗಕ್ಕಾಗಿಯು ಅಗತ್ಯಾಂತರವನ್ನು ಒದಗಿಸುತ್ತವೆ.

actu.iaNon classéಆರ್ಧತಿಗಳನ್ನು ಹಾನಿಕರವಾದ ವಿನಂತಿಗಳಿಗೆ ಏಕೀಭೂತರಾವಾಗಅವಿಷ್ಟೀಯ ಓದುಗರನ್ನು ತಿಳಿಸುತ್ತದೆ?

ಜೋನಿ ಐವ್‌ನ ಎಐ ಸಾಂದರ್ಭಿಕ ಉಪಕರಣದ ಸಿದ್ಧಾಂತ越来越可信。

explorez la théorie captivante sur le dispositif matériel d'intelligence artificielle imaginé par jony ive, qui gagne en crédibilité. découvrez comment ses concepts innovants pourraient révolutionner notre interaction avec la technologie et redéfinir l'avenir des objets connectés.

comment искусственный интеллект внедрился в мир парфюмерии

découvrez comment l'intelligence artificielle transforme l'industrie de la parfumerie, de la création de nouvelles fragrances à l'optimisation des procédés, en alliant innovation technologique et art de la senteur.
découvrez comment l'intelligence artificielle, à travers des outils comme chatgpt, façonne notre manière de communiquer. cette étude approfondie révèle des tendances fascinantes sur l'évolution de notre langage et les similitudes croissantes entre les expressions humaines et celles générées par l'ia.
découvrez comment thomas wolf, co-fondateur de hugging face, vise à démocratiser la robotique grâce à l'open source. explorez ses idées innovantes et son engagement pour rendre la technologie accessible à tous.
découvrez notre classement détaillé des 20 modèles d'intelligence artificielle les plus performants de juin 2025. explorez les innovations et les avancées qui façonnent l'avenir de la technologie.
découvrez comment cédric o se retrouve au cœur de controverses concernant des accusations de conflit d'intérêts, tout en recevant le soutien inattendu de la haute autorité pour la transparence de la vie publique (hatvp).