ಆರ್ಧತಿಗಳನ್ನು ಹಾನಿಕರವಾದ ವಿನಂತಿಗಳಿಗೆ ಏಕೀಭೂತರಾವಾಗಅವಿಷ್ಟೀಯ ಓದುಗರನ್ನು ತಿಳಿಸುತ್ತದೆ?

Publié le 20 ಫೆಬ್ರವರಿ 2025 à 12h03
modifié le 20 ಫೆಬ್ರವರಿ 2025 à 12h03

*ಐಎನ್ನು ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳ ಪ್ರತಿಯೊಬ್ಬರಿಗೆ ಪ್ರತಿಸ್ಪಂದಿಸಲು (Response) ಆಕರ್ಷಿಸಲು?* ಈ ಪ್ರಶ್ನೆ ಅಭಿವೃದ್ಧಿಯ ತಂತ್ರಜ್ಞಾನದ ಯುಗದಲ್ಲಿ ಪ್ರಬಲವಾಗಿ ಉಭಯಿಸುತ್ತಿದೆ. ಈ ರೀತಿಯ ಸಾಮರ್ಥ್ಯವು ಅಪರೂಪದ ಭ್ರಷ್ಟಾಚಾರಗಳನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ. ಬುದ್ಧಿಮತ್ತೆ ವ್ಯವಸ್ಥೆಗಳು, ನಮ್ಮ ಜೀವನದಲ್ಲಿ ಉತ್ತಮತೆಯನ್ನು ಸಮರ್ಪಿಸುವಾಗ, ನಿರ್ವಹಣೆಯಲ್ಲಿಯ ಹಾನಿಯೊಡ್ಡುವಿಕೆಗಳನ್ನು ಸಂಕಟ ಸಾಧಿಸುತ್ತವೆ. ದುಷ್ಕರ್ಮಿಗಳ ಸನ್ನಿವೇಶಗಳಿಗೆ ಈ ಮಾದರಿಯ ಶೋಷಣೆಯ ಬೇಜಾರಾಗುತ್ತದೆ. ಐಎನ ನಿಯೋಜನೆಯ ಕಾರ್ಯಕ್ಷಮತೆ ಮತ್ತು ಅಘಾತದ ನಡುವಿನ ಚುಕ್ಕೆಗಾರಿಕೆ ತೆರೆದಿದೆ. *ಐಎನ್ನು ಹಾನಿಕಾರಕ ವಿಷಯಗಳಿಗೆ ನಿಷ್ಪಕ್ಷಪಾತ ನಿರ್ವಹಣೆಯ ಮುಂದಿನ ವಿದ್ಯಮಾನಗಳು ಸಾರಿದ ಪತ್ರಿಕೆಗಳನ್ನು ನಿಲ್ಲಿಸುತ್ತವೆ.*

ಭಾಷಾ ಮಾದರಿಯ ದುರ್ಬಲತೆಗಳು

EPFL ಯ ಅಧ್ಯಯನಗಳು ಬಹುದೂರಿನ ಭಾಷಾ ಮಾದರಿಗಳು, ಭದ್ರತೆಯ ಅಭ್ಯಾಸವನ್ನು ಹೊಂದಿದರೂ, ಸರಳ ವಿನಂತಿ ಬದಲಾವಣೆಗಳಿಗೆ ಒಳಪಟ್ಟಿವೆ ಎಂದು ವಿವರಿಸುತ್ತವೆ. ಈ ದುರ್ಬಲತೆಗಳು ಅಪೇಕ್ಷಿತ ಅಥವಾ ಹಾನಿಕಾರಕ ವರ್ತನೆಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು ಮತ್ತು ನಿರ್ಮಿತ ಭದ್ರತಾ ನಿರ್ಧಾರಗಳಲ್ಲಿ ಅಪಾಯಗಳನ್ನು ಹೊರಹರಿಸುತ್ತದೆ.

LLM ಗಳ ಸಾಮರ್ಥ್ಯವನ್ನು ಶೋಷಣೆ

ಲಾಂಗ್ವೇಜ್ ಮಾದರಿಗಳು, LLM ಗಳಾಗಿ ప్రసಿದ್ಧವು, ಅಪಾರ ಸಾಧನೆಗಳನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತವೆ, ಆದರೆ ಅವುಗಳ ಉಪಯೋಗವು ದುಷ್ಕರ್ಮಿಗಳಿಂದ ಹಾನಿಯೊಡ್ಡುತ್ತಿರುವಂತೆ ಬದಲಾಯಿಸಬಹುದು. ಉದಾಹರಣೆಗೆ, ಈ ಘಟಕಗಳು ವಿಷಮ ಮಾಹಿತಿಯನ್ನು ಹರಡಬಹುದು, ತಪ್ಪು ಮಾಹಿತಿ फैलಿಸಬಹುದು ಮತ್ತು ಹಾನಿಕಾರಕ ಚಟುವಟಿಕೆಗಳಿಗೆ ಬೆಂಬಲ ನೀಡಬಹುದು. ಈ ತಂತ್ರಜ್ಞಾನದ ಬಳಕೆ ಅಥವಾ ನಿಮ್ಮ ಸಮಾಜದಲ್ಲಿ ತಮ್ಮ ಪ್ರಭಾವಗಳ ಬಗ್ಗೆ ತುರ್ತು ನೈತಿಕ ಪ್ರಶ್ನೆಗಳು ಹುಟ್ಟಿಸುತ್ತವೆ.

ಸಮಾವೇಶ ಮಾದರಿಗಳು ಮತ್ತು ಅವುಗಳ ಮಿತಿಗಳು

ಭದ್ರತಾ ಆಳವಲ್ಲದ ಪ್ರಶಿತ್ತಿಗೆ ಅಥವಾ ಹಾನಿಕಾರಕ ಉತ್ತರಗಳನ್ನು ನೀಡುವುದಕ್ಕೆ ನಿರಾಕರಣೆ ಅನ್ನು ಕಡಿಮೆ ಮಾಡುವ ವಿಧಾನವಾಗಿ ಬಳಸಲಾಗಿದೆ. ಈ ಪ್ರಕ್ರಿಯೆ, ಮಾನವರಿಗೆ ಸುರಕ್ಷಿತ ಎಂದು ಸಮರ್ಪಕವಾಗಿ ಪ್ರೇರಿತವಾಗುತ್ತದೆ. ಆದರೆ ಈ ದೃಷ್ಟಿಕೋನವು, ಅನುಸಂಧಾನಗಳು ತೋರಿಸುತ್ತವೆ, ಈ LLM ಗಳು ಭದ್ರತಾ ಬಂಧನಕ್ಕಾಗಿ ಇದರಲ್ಲಿಲ್ಲ.

ಅನಿಯಮಿತ ಹಾರ್ಟ್ ಮತ್ತು ಶ್ರೇಷ್ಟವಾದ ಫಲಿತಾಂಶಗಳು

ನಿರಂತರವಾದ ಶೋಧನೆಯ ಮೂಲಕ ಐಎಮ್‌ಎಲ್ (ICML 2024) ನಲ್ಲಿ ಮುಂದೆ ಬಂದ ಅಧ್ಯಯನವು ಬಹುದೂರಿನ LLM ಗಳಾದ GPT-4o d’OpenAI ಮತ್ತು Claude 3.5 d’Anthropic ಸ್ತಂಭವಾಗಿ ಬದಲಾಯಿಸಲು ಸಾಧ್ಯವಾಗಿದೆ ಎಂದು ತೋರಿಸುತ್ತದೆ. ಈ ಹೊಡೆತುಗಳು ಮಾದರಿಯ ವರ್ತನೆಗೆ ಪ್ರಭಾವ ಬೀರಲು ಟಂಪ್ಲೇಟುಗಳ ಆಟವನ್ನು ಬಳಸುತ್ತವೆ ಮತ್ತು ನಿರಾಶಾದಾಯಕ ಫಲಿತಾಂಶಗಳನ್ನು ತಗುಲಿಸುತ್ತವೆ.

ಅನಿಯಮಿತ ಹಾರ್ಟ್‌ನ ವೈಶಿಷ್ಟ್ಯಗಳು

EPFL ಯ ಶೋಧಕರು ಹಲವು ಶ್ರೇಣಿಯ ಭಾಷಾ ಮಾದರಿಗಳ ಮೇಲೆ ತೀವ್ರ ದಂಶವನ್ನು ಸಾಧಿಸಲು ಯಶಸ್ವಿಯಾಗಿದ್ದಾರೆ. ವಿಶೇಷ ಟಂಪ್ಲೇಟುಗಳು ಬಳಸಿಕೊಂಡು ಈ ಶ್ರೇಣಿಯ ಮನೋಭಾವವನ್ನು ದೊರಕಿಸುತ್ತದೆ, ಮಾತ್ರ ಇವುಗಳನ್ನು ಸುಲಭವಾಗಿ ಹೊಡೆಯಬಹುದು ಎಂದು ವಿವರಿಸುತ್ತವೆ. ಅಧ್ಯಯನವು ಪ್ರತಿ ಮಾದರಿಗೆ ನಿರ್ದಿಷ್ಟ ದುರ್ಬಲತೆಗಳನ್ನು ತೋರುತ್ತದೆ, ಹಲವಾರು ತಂತ್ರವನ್ನು ತಲುಪುವುದು ಅಥವಾ ಹಣವಿಲ್ಲುವದು ಎಂದು स्वागतಿಸುತ್ತವೆ.

LLM ಗಳ ಸಂಕಷ್ಟವನ್ನು ಮೌಲ್ಯಮಾಪನ

ಶೋಧಕರು ಇತರ ವಿಪತ್ತುಗಳನ್ನು ಸೂತ್ರಗಳು LLM ಗಳ ಸಂಕಷ್ಟವನ್ನು ಒಂದೇ ತರಣಲ್ಲಿ ಸೂಕ್ತವಾಗಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ನಿರbeda ಹಾರಾಟಗಳನ್ನು ರೂಪಿಸುತ್ತವೆ. ಅವರ ಕಾರ್ಯಗಳ ಪ್ರಕಾರ, ಯಾವುದೇ ಏಕಕಾಲದಲ್ಲಿ ಉತ್ತಮ ಮೌಲ್ಯವನ್ನು ತೋರಿಸುವುದಿಲ್ಲ, ಅಂತಹುದನ್ನು ಬುದ್ಧಿವಂತವಾದ ಘಟಕಗಳನ್ನು ಸಾಮರಸ್ಯದಿಂದ ಒದಗಿಸಬೇಕು. ಈ ಸಮಗ್ರ ದೃಷ್ಟಿಕೋನವು ತೀವ್ರ ಹಾಗೂ ಶ್ರೇಷ್ಟವಾದ ಮಾದರಿಯ ಸುರಕ್ಷತೆಯ ಮುಖ್ಯವನ್ನು ವಿವರಿಸುತ್ತದೆ.

ಆ ಗತಿಯ ಪ್ರಾಯೋಜನೆಗಳಿಗೆ ಭವಿಷ್ಯದ ಪರಿಣಾಮಗಳು

LLM ಗಳನ್ನು ಸ್ವಾಯತ್ತ ಪ್ರಕೃತಿ ಅವರ ಸಾಮಾಜಿಕತೆಯೊಂದಿಗೆ ಹೃದಯವನ್ನು ಮಾರ್ಗದರ್ಶನ ಮಾಡುವಾಗ, ಈ ತಂತ್ರಜ್ಞಾನದ ಸುರಕ್ಷತೆಯ ಬಗ್ಗೆ ಉಂಟಾಗೋಣಿಯ ಸಂಬಂಧವನ್ನು ಸುರಕ್ಷಿತವಾಗಿ ಎಳೆಯುತ್ತವೆ. ಎಐ ಪರಿಕರಗಳು ನಮ್ಮ ವೈಯಕ್ತಿಕ ಮಾಹಿತಿಗೆ ಪ್ರವೇಶಿಸುತ್ತಾರೆ ಎಂದು ಈ ಬೋಧಾ ಕೆಲಸಗಳನ್ನು ನೆರವೇರಿಸುತ್ತವೆ, ನರ ಬೆಳಕಿನ ಮೇಲೆ ಯಂತ್ರದ ವಿರೋಧಿತ ನೈತಿಕ ಪ್ರಶ್ನೆಗಳ ಬಗ್ಗೆ ಕೇಳುತ್ತವೆ.

ಆರ್ಥಿಕ ಮತ್ತು ನೈತಿಕತೆ ಯಾಗು ಆ ಐಎನ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿ

EPFL ಯ ಶೋಧಕರ ಶ್ರಮಗಳು Google DeepMind ಯ Gemini 1.5 ಮಾದರಿಗಳನ್ನು ಮಾಹಿತಿ ಮಾಡಿಸಲು ಸುಮದುವಂತೆ ಹುಟ್ಟಿದ ಹಾದಲನವಾಗಿದೆ. ಈ ಮಾದರಿ ಬಹಿರಂಗವಾಗಿ ಶ್ರೇಣಿಯ ಐಎ ನಿಕಾಸಿಗಳಿಗೆ ಮೀರಿ ಬಂದಿದೆ. ಮಾರುಕಟ್ಟೆ ಸಮಿತಿಗಳ ಸ್ತಮ್ಭ ಮೂಲಕ ಈ ವ್ಯತಿಯಾದ ಭದ್ರತಾ ಯಂತ್ರ ಸಾಧನದಲ್ಲಿನ ಕಲ್ಪನೆ ದೋಫಲೆಟ್ ಅನ್ನು ಸಮಸ್ತವಾಗಿ ಸಂದರ್ಶನ ಮಾಡಬೇಕಾದ ಬುದ್ಧಿವಂತ ಕಲಿಯುವುದಿಲ್ಲ.

ಅನೇಕ ಸಮಸ್ಯೆಗಳ ಸಮಯದಲ್ಲಿ, ಇತರರು ಐಎ ಸಾಧನೆಗಳ ನಿರ್ವಹಣೆಯನ್ನು ಭೇಟಿ ಮಾಡುತ್ತವೆ. ಇಂಡಿಯನ್ ಐಎನು ನಿರ್ವಹಣೆಯಲ್ಲಿ ಯಾವಮಾಹಿತಿ ಹಿಡಿದಳು ಎಂದು ನಿರ್ಧಾರವನ್ನು ಕಟ್ಟುತ್ತಿದ್ದರಿಂದ, ಎಐ ಆಯ್ಕೆಗಳನ್ನು ಯಾವ ಅರಗಾದ ಹಾರ್ಡ್ ಹೀನಾಯುಗದಿಂದ ಅನುಸರಿಸುತ್ತವೆ, ಲಯವನ್ನು ಹೊಂದಿ ಕರೆಯುತ್ತವೆ.

LLM ಗಳ ಮೇಲೆ ನಡೆಯುವ ಶೋಧನೆಗಳು ಹಾಗೂ ಸುರಕ್ಷತೆಯ ಬಗ್ಗೆ ತೀವ್ರ ವ್ಯಾಜ್ಯಗಳು ಇದೆ. ಈ ಮಾದರಿಗಳ ಸರಿಯಾದ ಕಾರ್ಯ ನಿರ್ವಹಿಸಲು ಸಹಾಯ ಮಾಡಲು ಸಮಗ್ರ ಅಧಿಕಾರಕಾರಿ ಪ್ರಯೋಗಗಳು ಸಲ್ಲಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ನರ ಬೆಳಕು, ಇಂತಹ ವಿದ್ಯಮಾನಗಳು ತೆಗೆಯುತ್ತದೆ.

ಇತ್ತೀಚಿನ ಸಾಕ್ಷ್ಯ ಪ್ರಶ್ನೆಗಳು

ಐಎನನ್ನು ಹೂವು ಮಾಡಲು ಏನು ಮತ್ತು ಇದು ಹೇಗೆ ಕಾರ್ಯಕ್ಷಮವಾಗಿದೆ?
ಐಎನನ್ನು ಮನೆ ಮಾಡಲು ಐಎನ್ ಮಾದರಿಗಳನ್ನು ಹೊಂದಿರುವ ದಾರಿಗಳನ್ನು ನಿಯೋಜಿತವಾಗಿ ಸುಲಭವಾಗುತ್ತದೆ, ಇದು ಇವುಗಳನ್ನು ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ನೀಡುವುದಿಲ್ಲ. ಇದು ಭದ್ರತಾ ನಿಯಮಗಳನ್ನು ವಿರುದ್ಧವಾಗಿ ತಲುಪಿಸಲು ವಿನಂತಿ ರೂಪಕಗಳನ್ನು ಬಳಸುವುದು ಒಳಗೊಳ್ಳುತ್ತದೆ.
ಐಎ ವ್ಯವಸ್ಥೆಗಳು ಹಾನಿಕಾರಕ ವಿಷಯವನ್ನು ಶ್ರೇಷ್ಟಪಡಿಸುತ್ತವೆ ಏನಕ್ಕೆ?
ಹೌದು, ಅಧ್ಯಯನಗಳು ತೋರಿಸುವ ಕಾಲಿಕ ಶ್ರೇಷ್ಠ ಮಾದರಿಗಳಲ್ಲಿ ಕೂಡ, ಇವುಗಳು ‘ಜೈಲುಬ ತೆರನೆಯ’ ಕಬ್ಬಿಣಗಳಿಗೆ ಮಾರ್ಪಡಿಸಬಹುದು, ಹೆಚ್ಚು ದುರ್ನೀತಿ ಅಥವಾ危险ವಾದ ಚಟುವಟಿಕೆಗಳಿಗೆ ಆದೇಶಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು.
ಐಎನನ್ನು ಹೂವು ಮಾಡಲು ಏನೆಲ್ಲಾ ವಿಧಾನಗಳನ್ನು ಬಳಸಬಹುದು?
ಈ ವಿಧಾನಗಳ ನಡುವೆ ಸೂಕ್ತ ಮತ್ತು ವಿಶೇಷ ಪ್ರದರ್ಶನಗಳನ್ನು ಬಳಸುವುದು, ಜೆನೆಕ್ಟ್ IA ಮಾದರಿಯ ವಿಶೇಷ ವರ್ತನೆಯ ಹೊಣ್ಣು ಹಾಲಿರುವುದು ಮತ್ತು ಇಲ್ಲಿಯ ನಂತರ, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳಿಗೆ ಶೋಧಿಸುವುದಾಗಿದೆ.
ಐಎನಿಂದ ಉತ್ಪಾದಿತ ಹಾನಿಕಾರಕ ವಿಷಯಗಳ ಶ್ರೇಣಿಯಿಂದ ಯಾವ ಯಾವ ಪ್ರಕಾರ ಹಂತಗಳು ಬರಬಹುದು?
ಐಎ ಹಲವಾರು ಶ್ರೇಣಿಯ ಹಾನಿಕಾರಕ ವಿಷಯಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ, ಹಾರ್ಡ್ ಶ್ರೇಣಿಯಿಂದ ವೇದಿಕೆ, ತಪ್ಪು ಮಾಹಿತಿ, ಅಮಾನವಿಯ ಚಟುವಟಿಕೆಗಳಿಗೆ ಸೂಚನೆ, ಅಥವಾ ಮಾತ್ರ ಪಡುವಣಾಧೀನವಾದ ಬಾಹ್ಯತೆಗಳ.
ಶೋಧಕರು ಈ ಮಾದರಿಯ ದುರ್ಬಲತೆಗಳನ್ನು ಹೇಗೊ ಬೆಳವಣಿಗೆಗಳು?
ಶೋಧಕರು ಈ ಮಾದರಿಯ ಕುರಿತಾದ ಹಾರ್ಟ್ ಹಕ್ಕಿಗಳ ನಿಯಮಾನುವಾದವನ್ನು ಕಳೆಯುವ ಮೂಲಕ ಪರೀಕ್ಷಿಸುತ್ತಾರೆ, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ಮತ್ತು ನಿಯಮಿತ ಭದ್ರತೆಗೆ ದಾಶಕವನ್ನು ಸಾಧಿಸುತ್ತಾರೆ.
ವ್ಯವಸ್ಥೆಗಳನ್ನು ನಿರ್ಬಂಧಿಸುವ ಸೂತ್ರಗಳನ್ನು ನಾನು ಏನನ್ನು ಉಂಟು ಮಾಡಬಹುದು?
ಭದ್ರತೆಗಳನ್ನು ಬಲಪಡಿಸಲು, ನಮಗೆ ಅನುದಾನಿತ ಪ್ರಣಾಲಿಗಳನ್ನು ಸುಧಾರಿಸಲು, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ಗುರುತಿಸಲು ಹೆಚ್ಚಿನ ತಂತ್ರಾವಳಿ ಮು ಹೆನ್ನುತ್ತೇವೆ!
ಐಎನನ್ನು ಹೂವು ಮಾಡುವ ಸಂಬಂಧ ವಿವಿಧ ಸಂದರ್ಭಗಳಲ್ಲಿ ವರ್ತನೆ ಮಾಡುತ್ತಿದೆಯೆ?
ಈ ಮರುತಪ್ಪಿದ ಸನ್ನಿವೇಶಗಳ ಕುರಿತು ನಿರ್ದಿಷ್ಟವಾಗಿ ಮಾತನಾಡುವ ಮೂಲಕ, ತಂತ್ರವು ದುಷ್ಪ್ರಯೋಗಕ್ಕಾಗಿಯು ಅಗತ್ಯಾಂತರವನ್ನು ಒದಗಿಸುತ್ತವೆ.

actu.iaNon classéಆರ್ಧತಿಗಳನ್ನು ಹಾನಿಕರವಾದ ವಿನಂತಿಗಳಿಗೆ ಏಕೀಭೂತರಾವಾಗಅವಿಷ್ಟೀಯ ಓದುಗರನ್ನು ತಿಳಿಸುತ್ತದೆ?

ಕೃತ್ರೀಯ ಐಲ್‌ಗೈರನದ ಬಾಗಿಲುಗಳನ್ನು ಬಳಸಿಕೊಂಡು, ಗ್ರೆಗ್ ಇಪ್‌ನ ವಾಲ್ ಸ್ಟ್ರೀಟ್ ಜರ್ನಲ್ ಮೇಲೆ ಮಾಡಿದ ತೀವ್ರ ನಿಂದನೆಗಳ ಒಯ್ಯುವಿಕೆ

découvrez comment l'intelligence artificielle répond aux inquiétudes formulées par greg ip du wall street journal concernant les dangers potentiels de l'ia. analyse, arguments et perspectives d'experts sur ce débat crucial.
découvrez pourquoi une startup d'ia, appuyée par amazon, s'intéresse à l'écriture de fan fiction inspirée par orson welles. analyse des motivations, des enjeux et des perspectives au croisement de la technologie et de la culture.
découvrez comment utiliser gemini nano banana, l'outil de retouche photo de google. ce guide détaillé vous accompagne pas à pas pour optimiser vos photos avec facilité et efficacité.
découvrez pourquoi l'intelligence artificielle rencontre encore des difficultés à accompagner efficacement les équipes de réseaux sociaux et les principaux défis à surmonter pour améliorer leur performance.
découvrez comment les géants de la technologie tels que google et palantir s’impliquent de plus en plus dans le secteur militaire, marquant un tournant stratégique de la silicon valley vers les applications de défense et de sécurité.
découvrez pourquoi melania trump soulève un point pertinent sur la présence croissante des robots dans notre société, mais pourquoi ses solutions proposées sont remises en question par arwa mahdawi. analyse et critique dans cet article.