ಆರ್ಧತಿಗಳನ್ನು ಹಾನಿಕರವಾದ ವಿನಂತಿಗಳಿಗೆ ಏಕೀಭೂತರಾವಾಗಅವಿಷ್ಟೀಯ ಓದುಗರನ್ನು ತಿಳಿಸುತ್ತದೆ?

Publié le 20 ಫೆಬ್ರವರಿ 2025 à 12h03
modifié le 20 ಫೆಬ್ರವರಿ 2025 à 12h03

*ಐಎನ್ನು ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳ ಪ್ರತಿಯೊಬ್ಬರಿಗೆ ಪ್ರತಿಸ್ಪಂದಿಸಲು (Response) ಆಕರ್ಷಿಸಲು?* ಈ ಪ್ರಶ್ನೆ ಅಭಿವೃದ್ಧಿಯ ತಂತ್ರಜ್ಞಾನದ ಯುಗದಲ್ಲಿ ಪ್ರಬಲವಾಗಿ ಉಭಯಿಸುತ್ತಿದೆ. ಈ ರೀತಿಯ ಸಾಮರ್ಥ್ಯವು ಅಪರೂಪದ ಭ್ರಷ್ಟಾಚಾರಗಳನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ. ಬುದ್ಧಿಮತ್ತೆ ವ್ಯವಸ್ಥೆಗಳು, ನಮ್ಮ ಜೀವನದಲ್ಲಿ ಉತ್ತಮತೆಯನ್ನು ಸಮರ್ಪಿಸುವಾಗ, ನಿರ್ವಹಣೆಯಲ್ಲಿಯ ಹಾನಿಯೊಡ್ಡುವಿಕೆಗಳನ್ನು ಸಂಕಟ ಸಾಧಿಸುತ್ತವೆ. ದುಷ್ಕರ್ಮಿಗಳ ಸನ್ನಿವೇಶಗಳಿಗೆ ಈ ಮಾದರಿಯ ಶೋಷಣೆಯ ಬೇಜಾರಾಗುತ್ತದೆ. ಐಎನ ನಿಯೋಜನೆಯ ಕಾರ್ಯಕ್ಷಮತೆ ಮತ್ತು ಅಘಾತದ ನಡುವಿನ ಚುಕ್ಕೆಗಾರಿಕೆ ತೆರೆದಿದೆ. *ಐಎನ್ನು ಹಾನಿಕಾರಕ ವಿಷಯಗಳಿಗೆ ನಿಷ್ಪಕ್ಷಪಾತ ನಿರ್ವಹಣೆಯ ಮುಂದಿನ ವಿದ್ಯಮಾನಗಳು ಸಾರಿದ ಪತ್ರಿಕೆಗಳನ್ನು ನಿಲ್ಲಿಸುತ್ತವೆ.*

ಭಾಷಾ ಮಾದರಿಯ ದುರ್ಬಲತೆಗಳು

EPFL ಯ ಅಧ್ಯಯನಗಳು ಬಹುದೂರಿನ ಭಾಷಾ ಮಾದರಿಗಳು, ಭದ್ರತೆಯ ಅಭ್ಯಾಸವನ್ನು ಹೊಂದಿದರೂ, ಸರಳ ವಿನಂತಿ ಬದಲಾವಣೆಗಳಿಗೆ ಒಳಪಟ್ಟಿವೆ ಎಂದು ವಿವರಿಸುತ್ತವೆ. ಈ ದುರ್ಬಲತೆಗಳು ಅಪೇಕ್ಷಿತ ಅಥವಾ ಹಾನಿಕಾರಕ ವರ್ತನೆಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು ಮತ್ತು ನಿರ್ಮಿತ ಭದ್ರತಾ ನಿರ್ಧಾರಗಳಲ್ಲಿ ಅಪಾಯಗಳನ್ನು ಹೊರಹರಿಸುತ್ತದೆ.

LLM ಗಳ ಸಾಮರ್ಥ್ಯವನ್ನು ಶೋಷಣೆ

ಲಾಂಗ್ವೇಜ್ ಮಾದರಿಗಳು, LLM ಗಳಾಗಿ ప్రసಿದ್ಧವು, ಅಪಾರ ಸಾಧನೆಗಳನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತವೆ, ಆದರೆ ಅವುಗಳ ಉಪಯೋಗವು ದುಷ್ಕರ್ಮಿಗಳಿಂದ ಹಾನಿಯೊಡ್ಡುತ್ತಿರುವಂತೆ ಬದಲಾಯಿಸಬಹುದು. ಉದಾಹರಣೆಗೆ, ಈ ಘಟಕಗಳು ವಿಷಮ ಮಾಹಿತಿಯನ್ನು ಹರಡಬಹುದು, ತಪ್ಪು ಮಾಹಿತಿ फैलಿಸಬಹುದು ಮತ್ತು ಹಾನಿಕಾರಕ ಚಟುವಟಿಕೆಗಳಿಗೆ ಬೆಂಬಲ ನೀಡಬಹುದು. ಈ ತಂತ್ರಜ್ಞಾನದ ಬಳಕೆ ಅಥವಾ ನಿಮ್ಮ ಸಮಾಜದಲ್ಲಿ ತಮ್ಮ ಪ್ರಭಾವಗಳ ಬಗ್ಗೆ ತುರ್ತು ನೈತಿಕ ಪ್ರಶ್ನೆಗಳು ಹುಟ್ಟಿಸುತ್ತವೆ.

ಸಮಾವೇಶ ಮಾದರಿಗಳು ಮತ್ತು ಅವುಗಳ ಮಿತಿಗಳು

ಭದ್ರತಾ ಆಳವಲ್ಲದ ಪ್ರಶಿತ್ತಿಗೆ ಅಥವಾ ಹಾನಿಕಾರಕ ಉತ್ತರಗಳನ್ನು ನೀಡುವುದಕ್ಕೆ ನಿರಾಕರಣೆ ಅನ್ನು ಕಡಿಮೆ ಮಾಡುವ ವಿಧಾನವಾಗಿ ಬಳಸಲಾಗಿದೆ. ಈ ಪ್ರಕ್ರಿಯೆ, ಮಾನವರಿಗೆ ಸುರಕ್ಷಿತ ಎಂದು ಸಮರ್ಪಕವಾಗಿ ಪ್ರೇರಿತವಾಗುತ್ತದೆ. ಆದರೆ ಈ ದೃಷ್ಟಿಕೋನವು, ಅನುಸಂಧಾನಗಳು ತೋರಿಸುತ್ತವೆ, ಈ LLM ಗಳು ಭದ್ರತಾ ಬಂಧನಕ್ಕಾಗಿ ಇದರಲ್ಲಿಲ್ಲ.

ಅನಿಯಮಿತ ಹಾರ್ಟ್ ಮತ್ತು ಶ್ರೇಷ್ಟವಾದ ಫಲಿತಾಂಶಗಳು

ನಿರಂತರವಾದ ಶೋಧನೆಯ ಮೂಲಕ ಐಎಮ್‌ಎಲ್ (ICML 2024) ನಲ್ಲಿ ಮುಂದೆ ಬಂದ ಅಧ್ಯಯನವು ಬಹುದೂರಿನ LLM ಗಳಾದ GPT-4o d’OpenAI ಮತ್ತು Claude 3.5 d’Anthropic ಸ್ತಂಭವಾಗಿ ಬದಲಾಯಿಸಲು ಸಾಧ್ಯವಾಗಿದೆ ಎಂದು ತೋರಿಸುತ್ತದೆ. ಈ ಹೊಡೆತುಗಳು ಮಾದರಿಯ ವರ್ತನೆಗೆ ಪ್ರಭಾವ ಬೀರಲು ಟಂಪ್ಲೇಟುಗಳ ಆಟವನ್ನು ಬಳಸುತ್ತವೆ ಮತ್ತು ನಿರಾಶಾದಾಯಕ ಫಲಿತಾಂಶಗಳನ್ನು ತಗುಲಿಸುತ್ತವೆ.

ಅನಿಯಮಿತ ಹಾರ್ಟ್‌ನ ವೈಶಿಷ್ಟ್ಯಗಳು

EPFL ಯ ಶೋಧಕರು ಹಲವು ಶ್ರೇಣಿಯ ಭಾಷಾ ಮಾದರಿಗಳ ಮೇಲೆ ತೀವ್ರ ದಂಶವನ್ನು ಸಾಧಿಸಲು ಯಶಸ್ವಿಯಾಗಿದ್ದಾರೆ. ವಿಶೇಷ ಟಂಪ್ಲೇಟುಗಳು ಬಳಸಿಕೊಂಡು ಈ ಶ್ರೇಣಿಯ ಮನೋಭಾವವನ್ನು ದೊರಕಿಸುತ್ತದೆ, ಮಾತ್ರ ಇವುಗಳನ್ನು ಸುಲಭವಾಗಿ ಹೊಡೆಯಬಹುದು ಎಂದು ವಿವರಿಸುತ್ತವೆ. ಅಧ್ಯಯನವು ಪ್ರತಿ ಮಾದರಿಗೆ ನಿರ್ದಿಷ್ಟ ದುರ್ಬಲತೆಗಳನ್ನು ತೋರುತ್ತದೆ, ಹಲವಾರು ತಂತ್ರವನ್ನು ತಲುಪುವುದು ಅಥವಾ ಹಣವಿಲ್ಲುವದು ಎಂದು स्वागतಿಸುತ್ತವೆ.

LLM ಗಳ ಸಂಕಷ್ಟವನ್ನು ಮೌಲ್ಯಮಾಪನ

ಶೋಧಕರು ಇತರ ವಿಪತ್ತುಗಳನ್ನು ಸೂತ್ರಗಳು LLM ಗಳ ಸಂಕಷ್ಟವನ್ನು ಒಂದೇ ತರಣಲ್ಲಿ ಸೂಕ್ತವಾಗಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ನಿರbeda ಹಾರಾಟಗಳನ್ನು ರೂಪಿಸುತ್ತವೆ. ಅವರ ಕಾರ್ಯಗಳ ಪ್ರಕಾರ, ಯಾವುದೇ ಏಕಕಾಲದಲ್ಲಿ ಉತ್ತಮ ಮೌಲ್ಯವನ್ನು ತೋರಿಸುವುದಿಲ್ಲ, ಅಂತಹುದನ್ನು ಬುದ್ಧಿವಂತವಾದ ಘಟಕಗಳನ್ನು ಸಾಮರಸ್ಯದಿಂದ ಒದಗಿಸಬೇಕು. ಈ ಸಮಗ್ರ ದೃಷ್ಟಿಕೋನವು ತೀವ್ರ ಹಾಗೂ ಶ್ರೇಷ್ಟವಾದ ಮಾದರಿಯ ಸುರಕ್ಷತೆಯ ಮುಖ್ಯವನ್ನು ವಿವರಿಸುತ್ತದೆ.

ಆ ಗತಿಯ ಪ್ರಾಯೋಜನೆಗಳಿಗೆ ಭವಿಷ್ಯದ ಪರಿಣಾಮಗಳು

LLM ಗಳನ್ನು ಸ್ವಾಯತ್ತ ಪ್ರಕೃತಿ ಅವರ ಸಾಮಾಜಿಕತೆಯೊಂದಿಗೆ ಹೃದಯವನ್ನು ಮಾರ್ಗದರ್ಶನ ಮಾಡುವಾಗ, ಈ ತಂತ್ರಜ್ಞಾನದ ಸುರಕ್ಷತೆಯ ಬಗ್ಗೆ ಉಂಟಾಗೋಣಿಯ ಸಂಬಂಧವನ್ನು ಸುರಕ್ಷಿತವಾಗಿ ಎಳೆಯುತ್ತವೆ. ಎಐ ಪರಿಕರಗಳು ನಮ್ಮ ವೈಯಕ್ತಿಕ ಮಾಹಿತಿಗೆ ಪ್ರವೇಶಿಸುತ್ತಾರೆ ಎಂದು ಈ ಬೋಧಾ ಕೆಲಸಗಳನ್ನು ನೆರವೇರಿಸುತ್ತವೆ, ನರ ಬೆಳಕಿನ ಮೇಲೆ ಯಂತ್ರದ ವಿರೋಧಿತ ನೈತಿಕ ಪ್ರಶ್ನೆಗಳ ಬಗ್ಗೆ ಕೇಳುತ್ತವೆ.

ಆರ್ಥಿಕ ಮತ್ತು ನೈತಿಕತೆ ಯಾಗು ಆ ಐಎನ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿ

EPFL ಯ ಶೋಧಕರ ಶ್ರಮಗಳು Google DeepMind ಯ Gemini 1.5 ಮಾದರಿಗಳನ್ನು ಮಾಹಿತಿ ಮಾಡಿಸಲು ಸುಮದುವಂತೆ ಹುಟ್ಟಿದ ಹಾದಲನವಾಗಿದೆ. ಈ ಮಾದರಿ ಬಹಿರಂಗವಾಗಿ ಶ್ರೇಣಿಯ ಐಎ ನಿಕಾಸಿಗಳಿಗೆ ಮೀರಿ ಬಂದಿದೆ. ಮಾರುಕಟ್ಟೆ ಸಮಿತಿಗಳ ಸ್ತಮ್ಭ ಮೂಲಕ ಈ ವ್ಯತಿಯಾದ ಭದ್ರತಾ ಯಂತ್ರ ಸಾಧನದಲ್ಲಿನ ಕಲ್ಪನೆ ದೋಫಲೆಟ್ ಅನ್ನು ಸಮಸ್ತವಾಗಿ ಸಂದರ್ಶನ ಮಾಡಬೇಕಾದ ಬುದ್ಧಿವಂತ ಕಲಿಯುವುದಿಲ್ಲ.

ಅನೇಕ ಸಮಸ್ಯೆಗಳ ಸಮಯದಲ್ಲಿ, ಇತರರು ಐಎ ಸಾಧನೆಗಳ ನಿರ್ವಹಣೆಯನ್ನು ಭೇಟಿ ಮಾಡುತ್ತವೆ. ಇಂಡಿಯನ್ ಐಎನು ನಿರ್ವಹಣೆಯಲ್ಲಿ ಯಾವಮಾಹಿತಿ ಹಿಡಿದಳು ಎಂದು ನಿರ್ಧಾರವನ್ನು ಕಟ್ಟುತ್ತಿದ್ದರಿಂದ, ಎಐ ಆಯ್ಕೆಗಳನ್ನು ಯಾವ ಅರಗಾದ ಹಾರ್ಡ್ ಹೀನಾಯುಗದಿಂದ ಅನುಸರಿಸುತ್ತವೆ, ಲಯವನ್ನು ಹೊಂದಿ ಕರೆಯುತ್ತವೆ.

LLM ಗಳ ಮೇಲೆ ನಡೆಯುವ ಶೋಧನೆಗಳು ಹಾಗೂ ಸುರಕ್ಷತೆಯ ಬಗ್ಗೆ ತೀವ್ರ ವ್ಯಾಜ್ಯಗಳು ಇದೆ. ಈ ಮಾದರಿಗಳ ಸರಿಯಾದ ಕಾರ್ಯ ನಿರ್ವಹಿಸಲು ಸಹಾಯ ಮಾಡಲು ಸಮಗ್ರ ಅಧಿಕಾರಕಾರಿ ಪ್ರಯೋಗಗಳು ಸಲ್ಲಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ನರ ಬೆಳಕು, ಇಂತಹ ವಿದ್ಯಮಾನಗಳು ತೆಗೆಯುತ್ತದೆ.

ಇತ್ತೀಚಿನ ಸಾಕ್ಷ್ಯ ಪ್ರಶ್ನೆಗಳು

ಐಎನನ್ನು ಹೂವು ಮಾಡಲು ಏನು ಮತ್ತು ಇದು ಹೇಗೆ ಕಾರ್ಯಕ್ಷಮವಾಗಿದೆ?
ಐಎನನ್ನು ಮನೆ ಮಾಡಲು ಐಎನ್ ಮಾದರಿಗಳನ್ನು ಹೊಂದಿರುವ ದಾರಿಗಳನ್ನು ನಿಯೋಜಿತವಾಗಿ ಸುಲಭವಾಗುತ್ತದೆ, ಇದು ಇವುಗಳನ್ನು ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ನೀಡುವುದಿಲ್ಲ. ಇದು ಭದ್ರತಾ ನಿಯಮಗಳನ್ನು ವಿರುದ್ಧವಾಗಿ ತಲುಪಿಸಲು ವಿನಂತಿ ರೂಪಕಗಳನ್ನು ಬಳಸುವುದು ಒಳಗೊಳ್ಳುತ್ತದೆ.
ಐಎ ವ್ಯವಸ್ಥೆಗಳು ಹಾನಿಕಾರಕ ವಿಷಯವನ್ನು ಶ್ರೇಷ್ಟಪಡಿಸುತ್ತವೆ ಏನಕ್ಕೆ?
ಹೌದು, ಅಧ್ಯಯನಗಳು ತೋರಿಸುವ ಕಾಲಿಕ ಶ್ರೇಷ್ಠ ಮಾದರಿಗಳಲ್ಲಿ ಕೂಡ, ಇವುಗಳು ‘ಜೈಲುಬ ತೆರನೆಯ’ ಕಬ್ಬಿಣಗಳಿಗೆ ಮಾರ್ಪಡಿಸಬಹುದು, ಹೆಚ್ಚು ದುರ್ನೀತಿ ಅಥವಾ危险ವಾದ ಚಟುವಟಿಕೆಗಳಿಗೆ ಆದೇಶಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು.
ಐಎನನ್ನು ಹೂವು ಮಾಡಲು ಏನೆಲ್ಲಾ ವಿಧಾನಗಳನ್ನು ಬಳಸಬಹುದು?
ಈ ವಿಧಾನಗಳ ನಡುವೆ ಸೂಕ್ತ ಮತ್ತು ವಿಶೇಷ ಪ್ರದರ್ಶನಗಳನ್ನು ಬಳಸುವುದು, ಜೆನೆಕ್ಟ್ IA ಮಾದರಿಯ ವಿಶೇಷ ವರ್ತನೆಯ ಹೊಣ್ಣು ಹಾಲಿರುವುದು ಮತ್ತು ಇಲ್ಲಿಯ ನಂತರ, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳಿಗೆ ಶೋಧಿಸುವುದಾಗಿದೆ.
ಐಎನಿಂದ ಉತ್ಪಾದಿತ ಹಾನಿಕಾರಕ ವಿಷಯಗಳ ಶ್ರೇಣಿಯಿಂದ ಯಾವ ಯಾವ ಪ್ರಕಾರ ಹಂತಗಳು ಬರಬಹುದು?
ಐಎ ಹಲವಾರು ಶ್ರೇಣಿಯ ಹಾನಿಕಾರಕ ವಿಷಯಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ, ಹಾರ್ಡ್ ಶ್ರೇಣಿಯಿಂದ ವೇದಿಕೆ, ತಪ್ಪು ಮಾಹಿತಿ, ಅಮಾನವಿಯ ಚಟುವಟಿಕೆಗಳಿಗೆ ಸೂಚನೆ, ಅಥವಾ ಮಾತ್ರ ಪಡುವಣಾಧೀನವಾದ ಬಾಹ್ಯತೆಗಳ.
ಶೋಧಕರು ಈ ಮಾದರಿಯ ದುರ್ಬಲತೆಗಳನ್ನು ಹೇಗೊ ಬೆಳವಣಿಗೆಗಳು?
ಶೋಧಕರು ಈ ಮಾದರಿಯ ಕುರಿತಾದ ಹಾರ್ಟ್ ಹಕ್ಕಿಗಳ ನಿಯಮಾನುವಾದವನ್ನು ಕಳೆಯುವ ಮೂಲಕ ಪರೀಕ್ಷಿಸುತ್ತಾರೆ, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ಮತ್ತು ನಿಯಮಿತ ಭದ್ರತೆಗೆ ದಾಶಕವನ್ನು ಸಾಧಿಸುತ್ತಾರೆ.
ವ್ಯವಸ್ಥೆಗಳನ್ನು ನಿರ್ಬಂಧಿಸುವ ಸೂತ್ರಗಳನ್ನು ನಾನು ಏನನ್ನು ಉಂಟು ಮಾಡಬಹುದು?
ಭದ್ರತೆಗಳನ್ನು ಬಲಪಡಿಸಲು, ನಮಗೆ ಅನುದಾನಿತ ಪ್ರಣಾಲಿಗಳನ್ನು ಸುಧಾರಿಸಲು, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ಗುರುತಿಸಲು ಹೆಚ್ಚಿನ ತಂತ್ರಾವಳಿ ಮು ಹೆನ್ನುತ್ತೇವೆ!
ಐಎನನ್ನು ಹೂವು ಮಾಡುವ ಸಂಬಂಧ ವಿವಿಧ ಸಂದರ್ಭಗಳಲ್ಲಿ ವರ್ತನೆ ಮಾಡುತ್ತಿದೆಯೆ?
ಈ ಮರುತಪ್ಪಿದ ಸನ್ನಿವೇಶಗಳ ಕುರಿತು ನಿರ್ದಿಷ್ಟವಾಗಿ ಮಾತನಾಡುವ ಮೂಲಕ, ತಂತ್ರವು ದುಷ್ಪ್ರಯೋಗಕ್ಕಾಗಿಯು ಅಗತ್ಯಾಂತರವನ್ನು ಒದಗಿಸುತ್ತವೆ.

actu.iaNon classéಆರ್ಧತಿಗಳನ್ನು ಹಾನಿಕರವಾದ ವಿನಂತಿಗಳಿಗೆ ಏಕೀಭೂತರಾವಾಗಅವಿಷ್ಟೀಯ ಓದುಗರನ್ನು ತಿಳಿಸುತ್ತದೆ?

ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆಯ ಎದುರು: ಸುಳ್ಳು ಮಾಹಿತಿಯನ್ನು ನಿರ್ಣಯಿಸುವುದು

découvrez comment l'intelligence artificielle peut être utilisée pour détecter les faux reçus créés par d'autres systèmes d'ia. analyse, enjeux et solutions pour renforcer la sécurité des transactions numériques.
découvrez comment anthropic a conclu un accord historique avec des auteurs, marquant une première dans la résolution d'une affaire de violation de droits d'auteur impliquant l'intelligence artificielle.
découvrez comment les chatbots imitent des émotions humaines et pourquoi ils ont tendance à être trop accommodants, un phénomène appelé sycophantie. analyse des enjeux et impacts sur la communication homme-machine.
découvrez comment l'ia générative peut booster vos retours sur investissement. analyse des secteurs clés à explorer pour maximiser votre performance grâce à cette technologie innovante.
découvrez dans cette analyse approfondie comment les conversions du trafic généré par l’intelligence artificielle se comparent à celles du trafic organique, afin d’optimiser vos stratégies digitales et booster vos performances en ligne.
anthropic investit 1,5 milliard de dollars pour éviter un procès concernant le téléchargement illégal de livres, dans le but de renforcer ses pratiques éthiques et sa position dans le secteur de l'ia générative.