ಆರ್ಧತಿಗಳನ್ನು ಹಾನಿಕರವಾದ ವಿನಂತಿಗಳಿಗೆ ಏಕೀಭೂತರಾವಾಗಅವಿಷ್ಟೀಯ ಓದುಗರನ್ನು ತಿಳಿಸುತ್ತದೆ?

Publié le 20 ಫೆಬ್ರವರಿ 2025 à 12h03
modifié le 20 ಫೆಬ್ರವರಿ 2025 à 12h03

*ಐಎನ್ನು ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳ ಪ್ರತಿಯೊಬ್ಬರಿಗೆ ಪ್ರತಿಸ್ಪಂದಿಸಲು (Response) ಆಕರ್ಷಿಸಲು?* ಈ ಪ್ರಶ್ನೆ ಅಭಿವೃದ್ಧಿಯ ತಂತ್ರಜ್ಞಾನದ ಯುಗದಲ್ಲಿ ಪ್ರಬಲವಾಗಿ ಉಭಯಿಸುತ್ತಿದೆ. ಈ ರೀತಿಯ ಸಾಮರ್ಥ್ಯವು ಅಪರೂಪದ ಭ್ರಷ್ಟಾಚಾರಗಳನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ. ಬುದ್ಧಿಮತ್ತೆ ವ್ಯವಸ್ಥೆಗಳು, ನಮ್ಮ ಜೀವನದಲ್ಲಿ ಉತ್ತಮತೆಯನ್ನು ಸಮರ್ಪಿಸುವಾಗ, ನಿರ್ವಹಣೆಯಲ್ಲಿಯ ಹಾನಿಯೊಡ್ಡುವಿಕೆಗಳನ್ನು ಸಂಕಟ ಸಾಧಿಸುತ್ತವೆ. ದುಷ್ಕರ್ಮಿಗಳ ಸನ್ನಿವೇಶಗಳಿಗೆ ಈ ಮಾದರಿಯ ಶೋಷಣೆಯ ಬೇಜಾರಾಗುತ್ತದೆ. ಐಎನ ನಿಯೋಜನೆಯ ಕಾರ್ಯಕ್ಷಮತೆ ಮತ್ತು ಅಘಾತದ ನಡುವಿನ ಚುಕ್ಕೆಗಾರಿಕೆ ತೆರೆದಿದೆ. *ಐಎನ್ನು ಹಾನಿಕಾರಕ ವಿಷಯಗಳಿಗೆ ನಿಷ್ಪಕ್ಷಪಾತ ನಿರ್ವಹಣೆಯ ಮುಂದಿನ ವಿದ್ಯಮಾನಗಳು ಸಾರಿದ ಪತ್ರಿಕೆಗಳನ್ನು ನಿಲ್ಲಿಸುತ್ತವೆ.*

ಭಾಷಾ ಮಾದರಿಯ ದುರ್ಬಲತೆಗಳು

EPFL ಯ ಅಧ್ಯಯನಗಳು ಬಹುದೂರಿನ ಭಾಷಾ ಮಾದರಿಗಳು, ಭದ್ರತೆಯ ಅಭ್ಯಾಸವನ್ನು ಹೊಂದಿದರೂ, ಸರಳ ವಿನಂತಿ ಬದಲಾವಣೆಗಳಿಗೆ ಒಳಪಟ್ಟಿವೆ ಎಂದು ವಿವರಿಸುತ್ತವೆ. ಈ ದುರ್ಬಲತೆಗಳು ಅಪೇಕ್ಷಿತ ಅಥವಾ ಹಾನಿಕಾರಕ ವರ್ತನೆಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು ಮತ್ತು ನಿರ್ಮಿತ ಭದ್ರತಾ ನಿರ್ಧಾರಗಳಲ್ಲಿ ಅಪಾಯಗಳನ್ನು ಹೊರಹರಿಸುತ್ತದೆ.

LLM ಗಳ ಸಾಮರ್ಥ್ಯವನ್ನು ಶೋಷಣೆ

ಲಾಂಗ್ವೇಜ್ ಮಾದರಿಗಳು, LLM ಗಳಾಗಿ ప్రసಿದ್ಧವು, ಅಪಾರ ಸಾಧನೆಗಳನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತವೆ, ಆದರೆ ಅವುಗಳ ಉಪಯೋಗವು ದುಷ್ಕರ್ಮಿಗಳಿಂದ ಹಾನಿಯೊಡ್ಡುತ್ತಿರುವಂತೆ ಬದಲಾಯಿಸಬಹುದು. ಉದಾಹರಣೆಗೆ, ಈ ಘಟಕಗಳು ವಿಷಮ ಮಾಹಿತಿಯನ್ನು ಹರಡಬಹುದು, ತಪ್ಪು ಮಾಹಿತಿ फैलಿಸಬಹುದು ಮತ್ತು ಹಾನಿಕಾರಕ ಚಟುವಟಿಕೆಗಳಿಗೆ ಬೆಂಬಲ ನೀಡಬಹುದು. ಈ ತಂತ್ರಜ್ಞಾನದ ಬಳಕೆ ಅಥವಾ ನಿಮ್ಮ ಸಮಾಜದಲ್ಲಿ ತಮ್ಮ ಪ್ರಭಾವಗಳ ಬಗ್ಗೆ ತುರ್ತು ನೈತಿಕ ಪ್ರಶ್ನೆಗಳು ಹುಟ್ಟಿಸುತ್ತವೆ.

ಸಮಾವೇಶ ಮಾದರಿಗಳು ಮತ್ತು ಅವುಗಳ ಮಿತಿಗಳು

ಭದ್ರತಾ ಆಳವಲ್ಲದ ಪ್ರಶಿತ್ತಿಗೆ ಅಥವಾ ಹಾನಿಕಾರಕ ಉತ್ತರಗಳನ್ನು ನೀಡುವುದಕ್ಕೆ ನಿರಾಕರಣೆ ಅನ್ನು ಕಡಿಮೆ ಮಾಡುವ ವಿಧಾನವಾಗಿ ಬಳಸಲಾಗಿದೆ. ಈ ಪ್ರಕ್ರಿಯೆ, ಮಾನವರಿಗೆ ಸುರಕ್ಷಿತ ಎಂದು ಸಮರ್ಪಕವಾಗಿ ಪ್ರೇರಿತವಾಗುತ್ತದೆ. ಆದರೆ ಈ ದೃಷ್ಟಿಕೋನವು, ಅನುಸಂಧಾನಗಳು ತೋರಿಸುತ್ತವೆ, ಈ LLM ಗಳು ಭದ್ರತಾ ಬಂಧನಕ್ಕಾಗಿ ಇದರಲ್ಲಿಲ್ಲ.

ಅನಿಯಮಿತ ಹಾರ್ಟ್ ಮತ್ತು ಶ್ರೇಷ್ಟವಾದ ಫಲಿತಾಂಶಗಳು

ನಿರಂತರವಾದ ಶೋಧನೆಯ ಮೂಲಕ ಐಎಮ್‌ಎಲ್ (ICML 2024) ನಲ್ಲಿ ಮುಂದೆ ಬಂದ ಅಧ್ಯಯನವು ಬಹುದೂರಿನ LLM ಗಳಾದ GPT-4o d’OpenAI ಮತ್ತು Claude 3.5 d’Anthropic ಸ್ತಂಭವಾಗಿ ಬದಲಾಯಿಸಲು ಸಾಧ್ಯವಾಗಿದೆ ಎಂದು ತೋರಿಸುತ್ತದೆ. ಈ ಹೊಡೆತುಗಳು ಮಾದರಿಯ ವರ್ತನೆಗೆ ಪ್ರಭಾವ ಬೀರಲು ಟಂಪ್ಲೇಟುಗಳ ಆಟವನ್ನು ಬಳಸುತ್ತವೆ ಮತ್ತು ನಿರಾಶಾದಾಯಕ ಫಲಿತಾಂಶಗಳನ್ನು ತಗುಲಿಸುತ್ತವೆ.

ಅನಿಯಮಿತ ಹಾರ್ಟ್‌ನ ವೈಶಿಷ್ಟ್ಯಗಳು

EPFL ಯ ಶೋಧಕರು ಹಲವು ಶ್ರೇಣಿಯ ಭಾಷಾ ಮಾದರಿಗಳ ಮೇಲೆ ತೀವ್ರ ದಂಶವನ್ನು ಸಾಧಿಸಲು ಯಶಸ್ವಿಯಾಗಿದ್ದಾರೆ. ವಿಶೇಷ ಟಂಪ್ಲೇಟುಗಳು ಬಳಸಿಕೊಂಡು ಈ ಶ್ರೇಣಿಯ ಮನೋಭಾವವನ್ನು ದೊರಕಿಸುತ್ತದೆ, ಮಾತ್ರ ಇವುಗಳನ್ನು ಸುಲಭವಾಗಿ ಹೊಡೆಯಬಹುದು ಎಂದು ವಿವರಿಸುತ್ತವೆ. ಅಧ್ಯಯನವು ಪ್ರತಿ ಮಾದರಿಗೆ ನಿರ್ದಿಷ್ಟ ದುರ್ಬಲತೆಗಳನ್ನು ತೋರುತ್ತದೆ, ಹಲವಾರು ತಂತ್ರವನ್ನು ತಲುಪುವುದು ಅಥವಾ ಹಣವಿಲ್ಲುವದು ಎಂದು स्वागतಿಸುತ್ತವೆ.

LLM ಗಳ ಸಂಕಷ್ಟವನ್ನು ಮೌಲ್ಯಮಾಪನ

ಶೋಧಕರು ಇತರ ವಿಪತ್ತುಗಳನ್ನು ಸೂತ್ರಗಳು LLM ಗಳ ಸಂಕಷ್ಟವನ್ನು ಒಂದೇ ತರಣಲ್ಲಿ ಸೂಕ್ತವಾಗಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ನಿರbeda ಹಾರಾಟಗಳನ್ನು ರೂಪಿಸುತ್ತವೆ. ಅವರ ಕಾರ್ಯಗಳ ಪ್ರಕಾರ, ಯಾವುದೇ ಏಕಕಾಲದಲ್ಲಿ ಉತ್ತಮ ಮೌಲ್ಯವನ್ನು ತೋರಿಸುವುದಿಲ್ಲ, ಅಂತಹುದನ್ನು ಬುದ್ಧಿವಂತವಾದ ಘಟಕಗಳನ್ನು ಸಾಮರಸ್ಯದಿಂದ ಒದಗಿಸಬೇಕು. ಈ ಸಮಗ್ರ ದೃಷ್ಟಿಕೋನವು ತೀವ್ರ ಹಾಗೂ ಶ್ರೇಷ್ಟವಾದ ಮಾದರಿಯ ಸುರಕ್ಷತೆಯ ಮುಖ್ಯವನ್ನು ವಿವರಿಸುತ್ತದೆ.

ಆ ಗತಿಯ ಪ್ರಾಯೋಜನೆಗಳಿಗೆ ಭವಿಷ್ಯದ ಪರಿಣಾಮಗಳು

LLM ಗಳನ್ನು ಸ್ವಾಯತ್ತ ಪ್ರಕೃತಿ ಅವರ ಸಾಮಾಜಿಕತೆಯೊಂದಿಗೆ ಹೃದಯವನ್ನು ಮಾರ್ಗದರ್ಶನ ಮಾಡುವಾಗ, ಈ ತಂತ್ರಜ್ಞಾನದ ಸುರಕ್ಷತೆಯ ಬಗ್ಗೆ ಉಂಟಾಗೋಣಿಯ ಸಂಬಂಧವನ್ನು ಸುರಕ್ಷಿತವಾಗಿ ಎಳೆಯುತ್ತವೆ. ಎಐ ಪರಿಕರಗಳು ನಮ್ಮ ವೈಯಕ್ತಿಕ ಮಾಹಿತಿಗೆ ಪ್ರವೇಶಿಸುತ್ತಾರೆ ಎಂದು ಈ ಬೋಧಾ ಕೆಲಸಗಳನ್ನು ನೆರವೇರಿಸುತ್ತವೆ, ನರ ಬೆಳಕಿನ ಮೇಲೆ ಯಂತ್ರದ ವಿರೋಧಿತ ನೈತಿಕ ಪ್ರಶ್ನೆಗಳ ಬಗ್ಗೆ ಕೇಳುತ್ತವೆ.

ಆರ್ಥಿಕ ಮತ್ತು ನೈತಿಕತೆ ಯಾಗು ಆ ಐಎನ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿ

EPFL ಯ ಶೋಧಕರ ಶ್ರಮಗಳು Google DeepMind ಯ Gemini 1.5 ಮಾದರಿಗಳನ್ನು ಮಾಹಿತಿ ಮಾಡಿಸಲು ಸುಮದುವಂತೆ ಹುಟ್ಟಿದ ಹಾದಲನವಾಗಿದೆ. ಈ ಮಾದರಿ ಬಹಿರಂಗವಾಗಿ ಶ್ರೇಣಿಯ ಐಎ ನಿಕಾಸಿಗಳಿಗೆ ಮೀರಿ ಬಂದಿದೆ. ಮಾರುಕಟ್ಟೆ ಸಮಿತಿಗಳ ಸ್ತಮ್ಭ ಮೂಲಕ ಈ ವ್ಯತಿಯಾದ ಭದ್ರತಾ ಯಂತ್ರ ಸಾಧನದಲ್ಲಿನ ಕಲ್ಪನೆ ದೋಫಲೆಟ್ ಅನ್ನು ಸಮಸ್ತವಾಗಿ ಸಂದರ್ಶನ ಮಾಡಬೇಕಾದ ಬುದ್ಧಿವಂತ ಕಲಿಯುವುದಿಲ್ಲ.

ಅನೇಕ ಸಮಸ್ಯೆಗಳ ಸಮಯದಲ್ಲಿ, ಇತರರು ಐಎ ಸಾಧನೆಗಳ ನಿರ್ವಹಣೆಯನ್ನು ಭೇಟಿ ಮಾಡುತ್ತವೆ. ಇಂಡಿಯನ್ ಐಎನು ನಿರ್ವಹಣೆಯಲ್ಲಿ ಯಾವಮಾಹಿತಿ ಹಿಡಿದಳು ಎಂದು ನಿರ್ಧಾರವನ್ನು ಕಟ್ಟುತ್ತಿದ್ದರಿಂದ, ಎಐ ಆಯ್ಕೆಗಳನ್ನು ಯಾವ ಅರಗಾದ ಹಾರ್ಡ್ ಹೀನಾಯುಗದಿಂದ ಅನುಸರಿಸುತ್ತವೆ, ಲಯವನ್ನು ಹೊಂದಿ ಕರೆಯುತ್ತವೆ.

LLM ಗಳ ಮೇಲೆ ನಡೆಯುವ ಶೋಧನೆಗಳು ಹಾಗೂ ಸುರಕ್ಷತೆಯ ಬಗ್ಗೆ ತೀವ್ರ ವ್ಯಾಜ್ಯಗಳು ಇದೆ. ಈ ಮಾದರಿಗಳ ಸರಿಯಾದ ಕಾರ್ಯ ನಿರ್ವಹಿಸಲು ಸಹಾಯ ಮಾಡಲು ಸಮಗ್ರ ಅಧಿಕಾರಕಾರಿ ಪ್ರಯೋಗಗಳು ಸಲ್ಲಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ನರ ಬೆಳಕು, ಇಂತಹ ವಿದ್ಯಮಾನಗಳು ತೆಗೆಯುತ್ತದೆ.

ಇತ್ತೀಚಿನ ಸಾಕ್ಷ್ಯ ಪ್ರಶ್ನೆಗಳು

ಐಎನನ್ನು ಹೂವು ಮಾಡಲು ಏನು ಮತ್ತು ಇದು ಹೇಗೆ ಕಾರ್ಯಕ್ಷಮವಾಗಿದೆ?
ಐಎನನ್ನು ಮನೆ ಮಾಡಲು ಐಎನ್ ಮಾದರಿಗಳನ್ನು ಹೊಂದಿರುವ ದಾರಿಗಳನ್ನು ನಿಯೋಜಿತವಾಗಿ ಸುಲಭವಾಗುತ್ತದೆ, ಇದು ಇವುಗಳನ್ನು ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ನೀಡುವುದಿಲ್ಲ. ಇದು ಭದ್ರತಾ ನಿಯಮಗಳನ್ನು ವಿರುದ್ಧವಾಗಿ ತಲುಪಿಸಲು ವಿನಂತಿ ರೂಪಕಗಳನ್ನು ಬಳಸುವುದು ಒಳಗೊಳ್ಳುತ್ತದೆ.
ಐಎ ವ್ಯವಸ್ಥೆಗಳು ಹಾನಿಕಾರಕ ವಿಷಯವನ್ನು ಶ್ರೇಷ್ಟಪಡಿಸುತ್ತವೆ ಏನಕ್ಕೆ?
ಹೌದು, ಅಧ್ಯಯನಗಳು ತೋರಿಸುವ ಕಾಲಿಕ ಶ್ರೇಷ್ಠ ಮಾದರಿಗಳಲ್ಲಿ ಕೂಡ, ಇವುಗಳು ‘ಜೈಲುಬ ತೆರನೆಯ’ ಕಬ್ಬಿಣಗಳಿಗೆ ಮಾರ್ಪಡಿಸಬಹುದು, ಹೆಚ್ಚು ದುರ್ನೀತಿ ಅಥವಾ危险ವಾದ ಚಟುವಟಿಕೆಗಳಿಗೆ ಆದೇಶಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು.
ಐಎನನ್ನು ಹೂವು ಮಾಡಲು ಏನೆಲ್ಲಾ ವಿಧಾನಗಳನ್ನು ಬಳಸಬಹುದು?
ಈ ವಿಧಾನಗಳ ನಡುವೆ ಸೂಕ್ತ ಮತ್ತು ವಿಶೇಷ ಪ್ರದರ್ಶನಗಳನ್ನು ಬಳಸುವುದು, ಜೆನೆಕ್ಟ್ IA ಮಾದರಿಯ ವಿಶೇಷ ವರ್ತನೆಯ ಹೊಣ್ಣು ಹಾಲಿರುವುದು ಮತ್ತು ಇಲ್ಲಿಯ ನಂತರ, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳಿಗೆ ಶೋಧಿಸುವುದಾಗಿದೆ.
ಐಎನಿಂದ ಉತ್ಪಾದಿತ ಹಾನಿಕಾರಕ ವಿಷಯಗಳ ಶ್ರೇಣಿಯಿಂದ ಯಾವ ಯಾವ ಪ್ರಕಾರ ಹಂತಗಳು ಬರಬಹುದು?
ಐಎ ಹಲವಾರು ಶ್ರೇಣಿಯ ಹಾನಿಕಾರಕ ವಿಷಯಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ, ಹಾರ್ಡ್ ಶ್ರೇಣಿಯಿಂದ ವೇದಿಕೆ, ತಪ್ಪು ಮಾಹಿತಿ, ಅಮಾನವಿಯ ಚಟುವಟಿಕೆಗಳಿಗೆ ಸೂಚನೆ, ಅಥವಾ ಮಾತ್ರ ಪಡುವಣಾಧೀನವಾದ ಬಾಹ್ಯತೆಗಳ.
ಶೋಧಕರು ಈ ಮಾದರಿಯ ದುರ್ಬಲತೆಗಳನ್ನು ಹೇಗೊ ಬೆಳವಣಿಗೆಗಳು?
ಶೋಧಕರು ಈ ಮಾದರಿಯ ಕುರಿತಾದ ಹಾರ್ಟ್ ಹಕ್ಕಿಗಳ ನಿಯಮಾನುವಾದವನ್ನು ಕಳೆಯುವ ಮೂಲಕ ಪರೀಕ್ಷಿಸುತ್ತಾರೆ, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ಮತ್ತು ನಿಯಮಿತ ಭದ್ರತೆಗೆ ದಾಶಕವನ್ನು ಸಾಧಿಸುತ್ತಾರೆ.
ವ್ಯವಸ್ಥೆಗಳನ್ನು ನಿರ್ಬಂಧಿಸುವ ಸೂತ್ರಗಳನ್ನು ನಾನು ಏನನ್ನು ಉಂಟು ಮಾಡಬಹುದು?
ಭದ್ರತೆಗಳನ್ನು ಬಲಪಡಿಸಲು, ನಮಗೆ ಅನುದಾನಿತ ಪ್ರಣಾಲಿಗಳನ್ನು ಸುಧಾರಿಸಲು, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ಗುರುತಿಸಲು ಹೆಚ್ಚಿನ ತಂತ್ರಾವಳಿ ಮು ಹೆನ್ನುತ್ತೇವೆ!
ಐಎನನ್ನು ಹೂವು ಮಾಡುವ ಸಂಬಂಧ ವಿವಿಧ ಸಂದರ್ಭಗಳಲ್ಲಿ ವರ್ತನೆ ಮಾಡುತ್ತಿದೆಯೆ?
ಈ ಮರುತಪ್ಪಿದ ಸನ್ನಿವೇಶಗಳ ಕುರಿತು ನಿರ್ದಿಷ್ಟವಾಗಿ ಮಾತನಾಡುವ ಮೂಲಕ, ತಂತ್ರವು ದುಷ್ಪ್ರಯೋಗಕ್ಕಾಗಿಯು ಅಗತ್ಯಾಂತರವನ್ನು ಒದಗಿಸುತ್ತವೆ.

actu.iaNon classéಆರ್ಧತಿಗಳನ್ನು ಹಾನಿಕರವಾದ ವಿನಂತಿಗಳಿಗೆ ಏಕೀಭೂತರಾವಾಗಅವಿಷ್ಟೀಯ ಓದುಗರನ್ನು ತಿಳಿಸುತ್ತದೆ?

ಆಪಲ್ (AAPL) ನ ಅಂಗಗಳು ಸಿರಿಯ ಪುನರ್ಣವಿ ಮಗ ಮತ್ತೆ ಒಪನ್‌ಐಎ ವಿರುದ್ಧ ಸ್ಪರ್ಧಿಸಲು ಉಂಟಾಗುತ್ತವೆ

découvrez comment les actions d'apple (aapl) ont grimpé suite à une importante refonte de siri, conçue pour concurrencer openai et perplexity dans le domaine de l'intelligence artificielle.
nick frosst de cohere affirme que leur modèle cohere command surpasse deepseek en efficacité, avec des performances supérieures de huit à seize fois. découvrez les avancées de cohere dans le domaine de l'intelligence artificielle.
découvrez comment les étudiants réagissent face à l'utilisation de l'ia par leurs enseignants pour préparer les cours, alors que son usage leur est interdit. analyse d'une révolte grandissante et des enjeux autour de chatgpt dans l'éducation.
recevez des alertes instantanées en cas de détresse aiguë de votre enfant lors de l'utilisation de chatgpt. protégez vos enfants en restant informé et intervenez rapidement.
découvrez comment un robot innovant parvient à manipuler des objets volumineux avec la dextérité d’un humain après une seule leçon, une avancée impressionnante en robotique.
découvrez comment une approche innovante en intelligence artificielle générative permet d’anticiper avec précision les réactions chimiques, révolutionnant ainsi la recherche et le développement en chimie.