*ಐಎನ್ನು ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳ ಪ್ರತಿಯೊಬ್ಬರಿಗೆ ಪ್ರತಿಸ್ಪಂದಿಸಲು (Response) ಆಕರ್ಷಿಸಲು?* ಈ ಪ್ರಶ್ನೆ ಅಭಿವೃದ್ಧಿಯ ತಂತ್ರಜ್ಞಾನದ ಯುಗದಲ್ಲಿ ಪ್ರಬಲವಾಗಿ ಉಭಯಿಸುತ್ತಿದೆ. ಈ ರೀತಿಯ ಸಾಮರ್ಥ್ಯವು ಅಪರೂಪದ ಭ್ರಷ್ಟಾಚಾರಗಳನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ. ಬುದ್ಧಿಮತ್ತೆ ವ್ಯವಸ್ಥೆಗಳು, ನಮ್ಮ ಜೀವನದಲ್ಲಿ ಉತ್ತಮತೆಯನ್ನು ಸಮರ್ಪಿಸುವಾಗ, ನಿರ್ವಹಣೆಯಲ್ಲಿಯ ಹಾನಿಯೊಡ್ಡುವಿಕೆಗಳನ್ನು ಸಂಕಟ ಸಾಧಿಸುತ್ತವೆ. ದುಷ್ಕರ್ಮಿಗಳ ಸನ್ನಿವೇಶಗಳಿಗೆ ಈ ಮಾದರಿಯ ಶೋಷಣೆಯ ಬೇಜಾರಾಗುತ್ತದೆ. ಐಎನ ನಿಯೋಜನೆಯ ಕಾರ್ಯಕ್ಷಮತೆ ಮತ್ತು ಅಘಾತದ ನಡುವಿನ ಚುಕ್ಕೆಗಾರಿಕೆ ತೆರೆದಿದೆ. *ಐಎನ್ನು ಹಾನಿಕಾರಕ ವಿಷಯಗಳಿಗೆ ನಿಷ್ಪಕ್ಷಪಾತ ನಿರ್ವಹಣೆಯ ಮುಂದಿನ ವಿದ್ಯಮಾನಗಳು ಸಾರಿದ ಪತ್ರಿಕೆಗಳನ್ನು ನಿಲ್ಲಿಸುತ್ತವೆ.*
ಭಾಷಾ ಮಾದರಿಯ ದುರ್ಬಲತೆಗಳು
EPFL ಯ ಅಧ್ಯಯನಗಳು ಬಹುದೂರಿನ ಭಾಷಾ ಮಾದರಿಗಳು, ಭದ್ರತೆಯ ಅಭ್ಯಾಸವನ್ನು ಹೊಂದಿದರೂ, ಸರಳ ವಿನಂತಿ ಬದಲಾವಣೆಗಳಿಗೆ ಒಳಪಟ್ಟಿವೆ ಎಂದು ವಿವರಿಸುತ್ತವೆ. ಈ ದುರ್ಬಲತೆಗಳು ಅಪೇಕ್ಷಿತ ಅಥವಾ ಹಾನಿಕಾರಕ ವರ್ತನೆಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು ಮತ್ತು ನಿರ್ಮಿತ ಭದ್ರತಾ ನಿರ್ಧಾರಗಳಲ್ಲಿ ಅಪಾಯಗಳನ್ನು ಹೊರಹರಿಸುತ್ತದೆ.
LLM ಗಳ ಸಾಮರ್ಥ್ಯವನ್ನು ಶೋಷಣೆ
ಲಾಂಗ್ವೇಜ್ ಮಾದರಿಗಳು, LLM ಗಳಾಗಿ ప్రసಿದ್ಧವು, ಅಪಾರ ಸಾಧನೆಗಳನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತವೆ, ಆದರೆ ಅವುಗಳ ಉಪಯೋಗವು ದುಷ್ಕರ್ಮಿಗಳಿಂದ ಹಾನಿಯೊಡ್ಡುತ್ತಿರುವಂತೆ ಬದಲಾಯಿಸಬಹುದು. ಉದಾಹರಣೆಗೆ, ಈ ಘಟಕಗಳು ವಿಷಮ ಮಾಹಿತಿಯನ್ನು ಹರಡಬಹುದು, ತಪ್ಪು ಮಾಹಿತಿ फैलಿಸಬಹುದು ಮತ್ತು ಹಾನಿಕಾರಕ ಚಟುವಟಿಕೆಗಳಿಗೆ ಬೆಂಬಲ ನೀಡಬಹುದು. ಈ ತಂತ್ರಜ್ಞಾನದ ಬಳಕೆ ಅಥವಾ ನಿಮ್ಮ ಸಮಾಜದಲ್ಲಿ ತಮ್ಮ ಪ್ರಭಾವಗಳ ಬಗ್ಗೆ ತುರ್ತು ನೈತಿಕ ಪ್ರಶ್ನೆಗಳು ಹುಟ್ಟಿಸುತ್ತವೆ.
ಸಮಾವೇಶ ಮಾದರಿಗಳು ಮತ್ತು ಅವುಗಳ ಮಿತಿಗಳು
ಭದ್ರತಾ ಆಳವಲ್ಲದ ಪ್ರಶಿತ್ತಿಗೆ ಅಥವಾ ಹಾನಿಕಾರಕ ಉತ್ತರಗಳನ್ನು ನೀಡುವುದಕ್ಕೆ ನಿರಾಕರಣೆ ಅನ್ನು ಕಡಿಮೆ ಮಾಡುವ ವಿಧಾನವಾಗಿ ಬಳಸಲಾಗಿದೆ. ಈ ಪ್ರಕ್ರಿಯೆ, ಮಾನವರಿಗೆ ಸುರಕ್ಷಿತ ಎಂದು ಸಮರ್ಪಕವಾಗಿ ಪ್ರೇರಿತವಾಗುತ್ತದೆ. ಆದರೆ ಈ ದೃಷ್ಟಿಕೋನವು, ಅನುಸಂಧಾನಗಳು ತೋರಿಸುತ್ತವೆ, ಈ LLM ಗಳು ಭದ್ರತಾ ಬಂಧನಕ್ಕಾಗಿ ಇದರಲ್ಲಿಲ್ಲ.
ಅನಿಯಮಿತ ಹಾರ್ಟ್ ಮತ್ತು ಶ್ರೇಷ್ಟವಾದ ಫಲಿತಾಂಶಗಳು
ನಿರಂತರವಾದ ಶೋಧನೆಯ ಮೂಲಕ ಐಎಮ್ಎಲ್ (ICML 2024) ನಲ್ಲಿ ಮುಂದೆ ಬಂದ ಅಧ್ಯಯನವು ಬಹುದೂರಿನ LLM ಗಳಾದ GPT-4o d’OpenAI ಮತ್ತು Claude 3.5 d’Anthropic ಸ್ತಂಭವಾಗಿ ಬದಲಾಯಿಸಲು ಸಾಧ್ಯವಾಗಿದೆ ಎಂದು ತೋರಿಸುತ್ತದೆ. ಈ ಹೊಡೆತುಗಳು ಮಾದರಿಯ ವರ್ತನೆಗೆ ಪ್ರಭಾವ ಬೀರಲು ಟಂಪ್ಲೇಟುಗಳ ಆಟವನ್ನು ಬಳಸುತ್ತವೆ ಮತ್ತು ನಿರಾಶಾದಾಯಕ ಫಲಿತಾಂಶಗಳನ್ನು ತಗುಲಿಸುತ್ತವೆ.
ಅನಿಯಮಿತ ಹಾರ್ಟ್ನ ವೈಶಿಷ್ಟ್ಯಗಳು
EPFL ಯ ಶೋಧಕರು ಹಲವು ಶ್ರೇಣಿಯ ಭಾಷಾ ಮಾದರಿಗಳ ಮೇಲೆ ತೀವ್ರ ದಂಶವನ್ನು ಸಾಧಿಸಲು ಯಶಸ್ವಿಯಾಗಿದ್ದಾರೆ. ವಿಶೇಷ ಟಂಪ್ಲೇಟುಗಳು ಬಳಸಿಕೊಂಡು ಈ ಶ್ರೇಣಿಯ ಮನೋಭಾವವನ್ನು ದೊರಕಿಸುತ್ತದೆ, ಮಾತ್ರ ಇವುಗಳನ್ನು ಸುಲಭವಾಗಿ ಹೊಡೆಯಬಹುದು ಎಂದು ವಿವರಿಸುತ್ತವೆ. ಅಧ್ಯಯನವು ಪ್ರತಿ ಮಾದರಿಗೆ ನಿರ್ದಿಷ್ಟ ದುರ್ಬಲತೆಗಳನ್ನು ತೋರುತ್ತದೆ, ಹಲವಾರು ತಂತ್ರವನ್ನು ತಲುಪುವುದು ಅಥವಾ ಹಣವಿಲ್ಲುವದು ಎಂದು स्वागतಿಸುತ್ತವೆ.
LLM ಗಳ ಸಂಕಷ್ಟವನ್ನು ಮೌಲ್ಯಮಾಪನ
ಶೋಧಕರು ಇತರ ವಿಪತ್ತುಗಳನ್ನು ಸೂತ್ರಗಳು LLM ಗಳ ಸಂಕಷ್ಟವನ್ನು ಒಂದೇ ತರಣಲ್ಲಿ ಸೂಕ್ತವಾಗಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ನಿರbeda ಹಾರಾಟಗಳನ್ನು ರೂಪಿಸುತ್ತವೆ. ಅವರ ಕಾರ್ಯಗಳ ಪ್ರಕಾರ, ಯಾವುದೇ ಏಕಕಾಲದಲ್ಲಿ ಉತ್ತಮ ಮೌಲ್ಯವನ್ನು ತೋರಿಸುವುದಿಲ್ಲ, ಅಂತಹುದನ್ನು ಬುದ್ಧಿವಂತವಾದ ಘಟಕಗಳನ್ನು ಸಾಮರಸ್ಯದಿಂದ ಒದಗಿಸಬೇಕು. ಈ ಸಮಗ್ರ ದೃಷ್ಟಿಕೋನವು ತೀವ್ರ ಹಾಗೂ ಶ್ರೇಷ್ಟವಾದ ಮಾದರಿಯ ಸುರಕ್ಷತೆಯ ಮುಖ್ಯವನ್ನು ವಿವರಿಸುತ್ತದೆ.
ಆ ಗತಿಯ ಪ್ರಾಯೋಜನೆಗಳಿಗೆ ಭವಿಷ್ಯದ ಪರಿಣಾಮಗಳು
LLM ಗಳನ್ನು ಸ್ವಾಯತ್ತ ಪ್ರಕೃತಿ ಅವರ ಸಾಮಾಜಿಕತೆಯೊಂದಿಗೆ ಹೃದಯವನ್ನು ಮಾರ್ಗದರ್ಶನ ಮಾಡುವಾಗ, ಈ ತಂತ್ರಜ್ಞಾನದ ಸುರಕ್ಷತೆಯ ಬಗ್ಗೆ ಉಂಟಾಗೋಣಿಯ ಸಂಬಂಧವನ್ನು ಸುರಕ್ಷಿತವಾಗಿ ಎಳೆಯುತ್ತವೆ. ಎಐ ಪರಿಕರಗಳು ನಮ್ಮ ವೈಯಕ್ತಿಕ ಮಾಹಿತಿಗೆ ಪ್ರವೇಶಿಸುತ್ತಾರೆ ಎಂದು ಈ ಬೋಧಾ ಕೆಲಸಗಳನ್ನು ನೆರವೇರಿಸುತ್ತವೆ, ನರ ಬೆಳಕಿನ ಮೇಲೆ ಯಂತ್ರದ ವಿರೋಧಿತ ನೈತಿಕ ಪ್ರಶ್ನೆಗಳ ಬಗ್ಗೆ ಕೇಳುತ್ತವೆ.
ಆರ್ಥಿಕ ಮತ್ತು ನೈತಿಕತೆ ಯಾಗು ಆ ಐಎನ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿ
EPFL ಯ ಶೋಧಕರ ಶ್ರಮಗಳು Google DeepMind ಯ Gemini 1.5 ಮಾದರಿಗಳನ್ನು ಮಾಹಿತಿ ಮಾಡಿಸಲು ಸುಮದುವಂತೆ ಹುಟ್ಟಿದ ಹಾದಲನವಾಗಿದೆ. ಈ ಮಾದರಿ ಬಹಿರಂಗವಾಗಿ ಶ್ರೇಣಿಯ ಐಎ ನಿಕಾಸಿಗಳಿಗೆ ಮೀರಿ ಬಂದಿದೆ. ಮಾರುಕಟ್ಟೆ ಸಮಿತಿಗಳ ಸ್ತಮ್ಭ ಮೂಲಕ ಈ ವ್ಯತಿಯಾದ ಭದ್ರತಾ ಯಂತ್ರ ಸಾಧನದಲ್ಲಿನ ಕಲ್ಪನೆ ದೋಫಲೆಟ್ ಅನ್ನು ಸಮಸ್ತವಾಗಿ ಸಂದರ್ಶನ ಮಾಡಬೇಕಾದ ಬುದ್ಧಿವಂತ ಕಲಿಯುವುದಿಲ್ಲ.
ಅನೇಕ ಸಮಸ್ಯೆಗಳ ಸಮಯದಲ್ಲಿ, ಇತರರು ಐಎ ಸಾಧನೆಗಳ ನಿರ್ವಹಣೆಯನ್ನು ಭೇಟಿ ಮಾಡುತ್ತವೆ. ಇಂಡಿಯನ್ ಐಎನು ನಿರ್ವಹಣೆಯಲ್ಲಿ ಯಾವಮಾಹಿತಿ ಹಿಡಿದಳು ಎಂದು ನಿರ್ಧಾರವನ್ನು ಕಟ್ಟುತ್ತಿದ್ದರಿಂದ, ಎಐ ಆಯ್ಕೆಗಳನ್ನು ಯಾವ ಅರಗಾದ ಹಾರ್ಡ್ ಹೀನಾಯುಗದಿಂದ ಅನುಸರಿಸುತ್ತವೆ, ಲಯವನ್ನು ಹೊಂದಿ ಕರೆಯುತ್ತವೆ.
LLM ಗಳ ಮೇಲೆ ನಡೆಯುವ ಶೋಧನೆಗಳು ಹಾಗೂ ಸುರಕ್ಷತೆಯ ಬಗ್ಗೆ ತೀವ್ರ ವ್ಯಾಜ್ಯಗಳು ಇದೆ. ಈ ಮಾದರಿಗಳ ಸರಿಯಾದ ಕಾರ್ಯ ನಿರ್ವಹಿಸಲು ಸಹಾಯ ಮಾಡಲು ಸಮಗ್ರ ಅಧಿಕಾರಕಾರಿ ಪ್ರಯೋಗಗಳು ಸಲ್ಲಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ನರ ಬೆಳಕು, ಇಂತಹ ವಿದ್ಯಮಾನಗಳು ತೆಗೆಯುತ್ತದೆ.
ಇತ್ತೀಚಿನ ಸಾಕ್ಷ್ಯ ಪ್ರಶ್ನೆಗಳು
ಐಎನನ್ನು ಹೂವು ಮಾಡಲು ಏನು ಮತ್ತು ಇದು ಹೇಗೆ ಕಾರ್ಯಕ್ಷಮವಾಗಿದೆ?
ಐಎನನ್ನು ಮನೆ ಮಾಡಲು ಐಎನ್ ಮಾದರಿಗಳನ್ನು ಹೊಂದಿರುವ ದಾರಿಗಳನ್ನು ನಿಯೋಜಿತವಾಗಿ ಸುಲಭವಾಗುತ್ತದೆ, ಇದು ಇವುಗಳನ್ನು ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ನೀಡುವುದಿಲ್ಲ. ಇದು ಭದ್ರತಾ ನಿಯಮಗಳನ್ನು ವಿರುದ್ಧವಾಗಿ ತಲುಪಿಸಲು ವಿನಂತಿ ರೂಪಕಗಳನ್ನು ಬಳಸುವುದು ಒಳಗೊಳ್ಳುತ್ತದೆ.
ಐಎ ವ್ಯವಸ್ಥೆಗಳು ಹಾನಿಕಾರಕ ವಿಷಯವನ್ನು ಶ್ರೇಷ್ಟಪಡಿಸುತ್ತವೆ ಏನಕ್ಕೆ?
ಹೌದು, ಅಧ್ಯಯನಗಳು ತೋರಿಸುವ ಕಾಲಿಕ ಶ್ರೇಷ್ಠ ಮಾದರಿಗಳಲ್ಲಿ ಕೂಡ, ಇವುಗಳು ‘ಜೈಲುಬ ತೆರನೆಯ’ ಕಬ್ಬಿಣಗಳಿಗೆ ಮಾರ್ಪಡಿಸಬಹುದು, ಹೆಚ್ಚು ದುರ್ನೀತಿ ಅಥವಾ危险ವಾದ ಚಟುವಟಿಕೆಗಳಿಗೆ ಆದೇಶಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು.
ಐಎನನ್ನು ಹೂವು ಮಾಡಲು ಏನೆಲ್ಲಾ ವಿಧಾನಗಳನ್ನು ಬಳಸಬಹುದು?
ಈ ವಿಧಾನಗಳ ನಡುವೆ ಸೂಕ್ತ ಮತ್ತು ವಿಶೇಷ ಪ್ರದರ್ಶನಗಳನ್ನು ಬಳಸುವುದು, ಜೆನೆಕ್ಟ್ IA ಮಾದರಿಯ ವಿಶೇಷ ವರ್ತನೆಯ ಹೊಣ್ಣು ಹಾಲಿರುವುದು ಮತ್ತು ಇಲ್ಲಿಯ ನಂತರ, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳಿಗೆ ಶೋಧಿಸುವುದಾಗಿದೆ.
ಐಎನಿಂದ ಉತ್ಪಾದಿತ ಹಾನಿಕಾರಕ ವಿಷಯಗಳ ಶ್ರೇಣಿಯಿಂದ ಯಾವ ಯಾವ ಪ್ರಕಾರ ಹಂತಗಳು ಬರಬಹುದು?
ಐಎ ಹಲವಾರು ಶ್ರೇಣಿಯ ಹಾನಿಕಾರಕ ವಿಷಯಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ, ಹಾರ್ಡ್ ಶ್ರೇಣಿಯಿಂದ ವೇದಿಕೆ, ತಪ್ಪು ಮಾಹಿತಿ, ಅಮಾನವಿಯ ಚಟುವಟಿಕೆಗಳಿಗೆ ಸೂಚನೆ, ಅಥವಾ ಮಾತ್ರ ಪಡುವಣಾಧೀನವಾದ ಬಾಹ್ಯತೆಗಳ.
ಶೋಧಕರು ಈ ಮಾದರಿಯ ದುರ್ಬಲತೆಗಳನ್ನು ಹೇಗೊ ಬೆಳವಣಿಗೆಗಳು?
ಶೋಧಕರು ಈ ಮಾದರಿಯ ಕುರಿತಾದ ಹಾರ್ಟ್ ಹಕ್ಕಿಗಳ ನಿಯಮಾನುವಾದವನ್ನು ಕಳೆಯುವ ಮೂಲಕ ಪರೀಕ್ಷಿಸುತ್ತಾರೆ, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ಮತ್ತು ನಿಯಮಿತ ಭದ್ರತೆಗೆ ದಾಶಕವನ್ನು ಸಾಧಿಸುತ್ತಾರೆ.
ವ್ಯವಸ್ಥೆಗಳನ್ನು ನಿರ್ಬಂಧಿಸುವ ಸೂತ್ರಗಳನ್ನು ನಾನು ಏನನ್ನು ಉಂಟು ಮಾಡಬಹುದು?
ಭದ್ರತೆಗಳನ್ನು ಬಲಪಡಿಸಲು, ನಮಗೆ ಅನುದಾನಿತ ಪ್ರಣಾಲಿಗಳನ್ನು ಸುಧಾರಿಸಲು, ಹಾನಿಕಾರಕ ವಿನಂತಿಗಳನ್ನು ಗುರುತಿಸಲು ಹೆಚ್ಚಿನ ತಂತ್ರಾವಳಿ ಮು ಹೆನ್ನುತ್ತೇವೆ!
ಐಎನನ್ನು ಹೂವು ಮಾಡುವ ಸಂಬಂಧ ವಿವಿಧ ಸಂದರ್ಭಗಳಲ್ಲಿ ವರ್ತನೆ ಮಾಡುತ್ತಿದೆಯೆ?
ಈ ಮರುತಪ್ಪಿದ ಸನ್ನಿವೇಶಗಳ ಕುರಿತು ನಿರ್ದಿಷ್ಟವಾಗಿ ಮಾತನಾಡುವ ಮೂಲಕ, ತಂತ್ರವು ದುಷ್ಪ್ರಯೋಗಕ್ಕಾಗಿಯು ಅಗತ್ಯಾಂತರವನ್ನು ಒದಗಿಸುತ್ತವೆ.