Renforcer l’IA : Comment la rendre résiliente face aux manipulations, même après la suppression de couches essentielles

人工智能的快速演变带来了前所未有的安全性和可靠性挑战。未经授权的修改，特别是移除重要层，深刻危及模型的初衷，暴露出不希望出现的脆弱性。面对开放系统，传统的监管方法变得过时，使既定的安全标准失去了效用。针对这些挑战建立强大的韧性成为了一项迫切需要，以确保伦理的使用。寻找创新解决方案，例如对内部结构的再训练，显现出对抗这些持久威胁的前景。

增强人工智能模型的安全能力

加州大学河滨分校的研究人员正在研究当开源人工智能模型被简化以适应低功耗设备时，安全功能的丧失。该研究突显出一个现象，称为图像编码器早退出（ICET）脆弱性。

模型简化对安全性的影响

人工智能模型在被去除某些内部层以优化内存和计算能力时，通常会失去过滤危险内容的能力。这个现象表现为潜在有害的回应，包括关于制造武器或传播仇恨言论的指令。

提出新方法

面对这些挑战，研究人员开发了一种创新的方法，即层次剪辑PPO（L-PPO），旨在即使在移除某些重要层之后，仍保持检测和阻止不当互动的能力。这个过程涉及对模型的内部重构，确保其对风险内容的理解依然有效。

对视觉语言模型的测试

为了验证他们的方法，团队使用了LLaVA 1.5，一个视觉语言模型。测试显示，特定的组合，如将无害图像与恶意问题结合，能够绕过模型的安全过滤器，导致令人担忧的回应。

调整与结果

在再训练阶段后，该模型表现出可靠的拒绝危险请求的能力，即使在减少了原有层数的情况下。这种方法不同于传统的通过增加外部过滤器的技术。变化发生在根本层面，将模型的行为在一开始就定义为安全。

未来展望及其影响

研究的作者，包括Amit Roy-Chowdhury和Saketh Bachu，认为他们的工作是一个“善意黑客”的例子，在潜在漏洞被利用之前加强了人工智能模型。他们的终极目标是开发确保每个内部层面安全的技术，以确保模型在真实条件下的稳健性。

这项研究受到热烈欢迎，并在温哥华举行的国际机器学习会议上展示，强调了在人工智能领域，尤其是在开源模型兴起的背景下，安全性的重要性。仍然面临众多挑战，但每一次进步都使可靠的解决方案更接近于实现更负责任的人工智能。

关于人工智能的伦理和社会影响的讨论也在不断增长，因为在创新和适当监管之间找到平衡的必要性日益迫切。围绕2025年信息服务部门所面临挑战的讨论以及人工智能对各个行业影响的探讨，反映了这一技术在现代环境中日益重要的地位。

像这样的倡议，旨在预防和对抗潜在滥用，代表了通往更安全的人工智能的重要一步。与NVIDIA等公司的合作也在提高人工智能能力方面发挥了作用，特别是通过一些战略伙伴关系。

在此背景下，研究不断发展，提出了关于未来人工智能应用及其如何被监管以避免偏差的问题。加州大学的工作强调了这一思考的紧迫性，使开发创新解决方案以应对现实威胁变得至关重要。

关于增强韧性的人工智能改革的常见问题

什么是增强韧性的人工智能改革？
这是一个旨在修改人工智能模型内部结构的方法，以确保它们即使在某些重要层被移除或修改的情况下，仍能保持检测和阻止危险内容的能力。

为什么人工智能模型在缩小尺寸时会失去安全性？
当人工智能模型被优化以适应低功耗设备时，某些内部层可能被省略以提高性能，这可能削弱内置的安全机制。

L-PPO方法如何帮助保持人工智能模型的安全性？
L-PPO方法，即层级剪辑PPO，调整图像编码器的层训练，使模型即使在其内部结构修改后，也能保持安全能力。

移除重要层后可能生成哪些危险内容？
移除某些层可能使模型能够对恶意问题生成适当回应，包括进行非法活动或不当内容的指令。

人工智能模型的再训练是什么？
再训练涉及重新定义模型的内部参数，以确保其在以简化架构部署时保持安全能力。

再训练是否需要外部过滤器来保证安全？
不需要，所采用的策略是修改模型的内部智能，使其默认安全，无需外部过滤器或保护措施。

在分散环境中保持人工智能模型的安全性为何重要？
在人工智能模型自主运行的上下文中，如移动设备或车辆，确保它们能在没有持续监督的情况下避免危险内容的风险至关重要。

当前在人工智能模型安全研究中存在哪些挑战？
挑战包括安全对齐在不同图像编码器层中的变异性以及确保模型的普遍化不留有未保护的嵌入空间的必要性。

这项研究对未来人工智能模型开发有什么影响？
这项研究为开发在各种架构层次上保持有效安全的更强健人工智能模型提供了途径，这对于它们的广泛应用至关重要。

重新构建人工智能，以增强其在未经授权的修改下的韧性，即使在某些关键层被删除之后

增强人工智能模型的安全能力

模型简化对安全性的影响

提出新方法

对视觉语言模型的测试

调整与结果

未来展望及其影响

关于增强韧性的人工智能改革的常见问题

一些路人被一個過於誠實的人工智能廣告牌震驚

Apple 開始從德克薩斯州發運一款旗艦產品

在盧浮宮的飛行：由其攝影師解讀的病毒性照片之謎，介於福爾摩斯與人工智能之間

一間創新的公司，尋求擁有清晰和透明價值觀的員工

Microsoft Edge : 由 Copilot 模式所改變的瀏覽器，人工智能為您的瀏覽提供服務！

欧盟：针对美国大型科技巨头的审慎监管

重新构建人工智能，以增强其在未经授权的修改下的韧性，即使在某些关键层被删除之后

增强人工智能模型的安全能力

模型简化对安全性的影响

提出新方法

对视觉语言模型的测试

调整与结果

未来展望及其影响

关于增强韧性的人工智能改革的常见问题

.tdi_114{z-index:84546!important}Apple 開始從德克薩斯州發運一款旗艦產品

.tdi_133{z-index:84546!important}在盧浮宮的飛行：由其攝影師解讀的病毒性照片之謎，介於福爾摩斯與人工智能之間

.tdi_152{z-index:84546!important}一間創新的公司，尋求擁有清晰和透明價值觀的員工

.tdi_171{z-index:84546!important}Microsoft Edge : 由 Copilot 模式所改變的瀏覽器，人工智能為您的瀏覽提供服務！

.tdi_190{z-index:84546!important}欧盟：针对美国大型科技巨头的审慎监管

Apple 開始從德克薩斯州發運一款旗艦產品

在盧浮宮的飛行：由其攝影師解讀的病毒性照片之謎，介於福爾摩斯與人工智能之間

一間創新的公司，尋求擁有清晰和透明價值觀的員工

Microsoft Edge : 由 Copilot 模式所改變的瀏覽器，人工智能為您的瀏覽提供服務！

欧盟：针对美国大型科技巨头的审慎监管