Gefilterte Daten verhindern, dass öffentlich zugängliche KI-Modelle gefährliche Aufgaben ausführen, so eine Studie.

Publié le 13 August 2025 à 09h51
modifié le 13 August 2025 à 09h51

Das Aufkommen von Open-Weight-KI-Modellen wirft wichtige Fragen zur Sicherheit auf. Neueste Innovationen zeigen eine neuartige Möglichkeit, Daten zu filtern, um *Missbrauchsrisiken* entgegenzuwirken. Durch ausgeklügelte Filtermethoden haben Forscher nachgewiesen, dass es *möglich ist, schädliches Wissen* bereits während des Trainings der Modelle zu eliminieren. Die Vermeidung der Verbreitung von gefährlichen Inhalten wird entscheidend, um eine ethische und verantwortungsvolle Nutzung von KI sicherzustellen. Die Forschung konzentriert sich auf den Aufbau von resilienten Systemen, die in der Lage sind, potenzielle Bedrohungen zu ignorieren, ohne ihre Gesamtleistung zu gefährden.

Bedeutende Fortschritte in der Sicherheit von offenen Sprachmodellen

Forscher der Universität Oxford, EleutherAI und des UK AI Security Institute haben einen bemerkenswerten Fortschritt beim Schutz von offenen Sprachmodellen erzielt. Durch das Filtern potenziell schädlichen Wissens während der Trainingsphase haben diese Forscher Modelle entwickelt, die in der Lage sind, zukünftigen böswilligen Updates zu widerstehen. Dieser Fortschritt ist besonders wertvoll in sensiblen Bereichen wie der Forschung zu biologischen Bedrohungen.

Integration von Sicherheit von Anfang an

Dieser neue Ansatz markiert einen Wendepunkt in der Sicherheit der KI. Anstatt Sicherheitsanpassungen nachträglich vorzunehmen, haben die Forscher Schutzmaßnahmen von Beginn an integriert. Diese Methode reduziert das Risiko, während sie die Offenheit der Modelle bewahrt, was Transparenz und Forschung ermöglicht, ohne die Sicherheit zu gefährden.

Die zentrale Rolle von offenen Gewicht-Modellen

Offene Gewicht-Modelle sind ein Grundpfeiler der kollaborativen und transparenten Forschung in der KI. Ihre Verfügbarkeit fördert gründliche Tests, verringert die Marktkonzentration und beschleunigt den wissenschaftlichen Fortschritt. Mit den jüngsten Veröffentlichungen von Modellen wie Kimi-K2, GLM-4.5 und gpt-oss entwickeln sich die Fähigkeiten offener Modelle weiterhin rasant und konkurrieren mit geschlossenen Modellen, die nur sechs bis zwölf Monate alt sind.

Risiken im Zusammenhang mit der Offenheit

Die offene Natur der Modelle birgt jedoch Risiken. Offene Modelle, obwohl förderlich für positive Anwendungen, können zu schädlichen Zwecken missbraucht werden. Modifizierte Textmodelle, die über keinen Schutz verfügen, sind bereits weit verbreitet, während offene Bildgeneratoren mittlerweile zur Herstellung illegaler Inhalte verwendet werden. Die Möglichkeit, diese Modelle herunterzuladen, zu modifizieren und weiterzugeben, erhöht die Notwendigkeit robuster Schutzmaßnahmen gegen Manipulationen.

Datenfiltermethodik

Das Team hat eine mehrstufige Datenfilterpipeline entworfen, die blockierte Schlüsselwortlisten und einen maschinellen Lernklassifizierer kombiniert, der in der Lage ist, risikobehaftete Inhalte zu erkennen. Diese Methode hat es ermöglicht, etwa 8 bis 9 % der Daten zu eliminieren, während der Reichtum und die Tiefe allgemeiner Informationen erhalten bleiben. Die KI-Modelle wurden auf Grundlage dieser gefilterten Daten trainiert und zeigten eine Leistung, die der der ungefilterten Modelle bei Standardaufgaben entspricht.

Auswirkung auf die weltweite KI-Governance

Die Ergebnisse dieser Studie treten zu einem kritischen Zeitpunkt für die weltweite Governance der KI auf. Mehrere aktuelle Berichte zur Sicherheit von KI, die von Unternehmen wie OpenAI und Anthropic stammen, äußern Bedenken hinsichtlich der Bedrohungen, die von diesen fortschrittlichen Modellen ausgehen könnten. Viele Regierungen sind besorgt über das Fehlen von Schutzmaßnahmen für öffentlich zugängliche Modelle, die einmal veröffentlicht nicht zurückgerufen werden können.

Schlussfolgerungen der Forscher

Die Forscher haben festgestellt, dass die Eliminierung unerwünschten Wissens von Anfang an verhindert, dass das Modell potenziell gefährliche Fähigkeiten erlangt, selbst nach späteren Trainingsversuchen. Die Studie zeigt, dass das Filtern von Daten ein leistungsstarkes Werkzeug sein kann, um Entwicklern zu helfen, Sicherheit und Innovation im Bereich der Open-Source-KI in Einklang zu bringen.

Die Einzelheiten dieser Forschung können in der Studie mit dem Titel „Deep Ignorance: Filtering pretraining data builds tamper-resistant safeguards into open-weight LLMs“, die kürzlich auf arXiv veröffentlicht wurde, eingesehen werden.

Für weitere Informationen lesen Sie die Artikel über Fortschritte bei Sprachmodellen: Verbesserung der Denkfähigkeiten, Antworten der Chatbots auf heikle Fragen, und unauthorisierte Änderung in den Tiraden eines Chatbots.

Häufig gestellte Fragen zur Datenfilterung für die Sicherheit von KI-Modellen

Was ist Datenfilterung im Kontext von KI-Modellen?
Datenfilterung bedeutet, bestimmte Informationen, die als gefährlich oder unerwünscht angesehen werden, aus dem Datensatz zu entfernen, der zum Trainieren von KI-Modellen verwendet wird, um das Risiko einer missbräuchlichen Nutzung zu minimieren.

Wie verhindert Datenfilterung, dass KI-Modelle gefährliche Aufgaben ausführen?
Durch das Ausschließen spezifischer Inhalte, die mit biologischen oder chemischen Bedrohungen in Verbindung stehen, während des Trainings haben die entwickelten Modelle nicht die Fähigkeit, Wissen zu erlangen, das zu schädlichen Anwendungen führen könnte, selbst nach zusätzlichen Trainings.

Welche Arten von Inhalten werden normalerweise während des Trainings eines KI-Modells gefiltert?
Gefilterte Inhalte umfassen Informationen zu Themen wie Virologie, biologische Waffen, rückwärtige Gene und anderen kritischen Bereichen, die ausgenutzt werden könnten, um Bedrohungen zu schaffen.

Warum ist es wichtig, Daten vor Beginn des Trainings von KI-Modellen zu filtern?
Durch das Filtern der Daten von Anfang an können intrinsische Sicherheitsmechanismen integriert werden, das Risiko von Abweichungen verringert werden, während die Offenheit und Transparenz der KI-Modelle gewahrt bleibt.

Wie effektiv sind gefilterte KI-Modelle im Vergleich zu ungefilterten Modellen?
Modelle, die mit gefilterten Daten arbeiten, haben vergleichbare Leistungen bei Standardaufgaben gezeigt und waren dabei zehnmal effektiver im Umgang mit Herausforderungen in Bezug auf schädliche Inhalte.

Können gefilterte KI-Modelle dennoch für böswillige Zwecke verwendet werden?
Obwohl die Datenfilterung die Risiken erheblich minimiert, besteht die Möglichkeit, dass böswillige Nutzer versuchen, die Schutzmaßnahmen zu umgehen. Die proaktive Filteransatz bietet jedoch einen robusten Schutz.

Wie trägt diese Filtermethode zur weltweiten KI-Governance bei?
Die Datenfilterung stellt ein potenzielles Werkzeug für Entwickler und Regulatoren dar, um die Bedürfnisse der KI-Innovation besser auszubalancieren, während notwendige Sicherheitsmaßnahmen ergriffen werden, um Missbrauch zu verhindern.

Welche Herausforderungen sind mit der Umsetzung der Datenfilterung für KI-Modelle verbunden?
Zu den Herausforderungen gehört die Notwendigkeit, genau zu definieren, welche Daten gefiltert werden müssen, und wie der Ausschluss dieser Daten ohne Beeinträchtigung der allgemeinen Effizienz und Vielfalt der Informationen in den Modellen ausgeglichen werden kann.

Wird diese Technik bereits in anderen Bereichen der KI verwendet?
Diese Filtertechnik wird in verschiedenen Anwendungsbereichen der KI untersucht, insbesondere in solchen, die eine hohe Sicherheit erfordern, ist jedoch noch neu und in der Forschungsphase.

actu.iaNon classéGefilterte Daten verhindern, dass öffentlich zugängliche KI-Modelle gefährliche Aufgaben ausführen, so eine...

Des Passanten, die von einem etwas zu ehrlichen KI-Werbeschild schockiert sind

des passants ont été surpris en découvrant un panneau publicitaire généré par l’ia, dont le message étonnamment honnête a suscité de nombreuses réactions. découvrez les détails de cette campagne originale qui n’a laissé personne indifférent.

Apple beginnt mit dem Versand eines Flaggschiffprodukts, das in Texas hergestellt wurde

apple débute l’expédition de son produit phare fabriqué au texas, renforçant sa présence industrielle américaine. découvrez comment cette initiative soutient l’innovation locale et la production nationale.
plongez dans les coulisses du fameux vol au louvre grâce au témoignage captivant du photographe derrière le cliché viral. entre analyse à la sherlock holmes et usage de l'intelligence artificielle, découvrez les secrets de cette image qui a fait le tour du web.

Ein innovatives Unternehmen auf der Suche nach Mitarbeitern mit klaren und transparenten Werten

rejoignez une entreprise innovante qui recherche des employés partageant des valeurs claires et transparentes. participez à une équipe engagée où intégrité, authenticité et esprit d'innovation sont au cœur de chaque projet !

Die Europäische Union: Eine vorsichtige Regulierung gegenüber den amerikanischen Big-Tech-Riesen

découvrez comment l'union européenne impose une régulation stricte et réfléchie aux grandes entreprises technologiques américaines, afin de protéger les consommateurs et d’assurer une concurrence équitable sur le marché numérique.

Des schmeichelnden Chatbots: Eine Studie zeigt, dass KI sich an die Wünsche der Nutzer anpasst

découvrez comment une nouvelle étude démontre que les chatbots intelligents modifient leurs réponses pour flatter et satisfaire les attentes des utilisateurs, révélant ainsi une facette surprenante de l'adaptabilité de l'ia.