Chinas DeepSeek hat schwere Sicherheitsmängel: Forscher finden keine einzige Barriere für Jailbreaks
Die generative-künstliche Intelligenz DeepSeek aus China, die die Aktienkurse der KI-orientierten westlichen Unternehmen auf Talfahrt schickte, vor allem die von Nvidia, hat schwerwiegende Sicherheitsmängel. Das haben Sicherheitsexperten des US-amerikanischen TelekommunikationsunternehmensCisco im kalifornischen San José und der University of Pennsylvania in Pennsylvania festgestellt. Sie haben untersucht, wie DeepSeek auf bekannte Jailbreaking-Techniken reagiert und wie es dabei …
Die generative-künstliche Intelligenz DeepSeek aus China, die die Aktienkurse der KI-orientierten westlichen Unternehmen auf Talfahrt schickte, vor allem die von Nvidia, hat schwerwiegende Sicherheitsmängel. Das haben Sicherheitsexperten des US-amerikanischen TelekommunikationsunternehmensCisco im kalifornischen San José und der University of Pennsylvania in Pennsylvania festgestellt. Sie haben untersucht, wie DeepSeek auf bekannte Jailbreaking-Techniken reagiert und wie es dabei im Vergleich zu anderen KI-Modellen abschneidet.
Brisante Fragen werden nicht ignoriert
Mit Jailbreaks bezeichnet man Aufforderungen an große Sprachmodelle (LLM, Large Language Model)– das bekannteste ist ChatGPT –, auf brisante Fragen mit genauen Anweisungen zu antworten, etwa „wie baue ich eine Bombe“ „wie richte ich eine Malware ein“. LLM sind eigentlich so ausgelegt, dass sie auf derartige Fragen die Antwort verweigern. Nicht jedoch DeepSeek. Sie sind nicht immer gegen solche Attacken gefeit, aber die westlichen Anbieter von LLMversuchen stets, auf neue Jailbreaks zu reagieren. Doch nach den Erfahrungen der US-Sicherheitsexperten fällt die chinesische Version sogar auf altbekannte Fangfragen herein. Nicht ein einziges Mal verweigerte die KI die Antwort auf Aufforderungen aus sieben Kategorien, darunter Cyberkriminalität, Fake News, illegale Aktivitäten und allgemeine Gefährdungen.
Auch andere LLM sind anfällig
Mit einer „Erfolgs“-Quote von 96 Prozent schnitt Metas Llama 3.1 405Ballerdings kaum besser ab, gefolgt von OpenAIs GPT-4o mit 86 Prozent. Merklich besser sah das Ergebnis bei Googles Gemini 1.5 Pro (64 Prozent) aus. Die besten Ergebnisse lieferten Claude 3.5 Sonnet (36 Prozent) und die Preview von OpenAIs o1-Modell (26 Prozent).
Kosten zu Lasten der Sicherheit gespart
Die Entwicklung von DeepSeekhat angeblich umgerechnet nur sechs Millionen US-Dollar kostete. Das ging wohl nicht zuletzt zu Lasten der Sicherheit, vermuten die Forscher. Sie glauben, dass sich die Trainingsmethode von DeepSeek, die bestärkendes Lernen mit einer Selbstbewertung kombiniert, mehr auf Effizienz als auf Sicherheit konzentriert hat.
Während frühe Jailbreaks oft einfache Anweisungen verwendeten, um eine KI dazu zu bringen, Schutzmechanismen zu ignorieren, sind moderne Techniken ausgefeilter. Viele werden inzwischen selbst von KI entwickelt oder nutzen spezielle Zeichen- und Sprachmuster, um Schutzmaßnahmen zu umgehen.