DeepSeek R1: IA potente ma priva di protezioni efficaci

Il tuo nome La tua email Oggetto Il tuo messaggio (facoltativo) Negli ultimi tempi, DeepSeek sta attirando grande attenzione grazie al suo modello R1, che sembra superare molti dei più…

Feb 5, 2025 - 12:21

DeepSeek R1: IA potente ma priva di protezioni efficaci

Il tuo nome

La tua email

Oggetto

Il tuo messaggio (facoltativo)

Negli ultimi tempi, DeepSeek sta attirando grande attenzione grazie al suo modello R1, che sembra superare molti dei più avanzati modelli di intelligenza artificiale, compresi ChatGPT e altri sistemi simili. Tuttavia, nonostante le sue capacità, DeepSeek ha fallito completamente i test di sicurezza, rivelandosi vulnerabile a tecniche di jailbreak basilari. Questo significa che il modello può essere facilmente ingannato e indotto a rispondere a domande che dovrebbero essere bloccate, aprendo la porta a potenziali utilizzi illeciti, come hacking di database e molto altro.

Un Fallimento Totale nei Test di Sicurezza

Le aziende che sviluppano modelli di intelligenza artificiale implementano specifiche protezioni per impedire che i loro sistemi rispondano a richieste pericolose o generino contenuti dannosi, come incitamento all’odio o informazioni sensibili. Anche modelli consolidati come ChatGPT e l’IA di Bing hanno mostrato occasionali vulnerabilità alle tecniche di jailbreak, ma le aziende hanno prontamente aggiornato i loro sistemi per correggere tali falle.

DeepSeek, al contrario, ha fallito in tutti i test condotti da Adversa, un team di ricerca sulla sicurezza dell’IA. Il modello cinese è risultato vulnerabile a tutte le 50 prove eseguite, dimostrando una totale mancanza di protezioni adeguate. I test hanno incluso scenari verbali, conosciuti come “linguistic jailbreaking”, che hanno dimostrato quanto sia facile manipolare il modello affinché fornisca risposte inappropriate o pericolose.

Le Tecniche di Jailbreak Usate Contro DeepSeek

Uno dei metodi più efficaci per ingannare i modelli di intelligenza artificiale è il “jailbreak basato sui ruoli”. Ad esempio, si può chiedere al sistema di immaginare di essere in un film in cui certi comportamenti scorretti sono permessi e poi fargli generare informazioni sensibili, come la costruzione di una bomba. Altri metodi includono il “Character Jailbreak”, il “Deep Character Jailbreak” e il “Grandma Jailbreak”, ognuno dei quali sfrutta debolezze nei filtri di sicurezza.

In uno dei test, DeepSeek è stato indotto a trasformare una domanda in una query SQL, dimostrando la vulnerabilità del modello ai jailbreak di programmazione. Inoltre, i ricercatori hanno sfruttato tecniche di attacco basate su rappresentazioni alternative delle parole (“token chains”), che permettono di aggirare i filtri senza utilizzare direttamente termini sensibili.

Un Tasso di Successo del 100% per gli Attacchi

Secondo Wired, DeepSeek non è riuscito a bloccare nemmeno uno dei 50 prompt malevoli sottoposti dai ricercatori. Questo significa che, almeno nella sua versione attuale, il modello non ha alcuna difesa contro l’uso improprio.

Il Futuro di DeepSeek: Riuscirà a Correggere le Sue Debolezze?

Resta da vedere se gli sviluppatori di DeepSeek interverranno per rafforzare le protezioni del loro modello. Considerando l’attuale vulnerabilità, è probabile che saranno costretti a implementare nuove salvaguardie per evitare che il sistema venga sfruttato in modo dannoso. Nel frattempo, la comunità di esperti di sicurezza rimane in allerta per monitorare eventuali sviluppi.

Continueremo a seguire da vicino la situazione per fornire aggiornamenti su eventuali cambiamenti o miglioramenti implementati da DeepSeek nei prossimi mesi.