Anthropic: fatti spiegare dall'AI come produrre armi chimiche e ti paghiamo
Anthropic lancia un test pubblico per il suo sistema anti-jailbreak su Claude.
Le aziende che sviluppano modelli di intelligenza artificiale cercano di limitare l’accesso a contenuti sensibili come la proliferazione di armi, attività illegali o argomenti politicamente delicati. Insomma, una delle più grandi sfide per aziende come OpenAI e Google è assicurarsi che gli utenti non abusino delle loro AI, ottenendo istruzioni per compiere atti illegali, oppure facendo dire ai chatbot cose sconvenienti o razziste.
Il problema è che, fin dal debutto delle primissime versioni pubbliche delle AI generative, gli utenti si sono dimostrati molto fantasiosi nel trovare metodi nuovi per aggirare questi blocchi, costringendo le aziende a correre continuamente ai ripari per limitare, o quantomeno rendere molto difficile, il jailbreak delle loro AI.
Ora, Anthropic, l’azienda dietro il modello Claude, ha annunciato un nuovo sistema di Constitutional Classifiers, progettato per bloccare la maggior parte di questi tentativi di jailbreak. Dopo oltre 3.000 ore di test con esperti in cybersicurezza, l’azienda ha deciso di mettere alla prova il suo sistema coinvolgendo il grande pubblico. La sfida è semplice: provate a rompere Claude e, se ci riuscite, vi pagheremo.