AI nie podpowie ci, jak zrobić napalm. Powstał specjalny filtr
Istnieje przynajmniej kilka sposobów na to, by zmusić różne czatboty AI do tego, by nie zachowywały się zgodnie z przyjętymi założeniami. Chodzi tutaj o wymuszanie na nich odpowiedzi, których te nie powinny udzielać, np. jak zrobić napalm. Teraz opracowywany jest specjalny filtr, który pozwoli ten problem ukrócić. AI na cenzurowanym Ostatnio dość głośno było o […] Artykuł AI nie podpowie ci, jak zrobić napalm. Powstał specjalny filtr pochodzi z serwisu ANDROID.COM.PL - społeczność entuzjastów technologii.
Istnieje przynajmniej kilka sposobów na to, by zmusić różne czatboty AI do tego, by nie zachowywały się zgodnie z przyjętymi założeniami. Chodzi tutaj o wymuszanie na nich odpowiedzi, których te nie powinny udzielać, np. jak zrobić napalm. Teraz opracowywany jest specjalny filtr, który pozwoli ten problem ukrócić.
AI na cenzurowanym
Ostatnio dość głośno było o tym, że model DeepSeek-R1, który zatrząsnął rynkiem chatbotów AI, nie odpowiada na wszystkie kwestie. Cenzura nie pozwalała na to, by chatbot odpowiadał na pytania m.in. związane z Chinami i ich historią, z której władze nie są dumne.
Oczywiście od razu pojawiły się sposoby na to, jak ominąć cenzurę na DeepSeek, ale ten LLM wcale nie jest wyjątkiem. ChatGPT również nie odpowiada na wszystkie pytania i unika tematów, które mogą prowadzić do wyrządzenia komuś krzywdy. Zresztą nie tylko on, bo to ogólnie przyjęta zasada, czyli „nie szkodzić”.
Nie zmienia to jednak tego, że internauci bardzo chętnie szukają sposobów na to, by takie niewygodne kwestie chatboty poruszały. Zadawanie pytań szyfrem czy formułowanie ich w taki sposób, by jednak odpowiedź się pojawiła to powszechny problem. I duże modele językowe mają z tym kłopot.
Nad jego rozwiązaniem i to ze sporymi sukcesami, pracuje firma Anthropic. Ta postanowiła wytrenować model Claude w taki sposób, by nie dało się go oszukać i zmusić np. do podania przepisu na broń chemiczną. Jak się do tego zabrano?
W pierwszej kolejności poproszono model o wygenerowanie dużej liczby generycznych pytań oraz odpowiedzi, które były w dwóch formach. Tej akceptowalnej oraz zakazanej. Następnie pytania oraz odpowiedzi przetłumaczono na inne języki, oraz przepisano tak, jak robią to często internauci, by oszukać chatboty. Tak utworzona baza posłużyła do wytrenowania nowego modelu.
Firma była tak pewna swojego rozwiązania, że urządziła konkurs, w którym do wygrania było 15 000 dolarów (ponad 61 000 zł). Zadanie było dość proste. Przygotowano listę 10 zakazanych pytań, a ten, kto zmusi Claude do tego, by odpowiedział na wszystkie z nich, zgarnia pieniądze. Według Anthrophic w teście wzięło udział 183 uczestników, którzy nad zadaniem spędzili łącznie ponad 3000 godzin. Nikomu nie udało się sprawić, by chatbot udzielił zakazanej odpowiedzi na więcej, niż 5 pytań.
W kolejnym teście wykorzystano 10 000 pytań, które zazwyczaj pomagały obejść zakazane tematy i bez tarczy ochronnej od Anthrophic, Claude odpowiedział na 86% z nich. Po zastosowaniu filtra współczynnik odpowiedzi spadł do 4,4%.
System dalej jest testowany oraz ulepszany, ponieważ dalej nie gwarantuje 100-procentowej ochrony. Widać jednak, że temat autocenzury AI może być problemem, z którym największe firmy od AI nie do końca potrafią sobie poradzić same. Na szczęście ktoś już tym się zajmuje dla dobra nas wszystkich.
Źródło: technologyreview. Zdjęcie otwierające: PixieMe / Shutterstock
Nigdy nie wiesz, kiedy oszuści wezmą cię na celownik. Czy zastanawiałeś się nad swoim bezpieczeństwem podczas codziennej pracy? Wypełnij krótką ankietę, by się tym podzielić. Ładuję…
Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.
Artykuł AI nie podpowie ci, jak zrobić napalm. Powstał specjalny filtr pochodzi z serwisu ANDROID.COM.PL - społeczność entuzjastów technologii.