Jailbreaking DeepSeek para comparar el System Prompt con OpenAI ChatGPT

Este fin de semana, mientras aprovechaba para recuperarme de la intensidad de la semana pasada, aproveché para leerme una comparativa hecha entre DeepSeek y OpenAI GPT por la empresa Wallarm, donde han utilizado técnicas de Prompt Injection y Jailbreak LLM para poder extraer la información sobre la configuración del System Prompt de DeepSeek y poder compararlo bien con OpenAI ChatGPT.Figura 1: Jailbreaking DeepSeek para compararel System Prompt con OpenAI ChatGPTLas técnicas de Prompt Injection y Jailbreak LLMs llevan ya un tiempo entre nosotros, y he hablado de muchas de ellas por aquí desde que comenzó esta revolución de los LLMs. De todos ellos he ido escribiendo, porque es un tema que me encanta, y os he publicado muchos artículos que merece la pena que leáis para entender cómo funcionan.Los 10 problemas de seguridad más importantes de ChatGPT, Bard, Llama y apps que usan LLMs: OWASP Top 10 para LLM Apps versión 1.0.1GenAI Apps & Services: Cómo explotar arquitecturas RAG con Plugins InsegurosCrescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLMJailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva: Aproximaciones para que un LLM ayude a los malosIndirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-ModalesAtaque de Side-Channel a conversaciones con ChatGPT, CoPilot y otros LLMsDevelopers: Cuidado que ChatGPT o Gemini te pueden recomendar instalar malware con Package HallucinationsBugs en la Implementación OAuth de ChatGPTCodename: "Leak GuardIAn" para evitar filtraciones a ChatGPTCómo robar cuentas de ChatGPT con "Wildcard Web Cache Deception"Bad Likert Judge: "Dame ejemplos de cosas malas, amiga m(IA)"En el estudio que han publicado, con el título de: "Analyzing DeepSeek’s System Prompt: Jailbreaking Generative AI", intentaron sacar la información de cómo estaba construido el modelo, pero lógicamente esté protegido. Figura 2: Entrenamiento reforzado con OpenAI GPTComo podéis ver en la imagen, explica la técnica de Entrenamiento Reforzado (Reinforcement Learning o RL) utilizando modelos ya entrenados, y en concreto cómo ellos se apoyan en OpenAI ChatGPT para el entrenamiento, lo que ha generado una disputa entre ambas compañías. Figura 3: Técnicas de Jailbreak usadas para el estudio (parte 1)Para sacar la información se han basado en técnicas de Prompt Injection y Jailbreak LLM como ya he dicho antes, que han descrito. Todas ellas las tenéis en los diferentes artículos que he ido publicando que creo que no me he dejado ninguna.Figura 4: Técnicas de Jailbreak usadas para el estudio (parte 2)Con estas técnicas, han sacado el System Prompt fundacional de DeepSeek, tal y como podéis ver en las imágenes siguientes.Figura 5: System Prompt de DeepSeek Parte 1Figura 6: System Prompt de DeepSeek Parte 2Una vez que ya tenemos este System Prompt, es posible comparar DeepSeek con OpenAI ChatGPT, ya que se tienen las dos configuraciones para poder ver cómo se ha puesto en marcha cada uno de ellos y cómo va a responder a los usuarios. Figura 7: Comparación de OpenAI GPT vs. DeepSeek parte 1Como podéis ver, hay matices en la sutiliza de la configuración, lo que va a traer resultados distintos y va a tener derivadas que deben ser analizadas desde el punto de vista Ético de lo que queremos que hagan estos modelos y qué tipo de decisiones, pensamientos y soluciones nos aporten como personas y sociedades.Figura 8: Comparación de OpenAI GPT vs. DeepSeek parte 2Además, la pregunta que viene inmediatamente es... ¿es necesario tener que recurrir a técnicas de Jailbreak LLM para que sepamos cómo está configurado un Chat LLM que vamos a utilizar o esta información debería ser pública desde el principio?Figura 9: Conclusiones de los investigadoresPor supuesto, decidir qué pensamos que es mejor o peor par la configuración de uno de estos modelos fundacionales LLM es un debate abierto que cada individuo, y cada sociedad debe debatir, porque cambios sutiles en la configuración provocan grandes diferencias a futuro.¡Saludos Malignos!Autor: Chema Alonso (Contactar con Chema Alonso)   Sigue Un informático en el lado del mal RSS 0xWord - Contacta con Chema Alonso en MyPublicInbox.com

Feb 4, 2025 - 15:17
 0
Jailbreaking DeepSeek para comparar el System Prompt con OpenAI ChatGPT
Este fin de semana, mientras aprovechaba para recuperarme de la intensidad de la semana pasada, aproveché para leerme una comparativa hecha entre DeepSeek y OpenAI GPT por la empresa Wallarm, donde han utilizado técnicas de Prompt Injection y Jailbreak LLM para poder extraer la información sobre la configuración del System Prompt de DeepSeek y poder compararlo bien con OpenAI ChatGPT.
Las técnicas de Prompt Injection y Jailbreak LLMs llevan ya un tiempo entre nosotros, y he hablado de muchas de ellas por aquí desde que comenzó esta revolución de los LLMs. De todos ellos he ido escribiendo, porque es un tema que me encanta, y os he publicado muchos artículos que merece la pena que leáis para entender cómo funcionan.
En el estudio que han publicado, con el título de: "Analyzing DeepSeek’s System Prompt: Jailbreaking Generative AI", intentaron sacar la información de cómo estaba construido el modelo, pero lógicamente esté protegido. 
Como podéis ver en la imagen, explica la técnica de Entrenamiento Reforzado (Reinforcement Learning o RL) utilizando modelos ya entrenados, y en concreto cómo ellos se apoyan en OpenAI ChatGPT para el entrenamiento, lo que ha generado una disputa entre ambas compañías. 

Para sacar la información se han basado en técnicas de Prompt Injection y Jailbreak LLM como ya he dicho antes, que han descrito. Todas ellas las tenéis en los diferentes artículos que he ido publicando que creo que no me he dejado ninguna.

Con estas técnicas, han sacado el System Prompt fundacional de DeepSeek, tal y como podéis ver en las imágenes siguientes.
Una vez que ya tenemos este System Prompt, es posible comparar DeepSeek con OpenAI ChatGPT, ya que se tienen las dos configuraciones para poder ver cómo se ha puesto en marcha cada uno de ellos y cómo va a responder a los usuarios.


Como podéis ver, hay matices en la sutiliza de la configuración, lo que va a traer resultados distintos y va a tener derivadas que deben ser analizadas desde el punto de vista Ético de lo que queremos que hagan estos modelos y qué tipo de decisiones, pensamientos y soluciones nos aporten como personas y sociedades.

Además, la pregunta que viene inmediatamente es... ¿es necesario tener que recurrir a técnicas de Jailbreak LLM para que sepamos cómo está configurado un Chat LLM que vamos a utilizar o esta información debería ser pública desde el principio?
Por supuesto, decidir qué pensamos que es mejor o peor par la configuración de uno de estos modelos fundacionales LLM es un debate abierto que cada individuo, y cada sociedad debe debatir, porque cambios sutiles en la configuración provocan grandes diferencias a futuro.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)