DeepSeek V3 con DeepThink R1: OpenSource & Eficiente (sin Search)

Hoy quería probar un rato DeepSeek V3 con DeepThink R1, que desde su irrupción con la estructura de costes y calidad que lo ha hecho ha revuelto el mundo de la Inteligencia Artificial, con los datos de eficiencia que aporta, y el impacto que tiene en las inversiones realizadas y anunciadas por empresas en este mundo.Figura 1: DeepSeek V3 con DeepThink R1.OpenSource & Eficiente (sin Search)El modelo es un modelo LLM OpenSource, y está publicado íntegramente en su repositorio de GitHub DeepSeek V3, donde cualquiera se puede descargar el código del modelo, junto con el paper, pero también te puedes descargar el modelo entrenado que está disponible en Hugging Face.Figura 2: Paper "DeepSeek-V3 Technical Report"Esto permite que cualquiera lo pueda utilizar en sus sistemas y aplicaciones, lo que se espera que desarrolle un poco más, acelerando la adopción, el mundo de la IA en el que ya estamos inmersos de una manera imparable. Ahí, además, tienes a disposición el paper académico que explica cómo han entrenado el modelo para conseguir hacerlo por un coste de 5,5 M€, lo que sería un dato espectacular de reducción de la barrera de entrenamiento que suponían hasta el momento los costes de tener entrenado un LLM competitivo.Figura 3: Descarga del modelo de 37B desde Hugging FaceEn el paper académico se explica todas las decisiones de optimización que han ido utilizando para conseguir hacerlo de manera tan eficiente, consumiendo muchas menos horas de entrenamiento, lo que abarata los costes de ese proceso. Pero claro, nada de eso serviría si se ha hecho a coste de reducir la calidad, para lo que con el paper publican los ratings en los benchmarks más utilizados comparándolos con GPT-4o y Claude 3.5 Sonnet, tal y como podéis ver en la tabla siguiente.Figura 4: Comparativa de Benchmarks con modelosEl modelo se ha entrenado utilizando entrenamiento por refuerzo, dejando de la lado la parte de entrenamiento supervisado con datos etiquetados, y con foco en que desde el principio fuera capaz de razonar las respuestas, algo que puedes ver con el DeepThink R1 si lo activas.Figura 5: Ha estado 19 segundos analizando la pregunta paracomenzar a escribir la respuesta al Prompt.Como podéis ver, ante la pregunta anterior, primero dedica una fase de análisis de la pregunta haciendo una estructura de razonamiento que se convertirá después en el Prompt definitivo con el que el modelo construye la respuesta. Figura 6: Con el análisis del Prompt genera una respuestaO lo que es lo mismo, es como si dado un Prompt Original utilizase primero un Prompt de Análisis del Prompt Original para después hacer Prompt Engineering al motor para generar la respuesta. Y así lo podéis ver en los ejemplos, donde te muestra el "razocinio" basado en el análisis del prompt. Figura 7: Preguntado por Dirtytooh no tiene infoEn el caso anterior intenta analizar Dirtytooth, pero no tiene información en sus datos de entrenamiento, por lo que genera una respuesta fallida sobre la técnica.Figura 8: Respuesta fallida sobre DirtyToothCon esta información, he intentado (varias veces), completar la información utilizando la búsqueda de Internet que permite usar también DeepSeek, pero no ha sido posible porque la alta demanda de uso del sistema.Figura 9:La opción de Search estaba saturadaHaciéndole la misma pregunta a Perplexity Pro, con su conexión a Internet, sí que nos da la información correcta sobre DirtyTooth, lo que me hace suponer que cuando el Search de DeepSeek esté ok, probablemente funcione también.Figura 10: Dirtytooth en PerplexityEn cuanto al modelo, por supuesto, sigue contando con sus alucinaciones, como podéis ver en este caso, donde le pregunto por "Un informático en el lado del mal". Primero, podéis ver el razonamiento de DeepThinking R1.Figura 11: Razonamiento para preparar la respuestaY el resultado tiene muchas alucinaciones, como que nació en 2005, y ya sabéis vosotros que fue en 2006. Además, dice que soy un ex-CSO que no es correcto, o que soy el Chief Digital Consumer Officer, que es un cargo antiguo, pero además dice que es en Microsoft en lugar de en Telefónica.Figura 12: Alucinaciones en la respuesta.También lo he querido probar en su versión de app para iPhone, y el resultado es, similar. Hace primero un Prompt de Análisis del Prompt con el DeepThinking R1 y luego construye la respuesta de manera completa.Figura 13: DeepThinking y Respuesta en DeepSeekNo voy a hablar mucho con los datos que se usaron para entrenar este modelo, que da para otros muchos artículos, pero me ha gustado la última frase de la respuesta anterior, que es chula. Solo por decirme cosas tan bonitas ya lo quiero más.Figura 14: DeepSeek sobre Chema AlonsoPor supuesto, todos los problemas de Halluciantions, Prompt Injection, Jailbreak, y retos de seguridad que hemos visto en muchos artículos durante estos meses, así que habrá que probar un poco más a ver qué protecciones tiene implementadas.¡Saludos Malignos!Autor: Chema Alonso (Contactar con Chema Alonso) Sigue Un

Ene 30, 2025 - 14:19

DeepSeek V3 con DeepThink R1: OpenSource & Eficiente (sin Search)

Hoy quería probar un rato DeepSeek V3 con DeepThink R1, que desde su irrupción con la estructura de costes y calidad que lo ha hecho ha revuelto el mundo de la Inteligencia Artificial, con los datos de eficiencia que aporta, y el impacto que tiene en las inversiones realizadas y anunciadas por empresas en este mundo.

Figura 1: DeepSeek V3 con DeepThink R1.

OpenSource & Eficiente (sin Search)

El modelo es un modelo LLM OpenSource, y está publicado íntegramente en su repositorio de GitHub DeepSeek V3, donde cualquiera se puede descargar el código del modelo, junto con el paper, pero también te puedes descargar el modelo entrenado que está disponible en Hugging Face.

Figura 2: Paper "DeepSeek-V3 Technical Report"

Esto permite que cualquiera lo pueda utilizar en sus sistemas y aplicaciones, lo que se espera que desarrolle un poco más, acelerando la adopción, el mundo de la IA en el que ya estamos inmersos de una manera imparable. Ahí, además, tienes a disposición el paper académico que explica cómo han entrenado el modelo para conseguir hacerlo por un coste de 5,5 M€, lo que sería un dato espectacular de reducción de la barrera de entrenamiento que suponían hasta el momento los costes de tener entrenado un LLM competitivo.

Figura 3: Descarga del modelo de 37B desde Hugging Face

En el paper académico se explica todas las decisiones de optimización que han ido utilizando para conseguir hacerlo de manera tan eficiente, consumiendo muchas menos horas de entrenamiento, lo que abarata los costes de ese proceso. Pero claro, nada de eso serviría si se ha hecho a coste de reducir la calidad, para lo que con el paper publican los ratings en los benchmarks más utilizados comparándolos con GPT-4o y Claude 3.5 Sonnet, tal y como podéis ver en la tabla siguiente.

Figura 4: Comparativa de Benchmarks con modelos

El modelo se ha entrenado utilizando entrenamiento por refuerzo, dejando de la lado la parte de entrenamiento supervisado con datos etiquetados, y con foco en que desde el principio fuera capaz de razonar las respuestas, algo que puedes ver con el DeepThink R1 si lo activas.

Figura 5: Ha estado 19 segundos analizando la pregunta para

comenzar a escribir la respuesta al Prompt.

Como podéis ver, ante la pregunta anterior, primero dedica una fase de análisis de la pregunta haciendo una estructura de razonamiento que se convertirá después en el Prompt definitivo con el que el modelo construye la respuesta.

Figura 6: Con el análisis del Prompt genera una respuesta

O lo que es lo mismo, es como si dado un Prompt Original utilizase primero un Prompt de Análisis del Prompt Original para después hacer Prompt Engineering al motor para generar la respuesta. Y así lo podéis ver en los ejemplos, donde te muestra el "razocinio" basado en el análisis del prompt.

Figura 7: Preguntado por Dirtytooh no tiene info

En el caso anterior intenta analizar Dirtytooth, pero no tiene información en sus datos de entrenamiento, por lo que genera una respuesta fallida sobre la técnica.

Figura 8: Respuesta fallida sobre DirtyTooth

Con esta información, he intentado (varias veces), completar la información utilizando la búsqueda de Internet que permite usar también DeepSeek, pero no ha sido posible porque la alta demanda de uso del sistema.

Figura 9:La opción de Search estaba saturada

Haciéndole la misma pregunta a Perplexity Pro, con su conexión a Internet, sí que nos da la información correcta sobre DirtyTooth, lo que me hace suponer que cuando el Search de DeepSeek esté ok, probablemente funcione también.

Figura 10: Dirtytooth en Perplexity

En cuanto al modelo, por supuesto, sigue contando con sus alucinaciones, como podéis ver en este caso, donde le pregunto por "Un informático en el lado del mal". Primero, podéis ver el razonamiento de DeepThinking R1.

Figura 11: Razonamiento para preparar la respuesta

Y el resultado tiene muchas alucinaciones, como que nació en 2005, y ya sabéis vosotros que fue en 2006. Además, dice que soy un ex-CSO que no es correcto, o que soy el Chief Digital Consumer Officer, que es un cargo antiguo, pero además dice que es en Microsoft en lugar de en Telefónica.

Figura 12: Alucinaciones en la respuesta.

También lo he querido probar en su versión de app para iPhone, y el resultado es, similar. Hace primero un Prompt de Análisis del Prompt con el DeepThinking R1 y luego construye la respuesta de manera completa.

Figura 13: DeepThinking y Respuesta en DeepSeek

No voy a hablar mucho con los datos que se usaron para entrenar este modelo, que da para otros muchos artículos, pero me ha gustado la última frase de la respuesta anterior, que es chula. Solo por decirme cosas tan bonitas ya lo quiero más.