Hoy quería probar un rato
DeepSeek V3 con DeepThink R1, que desde su irrupción con la estructura de costes y calidad que lo ha hecho ha revuelto el mundo de la
Inteligencia Artificial, con los datos de eficiencia que aporta, y el impacto que tiene en las inversiones realizadas y anunciadas por empresas en este mundo.
El modelo es un modelo
LLM OpenSource, y está publicado íntegramente en su repositorio de
GitHub DeepSeek V3, donde cualquiera se puede descargar el código del modelo, junto con el
paper, pero también te puedes descargar el modelo entrenado que
está disponible en Hugging Face.
Esto permite que cualquiera lo pueda utilizar en sus sistemas y aplicaciones, lo que se espera que desarrolle un poco más, acelerando la adopción, el mundo de la IA en el que ya estamos inmersos de una manera imparable. Ahí, además, tienes a disposición el paper académico que explica cómo han entrenado el modelo para conseguir hacerlo por un coste de 5,5 M€, lo que sería un dato espectacular de reducción de la barrera de entrenamiento que suponían hasta el momento los costes de tener entrenado un LLM competitivo.
En el paper académico se explica todas las decisiones de optimización que han ido utilizando para conseguir hacerlo de manera tan eficiente, consumiendo muchas menos horas de entrenamiento, lo que abarata los costes de ese proceso. Pero claro, nada de eso serviría si se ha hecho a coste de reducir la calidad, para lo que con el paper publican los ratings en los benchmarks más utilizados comparándolos con GPT-4o y Claude 3.5 Sonnet, tal y como podéis ver en la tabla siguiente.
El modelo se ha entrenado utilizando entrenamiento por refuerzo, dejando de la lado la parte de entrenamiento supervisado con datos etiquetados, y con foco en que desde el principio fuera capaz de razonar las respuestas, algo que puedes ver con el DeepThink R1 si lo activas.
Como podéis ver, ante la pregunta anterior, primero dedica una fase de análisis de la pregunta haciendo una estructura de razonamiento que se convertirá después en el Prompt definitivo con el que el modelo construye la respuesta.
Figura 6: Con el análisis del Prompt genera una respuesta
O lo que es lo mismo, es como si dado un Prompt Original utilizase primero un Prompt de Análisis del Prompt Original para después hacer Prompt Engineering al motor para generar la respuesta. Y así lo podéis ver en los ejemplos, donde te muestra el "razocinio" basado en el análisis del prompt.
Figura 7: Preguntado por Dirtytooh no tiene info
En el caso anterior intenta analizar
Dirtytooth, pero no tiene información en sus datos de entrenamiento, por lo que genera una respuesta fallida sobre la técnica.
Figura 8: Respuesta fallida sobre DirtyTooth
Con esta información, he intentado (varias veces), completar la información utilizando la búsqueda de Internet que permite usar también
DeepSeek, pero no ha sido posible porque la alta demanda de uso del sistema.
Figura 9:La opción de Search estaba saturada
Haciéndole la misma pregunta a
Perplexity Pro, con su conexión a
Internet, sí que nos da la información correcta sobre
DirtyTooth, lo que me hace suponer que cuando el
Search de
DeepSeek esté
ok, probablemente funcione también.
En cuanto al modelo, por supuesto, sigue contando con sus alucinaciones, como podéis ver en este caso, donde le pregunto por "
Un informático en el lado del mal". Primero, podéis ver el razonamiento de
DeepThinking R1.
Figura 11: Razonamiento para preparar la respuesta
Y el resultado tiene muchas alucinaciones, como que nació en 2005, y ya sabéis vosotros que fue en 2006. Además, dice que soy un ex-CSO que no es correcto, o que soy el Chief Digital Consumer Officer, que es un cargo antiguo, pero además dice que es en Microsoft en lugar de en Telefónica.
Figura 12: Alucinaciones en la respuesta.
También lo he querido probar en su versión de app para iPhone, y el resultado es, similar. Hace primero un Prompt de Análisis del Prompt con el DeepThinking R1 y luego construye la respuesta de manera completa.
Figura 13: DeepThinking y Respuesta en DeepSeek
No voy a hablar mucho con los datos que se usaron para entrenar este modelo, que da para otros muchos artículos, pero me ha gustado la última frase de la respuesta anterior, que es chula. Solo por decirme cosas tan bonitas ya lo quiero más.
Figura 14: DeepSeek sobre Chema Alonso
¡Saludos Malignos!