La hipótesis del escalado de la inteligencia artificial hasta llegar a la AGI
Mejorar cualitativamente sería, por tanto, una cuestión cuantitativa: sólo necesitamos más datos para entrenar, datacenters más grandes y más horas, días, meses de computación.
Es el concepto que más dinero ha movilizado en el mundo los últimos dos años.
Se trata de la hipótesis del escalado en los modelos grandes de lenguaje en la inteligencia artificial generativa.
Es la premisa de que, al incrementar la escala de los modelos de redes neuronales, los datos de entrenamiento y la capacidad computacional, se seguiría mejorando el rendimiento, las habilidades y la capacidad de generalización de estos sistemas de IA.
Mejorar cualitativamente sería, por tanto, una cuestión cuantitativa: sólo necesitamos más datos para entrenar, datacenters más grandes y más horas, días, meses de computación.
Se entiende por qué en OpenAI y gran parte de la industria están tan apegados a la hipótesis del escalado. Es lo que sacó al machine learning de ser un juguetito académico, como Ilya explicó en lo de Fridman. En la que entonces era su compañía habían publicado ya las “Leyes de escalado para modelos neuronales del lenguaje” (con la firma de Dario Amodei, ahora CEO de Anthropic) y tenían parte de razón: cuando se lanzó GPT-4 tras mucho más entrenamiento, más datos y más capacidad de computación, la mejora respecto GPT-3 fue enorme, la curva parecía exponencial.
Y esto había pasado ya en el salto anterior. Como dijo Hinton “si extrapolamos al futuro el espectacular rendimiento de GPT-3, parece que la respuesta a la vida, el universo y todo lo demás se encuentra en 4,398 billones de parámetros”.
Hasta que esta semana llegó Ilya Sutskever y mando parar.
Y lo ha hecho en medio de la tormenta. Reuters, Bloomberg, The Information citan fuentes en los laboratorios para pintar un cuadro particular de OpenAI: decepción con el desempeño de su próximo modelo, Orion. Aunque supera a versiones anteriores, la mejora es significativamente menor comparada con el salto entre GPT-3 y GPT-4. Y un cuadro general: el resto de competidores también están en una situación similar.
Y en este contexto que tenemos la declaración más importante del año en el mundillo de la inteligencia artificial (y por ende, del sector tecnológico), la de Ilya Sutskever a Reuters.
El que fuera jefe de investigación de OpenAI y gran defensor de la hipótesis de escalado, matiza: “La década de 2010 fue la era de la escala. Ahora estamos de nuevo en la era del descubrimiento”. Los resultados del preentrenamiento - la fase de formación de un modelo de inteligencia artificial que utiliza una gran cantidad de datos sin etiquetar para comprender patrones y estructuras lingüísticas- se han estancado.
¿Por qué es tan importante esta hipótesis del escalado?
Si es correcta, la búsqueda de esa inteligencia artificial general de nivel humano es ya una tarea de ingeniería. Ya hemos descubierto la base científica, sólo necesitamos añadir más datos, más GPUs, más horas de procesamiento.
En el lado económico tendríamos el escenario tan esperado por muchos profetas, el de gran desilusión, “estallido de la burbuja de la IA”. Las inversiones y valoraciones sólo se entienden si va a automatizar millones de empleos de cuello blanco o al menos parte de sus tareas.
En lo técnico, si los modelos base no siguen mejorando como hasta ahora, las dudas de tener una “inteligencia” sobre la que construir agentes autónomos aumentan.
¿Estamos ante el temido momento en el que “el deep learning se ha pegado contra un muro”?. Invierno de nuevo en la inteligencia artificial, como en toda intento anterior de desarrollarla.
Tal vez no deberíamos apresurarnos tanto. No sólo porque ya hay mucho valor que los modelos actuales están aportando industrial y personalmente, sino porque hay otros caminos por los que la mejora de la inteligencia artificial es posible.
Incluso algunos de mejores científicos escépticos ven caminos de mejora: Lecun lleva años señalando que la IA necesita de un modelo del mundo del que carece ahora mismo, Chollet suele insistir en que el cuello de botella son los datos de entrenamiento y en que, por sí solo, el deep learning no llevará a la AGI.
Para avanzar, por tanto, necesitaríamos innovación en el modelo. Avance científico y no sólo ingenieril. Eso y que la parte de entrenar con los datos sintéticos (creados con sistemas de IA) acabe funcionando.
En ambos frentes se está trabajando, pero no se puede contar con ellos por seguro a estas alturas de 2024. No a menos que no compremos el discurso actual de algunos popes de la industria. En el último episodio de monos discutimos como conviven el debate público las predicciones de grandes saltos adelante (la AGI en 2025, 26 o 27) y este debate del muro.
También dice Sam que no hay muro. Lo que no quiere decir que la hipótesis del escalado del entrenamiento se mantenga en sus laboratorios. Es probable que, como explicamos en el episodio, vean el futuro en “escalar en otro lado”: en lugar de cuando entrenan el modelo, cuando lo ejecutan.
Más tiempo de “inferencia”, de “dejar pensar a la IA”, llevan a mejores resultados como demuestran los modelos o1. Desde OpenAI insisten también en que los benchmarks, las pruebas con las que se mide la mejora, no están bien diseñados para capturar lo que está sucediendo.
El debate de la hipótesis del escalado tiene las patas cortas. Como hemos discutido en el podcast y en la lista, GPT-5 debería ser un momento de la verdad. Si hay agentes confiables en 2025 hasta el punto de poder darles nuestra tarjeta de crédito, otro. Parece un buen momento para estar atento a todo lo que está pasando en inteligencia artificial.