Futuro del entrenamiento de modelos de IA, desde el punto de vista de inversión tecnológica
Cómo la eficiencia en el entrenamiento de IA redefine la inversión tecnológica
En un análisis realizado por OpenAI titulado “Inteligencia Artificial y computación” se llegaba a la conclusión que desde el año 2012, la cantidad de poder computacional necesario para entrenar modelos de IA se ha duplicado cada 3,4 meses (en comparación con la ley de Moore que se duplica cada dos años). Desde 2012, esta métrica ha crecido en más de 300,000 veces (un período de duplicación de 2 años solo produciría un aumento de 7 veces).
Las mejoras en el cómputo han sido un componente clave del progreso en IA, así que mientras esta tendencia continúe, vale la pena prepararse para las implicaciones de sistemas que están muy por fuera de las capacidades actuales.
Lambda Labs, un proveedor de servicios cloud, estimó que el coste computacional necesario para entrenar un modelo como GPT-3 (de 175 B) es de 4,6 millones de dólares. Si a esto le sumamos el coste energético, que es de 1287 MWh, queda claro que hay que buscar sistemas que puedan reducir el tremendo coste computacional de entrenar modelos tal y como lo hacemos hoy en día.
Para solucionar este problema solo hay dos caminos, o que el poder de procesamiento de los ordenadores crezca al mismo ritmo que lo hace el desarrollo de la IA (hardware) o que haya una mayor eficiencia en los modelos, la forma de entrenarlos y los propios algoritmos (software)
Por suerte, hay diferentes estudios y campos abiertos para atajar este problema de raíz, donde en algunos casos ya se han encontrado diferentes soluciones como las que detallo a continuación y otras que están por venir.
Hardware más eficiente
Quien está liderando este campo en sin duda NVDIA, con sus modernas GPUs (unidad de procesamiento gráfico) Sus potentes microprocesadores, son la base de muchas aplicaciones de IA
Google por ejemplo desarrolló para este fin las TPUs (Unidad de procesamiento tensorial), un circuito integrado de aplicación específica y acelerador de IA para el aprendizaje automático con redes neuronales artificiales y optimizado para usar TensorFlow, la biblioteca de código abierto para aprendizaje automático.
Otros de los problemas relacionados con el hardware es el enfriamiento de los datacenters donde están los servidores que están entrenando estos modelos de IA. Al procesar de forma continua los datos necesarios para el entrenamiento de modelos, los equipos generan una gran cantidad de calor y se deben enfriar para evitar el sobrecalentamiento y que funcionen de forma óptima.
Esto que parece una obviedad, es un gran mercado creciente. Según un estudio de la consultora Astute Abalytica, el año pasado este mercado facturó 8.490 millones de dólares y las proyecciones indican que este crecimiento continuará, y se espera que el mercado alcance una valoración de 26.070 millones de dólares en 2031, lo que se traduce en una CAGR del 13,82%.
Empresas como Microsoft empezaron a investigar soluciones para este problema, y en 2015 trabajó con datacenters bajo el mar, algo que ya está siendo utilizado hoy en dia, y desde hace un par de años utilizan la ebullición a baja temperatura, una técnica que trata de sumergir los servidores en unos tanques de almacenamiento de acero cubiertos con un líquido especial que, al hervir con el calor que generan los propios servidores, disipa el calor que producen las máquinas al estar funcionando.
También comienzan a aparecer algunas empresas que están estudiando la posibilidad de crear datacenters en el espacio como Thales Alena Space o Lonestar, startup que recaudó más de 5 millones de dólares para tal fin.
Algoritmos más eficientes (Software)
Otro de los puntos de mejora que existen para abaratar el coste energético y computacional, será en la mejora de los algoritmos, la selección de los modelos, y la forma de entrenamiento de los mismos.
Las startups no siempre implementan el algoritmo más eficiente. Esto suele ocurrir por dos motivos, o simplemente porque no conocen otro mejor, o porque implementar el mejor supone demasiado coste para la fase en la que están. Con lo cual como inversor, hay que vigilar con que se construye un producto y cual va a ser el coste de entrenarlo o cambiarlo en un momento determinado.
Del mismo modo, la elección del modelo también es un factor determinante, no por tener un modelo mayor con más datos voy a tener más ventajas (lo que si voy a tener es un mayor coste en el entrenamiento, en el fine-tuning y el re-entrenamiento), por tanto aquí hay otro punto clave.
De hecho ya hay investigadores centrándose en crear modelos de lenguaje más pequeños, algunos 10.000 veces más pequeños que un LLM como puede ser BabyLLM, cuya idea es hacer que su modelo de lenguaje aprenda de la misma forma en que lo hace un niño, basado en el conjunto de datos (o palabras) a los que un niño está expuesto. Un modelo más pequeño tarda menos tiempo y recursos en entrenarse y, por lo tanto, consume menos energía.
Por no volverme demasiado técnico, que parece que no lo estoy logrando, solo mencionaré 3 tipos de algoritmos que se presuponen más eficaces, como puede ser los algoritmos de poda (pruning algorithm), que básicamente recorta o elimina parámetros no esenciales (podar) de una red existente para mantener la precisión y aumentar su eficiencia. Los algoritmos cuantificados (quantization algorithms), que disminuyen la precisión de los cálculos para acelerar el entrenamiento y reducir el uso de memoria y los métodos de transferencia de aprendizaje (transfer learning efficiency), que aprovechan modelos previamente entrenados para tareas similares y así ahorrar costes. Usando este tipo de algoritmos se mejora el coste en el entrenamiento de los modelos.
Una vez vistos mejoras que podemos realizar en algoritmos y en hardware, veamos otros formas con las que podemos ahorrar costes en los entrenamiento de los modelos de Inteligencia Artificial:
Aprendizaje incremental: Aunque existen 3 tipos diferentes de aprendizaje incremental, básicamente este sistema permite re-entrenar un modelo únicamente con datos nuevos, sin necesidad de volver a entrenar todo el modelo, sin sufrir olvido catastrófico y manteniendo la precisión en la inferencia.
RAG para AI generativa: RAG (Retrieval-Augmented Generation): Un sistema que permite recuperar información relevante durante la generación de texto, lo que permite entrenar modelos de manera más eficiente y con menor dependencia de grandes conjuntos de datos.
Redes neuronales líquidas: Un modelo de red neuronal que se caracteriza por su plasticidad y capacidad para adaptarse a nuevos datos durante su funcionamiento. Este tipo de redes neuronales se suele utilizar en aquellos modelos donde los datos cambian de forma constante, por ejemplo en la conducción autónoma.
También se comienza a investigar otras posibles soluciones a largo plazo, como puede ser la computación cuántica y la energía. Mientras la computación cuántica ofrece avances en la eficiencia del procesamiento y la capacidad de resolver problemas complejos más rápidamente, la energía nuclear podría proporcionar una fuente de energía sostenible y de alta capacidad para alimentar la creciente demanda energética de los centros de datos de IA.
El problema del coste en recursos del entrenamiento de los modelos de IA afectará directamente a la velocidad de propagación e innovación de esta tecnología y sin duda alguna, veremos muchas oportunidades para nuevas y prometedoras startups en este campo. Pero no solamente eso, saber detectar las compañías que estén optimizando estos recursos será tan importante como aquellas que sean eficientes en capital.
Soy Rubén Colomer, General Partner en Next Tier Ventures, y esto es “Descifrando el futuro”, una Newsletter sobre Inteligencia Artificial e Inversión en startups. Si te interesa este mundo, suscríbete ahora!