El costo de inferencia de los modelos de lenguaje grandes está disminuyendo rápidamente” analiza cómo el costo de utilizar modelos de lenguaje grandes (LLMs) ha disminuido drásticamente en los últimos años.
En noviembre de 2021, cuando GPT-3 se hizo público, lograr una puntuación MMLU de 42 costaba $60 por cada millón de tokens. Para noviembre de 2024, modelos como Llama 3.2 3B ofrecían la misma puntuación por solo $0.06 por millón de tokens, evidenciando una reducción de costos de 1,000 veces en tres años.
Este fenómeno, denominado “LLMflation”, implica que el costo de inferencia para modelos de rendimiento equivalente está disminuyendo aproximadamente 10 veces cada año. Esta tendencia supera la velocidad de reducción de costos observada durante la revolución de las PC o el auge de Internet, sugiriendo que la revolución de la inteligencia artificial continuará avanzando significativamente en los próximos años.
La disminución de costos se atribuye a varios factores
Mejor rendimiento de las GPU
Las mejoras en las unidades de procesamiento gráfico han permitido realizar las mismas operaciones de manera más eficiente y económica.
Cuantificación de modelos
La reducción en la precisión de bits durante la inferencia, pasando de 16 bits a 4 bits, ha incrementado la eficiencia sin comprometer significativamente el rendimiento.
Optimización de software
Mejoras en los algoritmos y en la gestión de la memoria han reducido la cantidad de recursos necesarios para ejecutar estos modelos.
Modelos más pequeños y eficientes
Actualmente, existen modelos con mil millones de parámetros que superan el rendimiento de modelos mucho más grandes de hace solo tres años.
Aunque es difícil predecir si esta tendencia continuará al mismo ritmo, la reducción de costos ya ha permitido la aparición de nuevas aplicaciones de inteligencia artificial que antes no eran viables económicamente. Por ejemplo, procesar todo lo que una persona dice en un año utilizando un modelo LLM de nivel GPT-3 ahora costaría aproximadamente $2, lo que abre posibilidades para asistentes de voz y otras aplicaciones similares.
FUENTE: