Revolución en la IA: La Drástica Reducción de Costos en Modelos de Lenguaje Grandes

El costo de inferencia de los modelos de lenguaje grandes está disminuyendo rápidamente” analiza cómo el costo de utilizar modelos de lenguaje grandes (LLMs) ha disminuido drásticamente en los últimos años.

En noviembre de 2021, cuando GPT-3 se hizo público, lograr una puntuación MMLU de 42 costaba $60 por cada millón de tokens. Para noviembre de 2024, modelos como Llama 3.2 3B ofrecían la misma puntuación por solo $0.06 por millón de tokens, evidenciando una reducción de costos de 1,000 veces en tres años.

Este fenómeno, denominado “LLMflation”, implica que el costo de inferencia para modelos de rendimiento equivalente está disminuyendo aproximadamente 10 veces cada año. Esta tendencia supera la velocidad de reducción de costos observada durante la revolución de las PC o el auge de Internet, sugiriendo que la revolución de la inteligencia artificial continuará avanzando significativamente en los próximos años.

La disminución de costos se atribuye a varios factores

Mejor rendimiento de las GPU

Las mejoras en las unidades de procesamiento gráfico han permitido realizar las mismas operaciones de manera más eficiente y económica.

Cuantificación de modelos

La reducción en la precisión de bits durante la inferencia, pasando de 16 bits a 4 bits, ha incrementado la eficiencia sin comprometer significativamente el rendimiento.

Optimización de software

Mejoras en los algoritmos y en la gestión de la memoria han reducido la cantidad de recursos necesarios para ejecutar estos modelos.

Modelos más pequeños y eficientes

Actualmente, existen modelos con mil millones de parámetros que superan el rendimiento de modelos mucho más grandes de hace solo tres años.

Aunque es difícil predecir si esta tendencia continuará al mismo ritmo, la reducción de costos ya ha permitido la aparición de nuevas aplicaciones de inteligencia artificial que antes no eran viables económicamente. Por ejemplo, procesar todo lo que una persona dice en un año utilizando un modelo LLM de nivel GPT-3 ahora costaría aproximadamente $2, lo que abre posibilidades para asistentes de voz y otras aplicaciones similares.

FUENTE:

https://a16z.com/llmflation-llm-inference-cost