Raramente la publicación de un artículo de investigación habrá tenido un impacto tan grande en la Bolsa. Desde hace una semana, los gigantes de los chips de memoria han visto caer sus acciones, borrando parte de las ganancias espectaculares acumuladas en el último año. La causa: una nueva tecnología revelada por investigadores de Google, que vislumbra una reducción significativa de la memoria necesaria para hacer funcionar modelos de inteligencia artificial generativa. Este avance podría permitir reducir los costos de inferencia, al tiempo que afecta la demanda de ciertos chips.
El impacto en los fabricantes de memoria es difícil de determinar. Por un lado, porque la tecnología sigue en la etapa de investigación, sin garantía de aplicaciones a gran escala o visibilidad sobre los beneficios reales. Por otro lado, los beneficios podrían ser compensados por un aumento en el uso, favorecido por la disminución de los costos de la IA. Además, la demanda por estos chips sigue siendo mucho mayor que la oferta. La reacción de los mercados ilustra una ambivalencia persistente entre perspectivas comerciales considerables y temores de una posible burbuja.
El auge de la IA generativa no se basa solo en una enorme potencia de cálculo proporcionada por tarjetas gráficas. También se apoya en enormes cantidades de memoria, suministradas por diferentes tipos de chips, en particular las memorias HBM, indispensables para el entrenamiento de los modelos. Este apetito masivo ha causado una crisis de subproducción, llevando a una reasignación de capacidades hacia los componentes dedicados a la IA y a un aumento de los precios. Las repercusiones se extienden más allá del sector, afectando también los chips utilizados en smartphones y PC.
Concretamente, la innovación de los equipos de Google interviene en la fase de inferencia, es decir, en el proceso de generación de texto o imagen. Se trata de un algoritmo de compresión de modelos de IA capaz de reducir drásticamente la memoria necesaria «sin pérdida de precisión». En las pruebas realizadas con varios modelos de código abierto, se logró una reducción de seis veces. «Su implementación es excepcionalmente eficaz y con una carga de ejecución negligente (es decir, costos adicionales, nota del editor)», afirman también los investigadores.
Sin embargo, estos aumentos de eficiencia no se aplican a todo el proceso. Incluso si los resultados de las pruebas se confirmaran en condiciones reales, no se traducirían en una reducción de seis veces en los requisitos totales de memoria. La técnica de compresión desarrollada por Google podría, sin embargo, llevar a una disminución significativa de los costos de inferencia, un avance potencialmente crucial, ya que el desarrollo de agentes de IA debería multiplicar los usos. También podría permitir la ejecución de modelos localmente, sin tener que soportar los costos de una plataforma en la nube.
Los analistas consideran, sin embargo, que las preocupaciones del mercado sobre la demanda de memoria son exageradas. Se presentan tres argumentos. Por un lado, los chips HBM, los más lucrativos, no deberían verse afectados. Por otro lado, los aumentos de eficiencia permitirían operar más modelos con una cantidad constante de memoria, en lugar de reducir los volúmenes necesarios para un uso equivalente. Finalmente, la disminución de los costos de inferencia podría acelerar aún más la implementación de IA, un fenómeno conocido como el paradox de Jevons.
Para más información: – Nvidia está realizando un cambio estratégico con su primer chip dedicado a inferencia. – La IA impulsa las ganancias de Samsung y SK Hynix.





