La inteligencia synthetic y la IA agente están reestructurando lo que significa “almacenamiento” en la empresa, moviéndola de un repositorio estático a un tejido distribuido y de alta velocidad que abarca nubes, sitios y límites heredados, siempre listo para la próxima decisión.
Esta evolución está impulsando arquitecturas más allá de los silos tradicionales, según Vince Chen (En la foto, fila inferior, izquierda), el director senior de arquitectura de soluciones en Tremendous Micro Laptop Inc. diseños de varios sitios, las interconexiones fotónicas y las tuberías de datos de transmisión permiten la orquestación en tiempo actual a escala masiva. El resultado es el almacenamiento que no solo contiene datos, sino que se mueve, conecta y alimenta la capacidad de respuesta instantánea que requieren los sistemas de IA de próxima generación.
Expertos de Supermicro, DDN, AMD y Western Digital hablan con Thecube sobre la construcción de infraestructura de almacenamiento capaz de impulsar la IA agente a escala.
“No es solo un almacenamiento dedicado”, dijo Chen. “Probablemente necesite ampliar su punto de vista sobre la búsqueda potencial de múltiples partes y luego cómo administra sus datos en varios sitios”.
Chen habló con Rob Strechay al Cumbre de almacenamiento Open Supermicrodurante una transmisión exclusiva en Thecube, el estudio de transmisión en vivo de Siliconangle Media. Se les unió Balaji Venkateshwaran (Fila inferior, derecha), Vicepresidente de Gestión de Productos de AI en DataDirect Networks Inc.; Kevin Kang (High Row, Left), gerente senior de advertising and marketing de productos y gestión de productos en Superior Micro Gadgets, Inc.; Praveen Midha (High fila, derecha), Director de Segmento y Advertising Técnico – Knowledge Middle Flash – en Western Digital Corp. El grupo desempaquetó las consideraciones técnicas y estratégicas de la infraestructura de almacenamiento de construcción capaz de alimentar sistemas de IA de agente a escala. (* Divulgación a continuación).
La IA agente exige un nuevo paradigma de almacenamiento
El surgimiento de la IA agente está empujando las arquitecturas de almacenamiento a sus límites. Estos sistemas deben manejar volúmenes masivos de datos de alta velocidad y baja latencia, al tiempo que se integran a la perfección con las capas de cómputo y redes. Las cargas de trabajo de inferencia en specific se están volviendo más complejas, con arquitecturas en evolución que requieren escala y flexibilidad para mantenerse al día, según Midha. Esta complejidad a menudo proviene de las múltiples fases requeridas para procesar y generar respuestas en tiempo actual.
“2025 es realmente el año de inferencia y IA de agente porque en realidad estábamos bajo la cantidad de cómputo y almacenamiento en la que la inferencia y la IA agente se traducirían”, dijo Midha. “Si hace doble clic debajo del capó, lo que vemos es que la inferencia es realmente un proceso de dos etapas. Hay un pre-relleno y hay una decodificación. El pre-relleno es realmente donde toma los tokens de entrada, comienza a construir el contexto en este búfer intermedio llamado el [key value] Cache, y luego, en el lado de la decodificación, en realidad comienza a emitir tokens, y luego también toma estos tokens y vuelve a construirlo en el caché de KV para mantener realmente todo el contexto “.
Cumplir con esos requisitos significa tratar más del conjunto de datos como “caliente” y listo para la recuperación en cualquier momento, según Venkateshwaran. Esto requiere un cambio de un modelo de iceberg, donde solo una pequeña porción estaba caliente y el resto frío, a un mundo donde todo el iceberg está activo.
“Ahora todo es los datos en los que podría extraer en cualquier momento que lo haga [retrieval-augmented generation] Inferencia, extrae datos en cualquier momento “, dijo Venkateshwaran.” Ahí es donde está la IA agente, y eso significa que debe poder administrar activamente el conjunto de datos completo “.
Cada etapa de la ruta de datos de IA, desde ingerir y preparar grandes conjuntos de datos secuenciales hasta habilitar la inferencia en tiempo actual y de baja latencia, viene con demandas únicas de almacenamiento y cómputo, según Kang. AMD ofrece una cartera de pila completa de CPU, GPU, Smartnics, DPU y software program diseñados para administrar los flujos de datos de manera eficiente, mover datos directamente a la memoria GPU y minimizar la latencia entre las tuberías de IA.
“Dado que nos estamos mudando a la IA agente, no solo la IA que da respuestas, la IA hoy aprende por sí misma, se adapta y toma las acciones después de eso”, dijo Kang. “Por lo tanto, el sistema necesita acceder a los datos rápidamente, usarlos bien y actualizar los datos en tiempo actual”.
Asociación de soluciones de IA de pila escalable y escalable
Ninguna empresa puede satisfacer todas las demandas de AI agente sola. Las soluciones escalables de extremo a extremo requieren una estrecha colaboración entre proveedores de {hardware}, proveedores de software program e integradores de sistemas, según Chen. Estas asociaciones aseguran que los componentes de infraestructura no solo sean compatibles, sino que sean optimizados para las cargas de trabajo a las que sirven.
“Con la arquitectura, es casi como no tener límite para escala y apoyar el crecimiento de la demanda de los clientes”, dijo Chen. “Para los clientes con diferentes infraestructuras y diferentes requisitos, estamos aquí para trabajar con los socios para que podamos diseñar, arquitectos y ofrecer las mejores soluciones”.
Minimizar el movimiento de datos es otra clave para la infraestructura de IA escalable. El exceso de salida de datos crea latencia y cuellos de botella que pueden socavar incluso los entornos de cómputo más potentes, según Venkateshwaran.
“La otra cosa es poder minimizar el movimiento de datos para que no tenga que hacer salida y datos porque eso introduce latencia, introduce demora y cuellos de botella de rendimiento”, dijo. “Infinia tiene una arquitectura especial que minimiza el movimiento de datos. Y no solo eso, debido a la amplia capacidad de etiquetar, el etiquetado casi ilimitado, que es la primera vez en la industria, para poder etiquetar todos los datos para que pueda encontrar rápidamente cuándo necesita encontrarlo”.
Maximizar la utilización de GPU con almacenamiento de alto rendimiento
Las GPU son caras, y mantenerlos completamente utilizados es esencial para entregar un retorno de la inversión en inversiones de IA. El almacenamiento especialmente diseñado puede eliminar los cuellos de botella y garantizar que las GPU reciban datos lo suficientemente rápido como para trabajar en la máxima eficiencia, según Venkateshwaran. Señaló una implementación reciente en la que un cambio de almacenamiento dirigido ofreció ganancias de rendimiento dramáticas.
“Cuando reemplazamos la tienda de objetos de AWS con Almacenamiento de objetos infiniosno hay otros cambios, vimos una aceleración tremenda, lo que significa la mejora en la latencia, lo que resulta en la aplicación de la aplicación de 22 “, dijo Venkateshwaran.” Eso le muestra el poder de diseñar y desarrollar la gestión de almacenamiento correcta y el software program de inteligencia de datos requerido para cumplir con las aplicaciones exigentes como AGENIC AI “.
El rendimiento de la GPU también está vinculado a la eficiencia energética. Con las GPU que consumen aproximadamente 10 veces más potencia que las CPU, pueden dominar tanto los presupuestos de infraestructura como los gastos operativos, según Midha.
“Creo que el poder es lo más importante para todos hoy, especialmente para los arquitectos del centro de datos”, dijo. “Las GPU tienen hambre de energía; tienen casi 10 veces más hambre de poder que las CPU. Si está trabajando con un cierto presupuesto, una gran parte de eso se está asignando a las GPU, lo que significa que tiene menos parte de la billetera en el lado de almacenamiento. [that] Las tasas de potencia son en realidad diferentes en diferentes geografías, y en realidad se está convirtiendo en la mayor restricción cuando está diseñando nuevos centros de datos o manteniendo las existentes “.
Aquí hay un breve clip de nuestra entrevista, parte de la cobertura de Siliconangle y Thecube del Cumbre de almacenamiento Open Supermicro:
(* Divulgación: Thecube es un socio de medios pagado para la Cumbre de Almacenamiento Open Supermicro. Ni Tremendous Micro Laptop Inc., el patrocinador de la cobertura de eventos de TheCube, ni otros patrocinadores tienen management editorial sobre el contenido en Thecube o Siliconangle).
Foto: Siliconangle
Apoye nuestra misión de mantener el contenido abierto y gratuito comprometiéndose con la comunidad de Thecube. Únase a la pink de Alumni Belief de Thecubedonde los líderes tecnológicos se conectan, comparten inteligencia y crean oportunidades.
- 15m+ movies de espectadores de thecubeimpulsando conversaciones a través de IA, nubes, ciberseguridad y más
- 11.4k+ alumnos de thecube -Conéctese con más de 11,400 líderes tecnológicos y empresariales que dan forma al futuro a través de una pink única basada en confianza.
Acerca de Siliconangle Media
Fundada por los visionarios tecnológicos John Furrier y Dave Vellante, Siliconangle Media ha construido un ecosistema dinámico de marcas de medios digitales líderes en la industria que alcanzan más de 15 millones de profesionales de la tecnología de élite. Nuestra nueva nube de video de IA de THECUBE está abriendo firme en la interacción de la audiencia, aprovechando la pink neuronal de thecubeai.com para ayudar a las empresas de tecnología a tomar decisiones basadas en datos y mantenerse a la vanguardia de las conversaciones de la industria.