En el mundo nativo de la nube precise, las empresas necesitan aplicaciones de IA que sean eficientes, funcionales y construidas a escala. Pero cumplir con esas expectativas a menudo se cut back a una cosa: la infraestructura. La inferencia de IA puede ser una carga de trabajo especializada, pero en esencia, sigue siendo un trabajo de cómputo, entonces, ¿qué herramientas pueden ayudar a escalarlo de manera confiable en una empresa?
Poonam Lamba y Eddie Villalba de Google discuten a GKE por la inferencia de IA con Thecube.
Esa es la pregunta que Poonam Lamba y Eddie Villalba exploraron en una conversación con Thecube, el estudio de transmisión en vivo de Siliconangle Media, que se sumerge en cómo Google Kubernetes Engine está diseñado para manejar las demandas de la inferencia moderna. Con flexibilidad de tiempo de ejecución, bibliotecas ricas y un estilo de configuración acquainted para los desarrolladores internet, Kubernetes está evolucionando desde el orquestador de contenedores a la pink troncal de operaciones de IA,
“[Kubernetes] resolvió muchos de los problemas que las organizaciones enfrentaron en ese momento ”, dijo Eddie Villalba (En la foto, en el medio), Gerente de producto saliente en Google Cloud. “Ahora, si piensas en AI … AI es solo otra carga de trabajo. Es una carga de trabajo, pero especializada. Luego hay un par de lados diferentes de IA, pero queremos hablar sobre servir la inferencia, donde los usuarios finales realmente usan el producto”.
Villalba y Poonam Lamba (Izquierda), Gerente de Producto Senior de la inferencia de GKE AI y las cargas de trabajo con estado, Google Cloud habló con THECUBE Savannah Peterson (derecha) para el “Google Cloud: pasaporte a contenedores” serie de entrevistas, durante una transmisión exclusiva en TheCube. Discutieron a GKE como un poderoso aliado en el despliegue de grado empresarial de Gen AI. (* Divulgación a continuación).
Kubernetes como la columna vertebral de la inferencia de IA
Mientras que Kubernetes se vio inicialmente como una herramienta de orquestación de contenedores de uso normal, ahora está firmemente arraigada como una capa basic para la inferencia de IA a escala. De la misma manera que un estudiante absorbería información durante el semestre y la aplicaría en exámenes posteriores, las tareas de inferencia capacitaban a los modelos de IA para generar resultados basados en nuevos datos, y el conjunto de herramientas único de Kubernetes permite tales operaciones.
“Supongamos que ha capacitado a un modelo, ahora tomará ese modelo, la configuración que necesita ejecutar ese modelo (las bibliotecas, el entorno de tiempo de ejecución, como TensorFlow o Pytorch o Jax, empaquetará todas estas cosas en un contenedor, y ahora esto se convierte en una unidad portátil que tomará desde sus pruebas hasta la producción”, dijo Lamba.
GKE se destaca por su capacidad para manejar cargas de trabajo complejas y explosivas, como la inferencia de IA. Según Villalba, hace todo eso con la versatilidad de una buena cocina de comedor, capaz de producir platos simples o comidas complejas con facilidad. Así como los cooks necesitan acceso a herramientas especializadas, la inferencia de IA exige acceso a aceleradores especializados como GPU y TPU.
“Si piensas en lo que es GKE, es una cocina muy complicada y muy organizada que tiene todo el equipo que necesitas”, dijo. “Pero cuando necesito crear esa carne de res Wellington, puedo. Cuando necesito crear solo un montón de ensalada, puedo. Cuando necesito servir servicios internet, es fácil; Gke ya estaba construido para eso. Ahora, con todas esas primitivas en las API … El acelerador es solo otro recurso, y es otro API. KuberneSe siempre es bueno que asigne recursos para su compuesto, el recurso es solo otro recurso, ahora es otro recurso, ahora es otro recurso de recursos. para esa carga de trabajo “.
GKE Inference Gateway sirve como un equilibrador de carga más inteligente
Los equilibradores de carga tradicionales no fueron diseñados para la IA. Es por eso que Google creó GKE Inference Gateway, un stability de carga consciente de modelos, consciente de acelerador, diseñado específicamente para inferencia. A diferencia del enrutamiento sin estado convencional, la puerta de enlace de inferencia considera datos en tiempo actual con versiones del modelo, prioridad de solicitud, utilización de caché de KV y profundidad de colas, según Lamba.
“Lo que hace es cuando envía solicitudes a la puerta de enlace de inferencia, puede especificar el nombre del modelo”, dijo. “Si tiene diferentes modelos o tiene múltiples versiones del mismo modelo, puede especificar todo eso en el cuerpo de solicitudes. También puede especificar si la solicitud entrante es crítica, estándar o algo que puede soltar. Por lo tanto, dependiendo de todos esos datos, la puerta de enlace de inferencia resolve para enrutar su solicitud, pero también hay más. También está recopilando metrices en tiempo actual de la Utilización de KV-Cache y la actualización y la que está sucediendo en el Servidor de Modelo.
Para abordar aún más las necesidades únicas de la inferencia de IA, GKE ha introducido clases de cómputo personalizadas y el planificador dinámico de carga de trabajo. Estas características permiten a los clientes a definir su rendimiento deseado y perfiles de costos, agregó Villalba.
“Cuando estoy sirviendo algo, estoy golpeando a un usuario last y necesito hacer feliz su experiencia”, dijo. “Debo asegurarme de que los recursos necesarios estén disponibles en todo momento. Las clases de cómputo personalizadas son una forma para que nuestros clientes obtengan la capacidad que necesitan cuando lo necesitan en un orden prioritario que decidan, pero que a veces también de la manera más equitativa”.
Aquí está la entrevista de video completa, parte de la cobertura de Siliconangle y Thecube Analysis del Serie de entrevistas “Google Cloud: Passport to Containers”:
https://www.youtube.com/watch?v=piucjsh5wm8
(* Divulgación: Thecube es un socio de medios pagado para la serie “Google Cloud: Passport to Containers”. Ni Google Cloud, el patrocinador de la cobertura de eventos de TheCube, ni otros patrocinadores tienen management editorial sobre el contenido en Thecube o Siliconangle).
Foto: Siliconangle
Apoye nuestro contenido gratuito abierto compartiendo e interactuando con nuestro contenido y comunidad.
Únete a Thecube Alumni Belief Community
Donde los líderes tecnológicos se conectan, comparten inteligencia y crean oportunidades
11.4k+
Purple de ex alumnos de cubos
Nivel C y técnico
Expertos en dominio
Conéctese con 11,413+ líderes de la industria de nuestra pink de líderes tecnológicos y empresariales que forman un efecto de pink confiable único.
Siliconangle Media es un líder reconocido en innovación de medios digitales que sirve al público innovador y marcas, que reúne tecnología de vanguardia, contenido influyente, concepts estratégicas y compromiso de audiencia en tiempo actual. Como la empresa matriz de Silicio, red de thecube, Investigación de THECUBE, Cube365, THECUBE AI y los superstudios de TheCube, como los establecidos en Silicon Valley y la Bolsa de Nueva York (NYSE) – Siliconangle Media opera en la intersección de medios, tecnología e IA. .
Fundada por los visionarios tecnológicos John Furrier y Dave Vellante, Siliconangle Media ha construido un poderoso ecosistema de marcas de medios digitales líderes en la industria, con un alcance de más de 15 millones de profesionales de la tecnología de élite. La nueva nube de video de AI de AI de la compañía, está abriéndose en la interacción de la audiencia, aprovechando la pink neuronal de thecubeai.com para ayudar a las empresas de tecnología a tomar decisiones basadas en datos y mantenerse a la vanguardia de las conversaciones de la industria.