El objetivo de Atul Deo es hacer que el software program de inteligencia synthetic sea más barata e inteligente al mismo tiempo.
El prometedor ejecutivo, jefe de Amazon Bedrock y inteligencia synthetic generativa para Amazon Net Providers Inc., tiene solo seis meses para demostrar que se puede hacer antes de la exitosa Conferencia de Invent Invent de la compañía en diciembre.
“El espacio de IA se mueve más rápido que cualquier cosa que haya visto”, dijo Deo (en la foto). “Los modelos mejoran cada pocas semanas, pero los clientes no los implementarán a menos que la economía se lance”.
Esa tensión entre el salto tecnológico y el costo de producción ahora está redefiniendo la próxima fase de la industria en la nube. Para AWS, significa vender no solo los modelos más precisos, sino también la fontanería que impide que las facturas de AI se espiralicen.
Para los principales oficiales de información corporativos, significa cambiar de chatbots llamativos a software program “agente” que puede ejecutar tareas de varios pasos y justificar su etiqueta de precio. Juntas, esas fuerzas están convirtiendo en la roca madre, el servicio de dos años que alberga modelos de IA de terceros y construidos en Amazon, en uno de los productos más observados dentro de la unidad de $ 100 mil millones al año anteriormente dirigida por Amazon.com Inc., Andy Jassy.
El video a continuación es parte de nuestro Serie editorial AWS y líderes del ecosistema de medio tiempo para re: inventar Informe especial Evento digital. Busque otros artículos del evento en Siliconangle.
El diluvio modelo
Desde enero, Bedrock ha agregado siete modelos principales: Claude Sonnet 4 y Opus 4 de Anthrope, Llama de código abierto 4, advenedizo chino DeepSeek y tres versiones de Amazon’s Personal Estrella nueva Familia, incluido Nova Premier, que Deo promociona como “precisión de última generación con un descuento”. Cada uno suelta tierras con fanfarria predecible en las redes sociales. Menos seen es el baile de licencias que permite a los clientes de AWS intercambiar entre ellos con una sola interfaz de programación de aplicaciones.
Demasiadas opciones de modelo son como tasas de interés: todos tienen una opinión y cambian de la noche a la mañana. “Nuestro trabajo es dar a los clientes la propagación y dejarlos elegir”, dijo Deo. “Hemos visto muchos modelos capaces. Sonnet 4 y Opus 4 son realmente potentes. Lanzamos Nova Premier, que viene con un rendimiento de precio notablemente bueno”.
Esa propagación ahora incluye un mercado de roca madre, una “tienda de aplicaciones” para modelos de nicho: uno utilizado por químicos farmacéuticos, otro sintonizado para las transcripciones del centro de llamadas. Los analistas ven los ecos de la exitosa estrategia de base de datos RDS de Amazon, que permite a los clientes ejecutar Oracle, PostgreSQL o el motor Aurora de la compañía en la misma hoja de facturación.
Ingeniería de la factura
Pero la elección por sí sola no arregla la línea de la línea que la mayoría frustra los jefes de finanzas: el costo de inferencia o el precio de ejecutar un modelo cada vez que produce una respuesta. Aquí Deo sacó nuevas palancas para tirar:
- Caché de caché -Almacene la parte larga y pesada de una consulta para que no se recupere. AWS cube que los clientes ahorran hasta un 90%.
- Enrutamiento inmediato inteligente – Envíe preguntas fáciles a un modelo más barato y más rápido y más difíciles a un peso pesado, todo en tiempo actual.
- Modo de lote -Procese millones de solicitudes durante la noche a la mitad de la tasa por unidad de llamadas en tiempo actual.
- Destilación modelo -Transfiera el conocimiento de un modelo gigante a uno especializado para un solo flujo de trabajo.
En conjunto, las características tienen como objetivo romper lo que los escépticos de la nube llaman la “cinta de correr de tokens”, una referencia a la unidad básica de texto que consumen los sistemas de IA. Más fichas significan más ciclos de cómputo; Más ciclos de cómputo significan una factura más grande. Ya no se trata de “latencia de primera vez”. Ahora las empresas quieren saber el costo complete y el tiempo que se necesita para completar una respuesta o tarea. Aquí es donde se centra toda la hoja de ruta de Deo y Bedrock.
De chatbot a agente
La disciplina de costos también es el requisito previo para el próximo acto de la IA: agentes autónomos que realizan tareas que abarcan minutos, horas o incluso días. Los primeros experimentos ya están en vivo. Una startup hipotecaria ahora utiliza agentes de roca madre para recolectar documentos, escanearlos en busca de errores y pastor a prestatarios a través de la suscripción “en días en lugar de semanas”, dijo Deo. Las empresas inmobiliarias están reduciendo los plazos de venta de la propiedad de tres meses a una quincena al delegar tareas de diligencia a bots similares.
¿Qué cambió? Dos ingredientes llegaron simultáneamente. Primero, modelos más grandes, Claude Opus 4, Deepseek, aprendió a “pensar en voz alta”, iterando en sus propias respuestas en lugar de devolver una mejor suposición. Segundo, AWS se implementó colaboración de múltiples agentesuna característica de roca madre que divide un proceso de negocio entre bots especializados impulsados por diferentes modelos. Un agente podría usar antrópico para un razonamiento profundo, otro Nova Lite para verificaciones de formularios de alto volumen y un tercero un modelo vertical dedicado a la ley inmobiliaria.
“Piense en ello como un equipo de proyecto”, cube Deo. “HR, Finanzas, Ingeniería: cada agente tiene un papel”.
El foso de {hardware}
Nada de esto funciona si los proveedores de la nube se ahogan por su propia demanda. Los grupos de IA requieren decenas de miles de chips de alta gama y la electricidad que coincida. Según DEO, aquí es donde Amazon trae su cartera de silicio a la mesa. CPU basadas en Graviton para cargas de trabajo convencionales y aceleradores de Entrenium 2 adaptados para capacitación e inferencia de IA. Los modelos Nova más nuevos de Bedrock fueron entrenados por completo en el {hardware} de Entrenium 2, dijo Deo, un hito que scale back la dependencia de Amazon en las escasas GPU de Nvidia.
“El silicio personalizado es cómo doblamos la curva”, agregó. “Es la razón por la que podemos bajar el precio mientras empujamos la capacidad”.
El rival Microsoft ha anunciado un chip Maia AI; Google Cloud tiene TPUS. Sin embargo, AWS continúa gastando la mayoría de los miles de millones en inversiones centrales de datos, según la firma de analistas Canalys.
Protocolo de contexto modelo: ‘USB-C para AI’
Otro pilar emergente es técnico pero potencialmente transformador: el protocolo de contexto del modelo o MCP. DEO lo llama “USB-C para AI”, un estándar que permite a los agentes descubrir fuentes de datos y entre sí dinámicamente, mantener el estado en todas las llamadas y hacer cumplir las políticas de seguridad. AWS ha lanzado silenciosamente implementaciones de servidor MCP para servicios populares como el almacenamiento S3 y las bases de datos DynamodB.
“Si desea que los agentes hablen con la nómina un minuto y la fuerza de ventas al siguiente sin las API de codificación dura, MCP es el apretón de manos”, dijo Dave Vellante, analista jefe de Thecube Analysis, la firma de investigación de mercado hermana de Siliconangle.
Casas de guardia para industrias reguladas
A medida que los agentes se centran en los registros de atención médica y las aprobaciones de préstamos, las empresas quieren pruebas de que los modelos no alucinen. La respuesta de Bedrock es el razonamiento automatizado, una característica que ejecuta un verificador independiente, esencialmente un motor de prueba lógica, contra cada respuesta. Si el verificador no puede alcanzar la confianza del 99.9%, marca la respuesta para la revisión humana.
La técnica toma prestada de las propias herramientas de seguridad de AWS, como IAM Entry Analyzer. “Hemos utilizado métodos formales para validar los permisos durante años”, dijo Deo. Ahora AWS los está aplicando al idioma.
Los CIO farmacéuticos y bancarios como el concepto, dijo la directora de información de JPMorgan Chase, Lori Beer, quien habló conmigo en la Conferencia Re: Invent de AWS el año pasado. “La normal AI es solo otra aplicación para nosotros, pero su barra para la resiliencia cibernética es altísima”, dijo.
Observabilidad: la siguiente frontera
Incluso con pruebas en su lugar, las empresas deben auditar quién, o qué, hizo qué y cuándo. Se detiene el monitoreo de rendimiento de la aplicación tradicional en la llamada API; Los agentes requieren visión de rayos X en una tubería completa. AWS registra cada indicación y respuesta en CloudTrail, pero DEO reconoce que es solo un comienzo. “Necesitaremos evaluación de agentes, rastreo de linaje, herramientas de reversión, el equivalente al historial de GIT para los flujos de trabajo autónomos”, dijo.
Los observadores esperan nuevos servicios antes de re: inventar que visualizarán los flujos de agentes y la deriva de la bandera en precisión o cumplimiento.
Una pila de tres capas
El equipo de DEO presenta la roca madre como la capa media de una estrategia de tres niveles:
- Infraestructura -Chips personalizados (Entrenium, Graviton) y Amazon Sagemaker para clientes que desean construir o ajustar quirúrgicamente sus propios modelos.
- Plataforma de roca madre -Modelos listos para usar y de terceros, además de herramientas, como almacenamiento en caché rápido y colaboración de múltiples agentes.
- Aplicaciones – Software program totalmente administrado como Q Developer y Q Enterprise, que permite que los codificadores y analistas de negocios escriban consultas en inglés sencillo.
El objetivo: deja que una cuantía de fondos de cobertura se entierre en Sagemaker, mientras que un ajustador de seguros no técnico arrastra un archivo al negocio Q y obtiene un informe de reclamos instantáneos, ambos respaldados por las mismas primitivas de base.
El unicornio de una sola persona
Quizás la implicación más radical de la nueva pila es lo que Deo llama el Unicornio solitario. “Vas a tener empresas multimillonarias impulsadas por un solo individuo, es cuestión de cuándo, no si”, dijo. Las herramientas ahora abstractan la infraestructura, la sintaxis de codificación e incluso el cableado de procesos comerciales.
Esa perspectiva emociona a los capitalistas de riesgo y los titulares innecesarios. También explica la urgencia de Amazon: todos los meses, el lecho de cama retrasa una función es un mes que una startup de garaje podría elegir una nube diferente.
Corriendo a escala
¿Puede AWS seguir corriendo mientras lleva la carga de ganancias de un padre de billones de dólares? Los resultados de la nube de seis meses (siete modelos, cuatro ahorros de costos, dos protocolos nuevos, sugieren que puede. Sin embargo, Google y Microsoft responderán con sus propios recortes de precios y kits de herramientas de agentes. Y los reguladores de Europa a Washington están tratando de common y comprender la cadena de suministro de IA.
DEO vuelve al tema común en AWS. “La velocidad es nuestra ventaja”, cube, haciéndose eco del mantra del presidente ejecutivo de AWS, Matt Garman. “Tenemos que entregar {hardware}, controles de costos, barandillas y creatividad más rápido que la imaginación de los clientes”.
En otras palabras, la nube más grande del mundo debe comportarse como una startup, mientras ejecuta centros de datos del tamaño de las pequeñas ciudades. Atul Deo voltea su cuaderno cerrado; Otro lanzamiento del modelo se presentará la próxima semana.
Los observadores esperan nuevos servicios antes de re: inventar que visualizarán los flujos de agentes y la deriva de la bandera en precisión o cumplimiento.
Aquí está la entrevista completa con DEO:
https://www.youtube.com/watch?v=8la7fvpcokk
Foto: Siliconangle
Apoye nuestro contenido gratuito abierto compartiendo e interactuando con nuestro contenido y comunidad.
Únete a Thecube Alumni Belief Community
Donde los líderes tecnológicos se conectan, comparten inteligencia y crean oportunidades
11.4k+
Pink de ex alumnos de cubos
Nivel C y técnico
Expertos en dominio
Conéctese con 11,413+ líderes de la industria de nuestra crimson de líderes tecnológicos y empresariales que forman un efecto de crimson confiable único.
Siliconangle Media es un líder reconocido en innovación de medios digitales que sirve al público innovador y marcas, que reúne tecnología de vanguardia, contenido influyente, concepts estratégicas y compromiso de audiencia en tiempo actual. Como la empresa matriz de Silicio, red de thecube, Investigación de THECUBE, Cube365, THECUBE AI y los superstudios de TheCube, como los establecidos en Silicon Valley y la Bolsa de Nueva York (NYSE) – Siliconangle Media opera en la intersección de medios, tecnología e IA. .
Fundada por los visionarios tecnológicos John Furrier y Dave Vellante, Siliconangle Media ha construido un poderoso ecosistema de marcas de medios digitales líderes en la industria, con un alcance de más de 15 millones de profesionales de la tecnología de élite. La nueva nube de video de AI de AI de la compañía, se está basando en la interacción de la audiencia, aprovechando la crimson neuronal de thecubeai.com para ayudar a las empresas tecnológicas a tomar decisiones basadas en datos y mantenerse a la vanguardia de las conversaciones de la industria.