Cerebras Systems Inc.una startup que proporciona inferencia de inteligencia synthetic extremely rápida, hoy anunciado Soporte para el modelo de razonamiento de peso abierto de 120 mil millones de parámetros de OpenAI, GPT-OSS-120Bque la compañía puede ejecutar a velocidades récord en su servicio de inferencia.
Según la compañía, las cerebras pueden desplegar el nuevo modelo de OpenAI en alrededor de 3.000 tokens por segundo, llamándolo un gran avance en la capacidad de respuesta para la IA de alta inteligencia.
Un token es cómo un modelo de IA descompone el texto en piezas manejables para el análisis y la generación, pueden ser palabras, partes o palabras o incluso puntuación. La rapidez con que un modelo de IA lee o escribe tokens puede expresar qué tan rápido funciona un modelo.
“El lanzamiento del modelo de razonamiento abierto de OpenAI es un momento decisivo para la comunidad de IA”, dijo Andrew Feldman, director ejecutivo y cofundador de Cerebras. “Con GPT-OSS-20B, no solo estamos rompiendo registros de velocidad, estamos redefiniendo lo que es posible”.
Lanzado hoy, el nuevo modelo de Openai marca su primer lanzamiento de peso abierto desde GPT-2 en 2019y el primer modelo de “pensamiento” que la compañía ha publicado bajo una licencia de peso abierto. OpenAI proporcionó dos variantes: una versión de parámetros de 120 mil millones y una versión de 20 millones de 20 millones de menores, con la última optimizada para un {hardware} menos potente.
Según OpenAi, el modelo 120B logra casi paridad con O4-Mini en puntos de referencia de razonamiento central, un modelo common de referencia en gran parte de la industria. También funciona de manera comparable en los puntos de referencia de inteligencia a modelos patentados como Gemini 2.5 Flash de Google LLC y Claude 4 Opus de PBC Anthrope, dijo Cerebras.
En una conferencia de prensa, Feldman señaló que ejecutar el modelo con más de 3.000 tokens por segundo permite a las organizaciones desbloquear casos de uso súper rápidos a precios significativamente más bajos que los sistemas de código cerrado de la competencia. A modo de comparación, Claude 4 Opus de Anthrope se ejecuta en aproximadamente 56 tokens/s, mientras que las cerebras ofrecen el nuevo modelo Operai a $ 0.25 por millón de tokens de entrada y tokens de salida de $ 0.69 por millón de salida, en comparación con la entrada de $ 15 por millón de Opus 4 y $ 75 por millón de tokens de salida.
Este tipo de “modelos de pensamiento” generalmente sufren largos tiempos de espera cuando se ejecutan en infraestructura tradicional de GPU. Antes de comenzar a escribir, necesitan tiempo para “pensar”, donde procesan consultas con razonamiento de varios pasos, lo que puede tardar varios segundos o más dependiendo de la complejidad de la consulta, el tamaño del modelo y el {hardware}.
“Este modelo supera a Claude 4 Opus. Es del orden de 55 veces más rápido cuando se sirve en {hardware} de cerebras que cuando lo atiende antrópico, y es 60 veces menos costoso”, dijo Feldman. “Así es como se mueven los mercados. Cuando aportas ese tipo de ventaja a la mesa, los casos de uso que anteriormente eran imposibles se vuelven de repente posibles”.
Cerebras es mejor conocida por sus chips de oblea de silicio del tamaño de un plato especialmente diseñado para IA, pero también ofrece sistemas completos (software program, API y opciones en la nube o native, lo que permite a las organizaciones implementar modelos de peso abierto con un esfuerzo mínimo. La implementación en el NEPEM puede ser especialmente atractiva para las empresas que necesitan trabajar con datos confidenciales o regulados y con el acceso al nuevo modelo de peso abierto tiene la oportunidad de experimentar con él a velocidades extremadamente altas.
“No somos una compañía de chips; somos una compañía de sistemas”, dijo Feldman.
Gracias a las API estándar de la industria, los desarrolladores pueden cambiar de los puntos finales de Openai a la infraestructura de Cerebras en segundos, sin reescribir el código.
“Le tomará unos 15 segundos conectarse con nuestra API”, dijo Feldman. “Escribes en API.Cerebras.ai, luego agregas tu tecla API de cerebras y finalmente GPT-OSS-120B. Eso es todo”.
Cerebras se asoció con Vercel Inc. como proveedor de modelos predeterminado para la nueva versión, y también admite el despliegue a través de abrazando Face, OpenRouter y otros proveedores, parte de un esfuerzo más amplio para conocer a los desarrolladores donde sea que se encuentren.
“Esta es la primera vez que nos asociamos [with Hugging Face] en el lanzamiento “, dijo Feldman.” Obtienes millones de desarrolladores golpeando el modelo de una manera que incluso los desarrolladores originales no podían imaginar “.
Los desarrolladores interesados en ejecutar el modelo pueden registrarse en una clave API gratuita en cerebras.ai/openai y empiece a experimentar hoy.
Foto: Sistemas de cerebras
Apoye nuestro contenido gratuito abierto compartiendo e interactuando con nuestro contenido y comunidad.
Únete a Thecube Alumni Belief Community
Donde los líderes tecnológicos se conectan, comparten inteligencia y crean oportunidades
11.4k+
Pink de ex alumnos de cubos
Nivel C y técnico
Expertos en dominio
Conéctese con 11,413+ líderes de la industria de nuestra pink de líderes tecnológicos y empresariales que forman un efecto de pink confiable único.
Siliconangle Media es un líder reconocido en innovación de medios digitales que sirve al público innovador y marcas, que reúne tecnología de vanguardia, contenido influyente, concepts estratégicas y compromiso de audiencia en tiempo actual. Como la empresa matriz de Silicio, red de thecube, Investigación de THECUBE, Cube365, THECUBE AI y los superstudios de TheCube, como los establecidos en Silicon Valley y la Bolsa de Nueva York (NYSE) – Siliconangle Media opera en la intersección de medios, tecnología e IA. .
Fundada por los visionarios tecnológicos John Furrier y Dave Vellante, Siliconangle Media ha construido un poderoso ecosistema de marcas de medios digitales líderes en la industria, con un alcance de más de 15 millones de profesionales de la tecnología de élite. La nueva nube de video de AI de AI de la compañía, está abriéndose en la interacción de la audiencia, aprovechando la pink neuronal de thecubeai.com para ayudar a las empresas de tecnología a tomar decisiones basadas en datos y mantenerse a la vanguardia de las conversaciones de la industria.