Home Ciencia y Tecnología Informe: El modelo más nuevo de Deepseek se retrasó debido a las...

Informe: El modelo más nuevo de Deepseek se retrasó debido a las restricciones de exportación de GPU

61
0

La principal empresa de inteligencia synthetic de China Deepseek Ltd. Según los informes, se ha desprendido en sus esfuerzos por desarrollar su modelo de razonamiento R2 de próxima generación, porque no puede tener suficientes unidades de procesamiento de gráficos de Nvidia Corp., según un informe.

La información Citó dos fuentes anónimas que están familiarizadas con los esfuerzos de Deepseek diciendo que la compañía ha estado trabajando en el próximo modelo R2 durante varios meses, pero su director ejecutivo Liang Wengfeng aún no está satisfecho con él. Sin embargo, la compañía no puede mejorar sus capacidades con el número limitado de GPU a su disposición.

Deepseek salió a la fama a principios de este año cuando debutó su modelo de razonamiento authentic R1, que demostró ser más que una coincidencia para los modelos más avanzados desarrollados por compañías estadounidenses como OpenAI, Anthrope PBC y Meta Platforms Inc., a pesar de ser construidas a una fracción del costo.

Según la información, Deepseek entrenó a R1 en un grupo de 50,000 GPU de tolva, que incluía alrededor de 10,000 H100, 10,000 H800 y alrededor de 30,000 de las GPU H20 de menor potencia que estaban diseñadas para el mercado chino.

Las compañías chinas nunca han podido comprar legalmente las GPU H100 o H800, y se cree que algunos de ellos fueron suministrados en secreto a Deepseek por su gestión de capital de alto volante inversor, mientras que otros fueron adquiridos a través de compañías shell que acceden a los servicios de infraestructura de la nube pública. Las GPU H20 se obtuvieron legalmente, pero desde entonces se han vuelto difíciles de conseguir debido a las nuevas sanciones del gobierno de los Estados Unidos que prohíben su exportación a China.

Parte del problema es que muchas de las GPU H20 en China ya están siendo utilizadas por los clientes de Deepseek. La información cube que el modelo R1 ha sido ampliamente adoptado por las empresas chinas y las agencias gubernamentales, y la mayoría de ellos lo ejecutan en GPU H20 en la nube. Por lo tanto, no hay más capacidad disponible para que Deepseek capacite a su último modelo.

Se cube que la escasez de GPU H20 ya está causando problemas con R1, lo que limita cómo las empresas chinas lo usan. Si el modelo R2 mejora significativamente en R1, se espera que la demanda del modelo aumente más allá de lo que los proveedores de infraestructura de la nube china pueden manejar, según el private entrevistado por la información.

El procesador H20 es comparable a la GPU H100 que NVIDIA vende a las compañías occidentales, pero su ancho de banda y conectividad habían estado estrangulados para cumplir con restricciones anteriores sobre los tipos de chips que podrían exportarse a China. Sin embargo, la administración del presidente Donald Trump decidió que incluso este chip reducido es demasiado poderoso para ser enviado a su rival geopolítico, y rápidamente abofeteó nuevas restricciones al país en abril, prohibiendo su exportación allí.

Según los informes, esa decisión ha lanzado una llave importante en los trabajos de los desarrolladores de IA chinos. Si bien hay algunas alternativas nacionales disponibles, como el chipset Ascend 910B de Huawei Applied sciences Co. Ltd., estas son aún menos potentes que el H20 y carecen de soporte para la pila de software program CUDA de NVIDIA, una arquitectura de programación que se utiliza para optimizar las aplicaciones y los modelos AI para que se ejecuten en las GPU de NVIDIA. Eso es problemático porque prácticamente todos los desarrolladores chinos de IA están utilizando el software program CUDA.

La información cube que los modelos R1 y R2 de Deepseek también están optimizados para los chips de Nvidia, y su incapacidad para acceder a ellos podría ser un gran revés en sus esfuerzos para mantener el ritmo de sus rivales estadounidenses.

Imagen: Siliconangle/Dreamina

Apoye nuestro contenido gratuito abierto compartiendo e interactuando con nuestro contenido y comunidad.

Únete a Thecube Alumni Belief Community

Donde los líderes tecnológicos se conectan, comparten inteligencia y crean oportunidades

11.4k+

Pink de ex alumnos de cubos

Nivel C y técnico

Expertos en dominio

Conéctese con 11,413+ líderes de la industria de nuestra crimson de líderes tecnológicos y empresariales que forman un efecto de crimson confiable único.

Siliconangle Media es un líder reconocido en innovación de medios digitales que sirve al público innovador y marcas, que reúne tecnología de vanguardia, contenido influyente, concepts estratégicas y compromiso de audiencia en tiempo actual. Como la empresa matriz de Silicio, red de thecube, Investigación de THECUBE, Cube365, THECUBE AI y los superstudios de TheCube, como los establecidos en Silicon Valley y la Bolsa de Nueva York (NYSE) – Siliconangle Media opera en la intersección de medios, tecnología e IA. .

Fundada por los visionarios tecnológicos John Furrier y Dave Vellante, Siliconangle Media ha construido un poderoso ecosistema de marcas de medios digitales líderes en la industria, con un alcance de más de 15 millones de profesionales de la tecnología de élite. La nueva nube de video de AI de AI de la compañía, se está basando en la interacción de la audiencia, aprovechando la crimson neuronal de thecubeai.com para ayudar a las empresas tecnológicas a tomar decisiones basadas en datos y mantenerse a la vanguardia de las conversaciones de la industria.

fuente