Home Ciencia y Tecnología Informe: El modelo más nuevo de Deepseek retrasado por las restricciones de...

Informe: El modelo más nuevo de Deepseek retrasado por las restricciones de exportación de GPU

91
0

La principal empresa de inteligencia synthetic de China Deepseek Ltd. Según los informes, se ha desprendido en sus esfuerzos por desarrollar su modelo de razonamiento R2 de próxima generación, porque no puede tener suficientes unidades de procesamiento de gráficos de Nvidia Corp., según un informe.

La información Citó dos fuentes anónimas que están familiarizadas con los esfuerzos de Deepseek diciendo que la compañía ha estado trabajando en el próximo modelo R2 durante varios meses, pero el presidente ejecutivo Liang Wengfeng aún no está satisfecho con él. Sin embargo, la compañía no puede mejorar sus capacidades con el número limitado de GPU a su disposición.

Deepseek salió a la fama a principios de este año cuando debutó su modelo de razonamiento authentic R1. Resultó ser más que una coincidencia para los modelos más avanzados desarrollados por compañías estadounidenses como OpenAI, Anthrope PBC y Meta Platforms Inc., a pesar de haber sido construidas a una fracción del costo.

Según la información, Deepseek entrenó a R1 en un grupo de 50,000 GPU de tolva, que incluía alrededor de 10,000 H100, 10,000 H800 y aproximadamente 30,000 de las GPU H20 de menor potencia que estaban diseñadas especialmente para el mercado chino.

Las empresas chinas nunca han podido comprar legalmente las GPU H100 o H800. Se cree que algunos de ellos fueron suministrados en secreto a Deepseek por su gestión de capital de alto flyer inversor, mientras que otros fueron adquiridos a través de compañías fantasmas que acceden a los servicios de infraestructura de la nube pública. Las GPU H20 se obtuvieron legalmente, pero desde entonces se han vuelto difíciles de conseguir debido a las nuevas sanciones del gobierno de los Estados Unidos que prohíbe su exportación a China.

Parte del problema es que muchas de las GPU H20 en China ya están siendo utilizadas por los clientes de Deepseek. La información cube que el modelo R1 ha sido ampliamente adoptado por las empresas chinas y las agencias gubernamentales, y la mayoría de ellos lo ejecutan en GPU H20 en la nube. Por lo tanto, no hay más capacidad disponible para que Deepseek capacite a su último modelo.

Aparentemente, la escasez de GPU de H20 ya está causando problemas con R1, lo que limita la forma en que las empresas chinas usan. Si el modelo R2 mejora significativamente en R1, se espera que la demanda del modelo aumente más allá de lo que los proveedores de infraestructura de la nube china pueden manejar, según el private entrevistado por la información.

“Si estos informes son ciertos, podría ser un revés importante para Deepseek, porque si no actualiza sus modelos de forma common, no serán tan precisos como lo son los modelos de su competidor”, dijo Holger Mueller de Constellation Analysis Inc. “Pero no descartes a Deepseek todavía, ya que ha mostrado un ingenio de ingeniería increíble antes, y puede hacerlo nuevamente”.

El procesador H20 es comparable a la GPU H100 que NVIDIA vende a las compañías occidentales, pero su ancho de banda y conectividad habían estado estrangulados para cumplir con restricciones anteriores sobre los tipos de chips que podrían exportarse a China. Sin embargo, la administración del presidente Donald Trump decidió que incluso este chip reducido es demasiado poderoso para ser enviado a su rival geopolítico, y rápidamente abofeteó nuevas restricciones al país en abril, prohibiendo su exportación allí.

Según los informes, esa decisión ha lanzado una llave importante en los trabajos de los desarrolladores de IA chinos. Aunque hay algunas alternativas nacionales disponibles, como el chipset Ascend 910b de Huawei Applied sciences Co. Ltd., estas son aún menos potentes que el H20 y carecen de soporte para la pila de software program CUDA de NVIDIA, una arquitectura de programación que se usa para optimizar las aplicaciones y los modelos AI para que se ejecuten en las GPU de NVIDIA. Eso es problemático porque prácticamente todos los desarrolladores chinos de IA están utilizando el software program CUDA.

La información cube que los modelos R1 y R2 de Deepseek también están optimizados para los chips de Nvidia, y su incapacidad para acceder a ellos podría ser un gran revés en sus esfuerzos para mantener el ritmo de sus rivales estadounidenses.

Imagen: Siliconangle/Dreamina

Apoye nuestro contenido gratuito abierto compartiendo e interactuando con nuestro contenido y comunidad.

Únete a Thecube Alumni Belief Community

Donde los líderes tecnológicos se conectan, comparten inteligencia y crean oportunidades

11.4k+

Purple de ex alumnos de cubos

Nivel C y técnico

Expertos en dominio

Conéctese con 11,413+ líderes de la industria de nuestra crimson de líderes tecnológicos y empresariales que forman un efecto de crimson confiable único.

Siliconangle Media es un líder reconocido en innovación de medios digitales que sirve al público innovador y marcas, que reúne tecnología de vanguardia, contenido influyente, concepts estratégicas y compromiso de audiencia en tiempo actual. Como la empresa matriz de Silicio, red de thecube, Investigación de THECUBE, Cube365, THECUBE AI y los superstudios de TheCube, como los establecidos en Silicon Valley y la Bolsa de Nueva York (NYSE) – Siliconangle Media opera en la intersección de medios, tecnología e IA. .

Fundada por los visionarios tecnológicos John Furrier y Dave Vellante, Siliconangle Media ha construido un poderoso ecosistema de marcas de medios digitales líderes en la industria, con un alcance de más de 15 millones de profesionales de la tecnología de élite. La nueva nube de video de AI de AI de la compañía, está abriéndose en la interacción de la audiencia, aprovechando la crimson neuronal de thecubeai.com para ayudar a las empresas de tecnología a tomar decisiones basadas en datos y mantenerse a la vanguardia de las conversaciones de la industria.

fuente