Inicio China ¿Es la IA de Deepseek tan eficiente? El poder informático de la...

¿Es la IA de Deepseek tan eficiente? El poder informático de la empresa china en el centro de atención

0

La cantidad de potencia informática profunda utilizada para entrenar a sus modelos se ha convertido en un tema de intenso interés para Inteligencia artificial (IA) Expertos e inversores durante la semana pasada, ya que la respuesta podría tener implicaciones significativas para el desarrollo futuro de la tecnología.

En un artículo publicado sobre su modelo de lenguaje grande Deepseek-V3 (LLM), que se lanzó en diciembre, la empresa empresarial china afirmó que la capacitación tomó solo 2.8 millones de «horas de GPU» a un costo de US $ 5.6 millones, una fracción de la tiempo y dinero que las empresas estadounidenses han estado gastando en sus propios modelos.

Deepseek-R1, el modelo de razonamiento de código abierto de la compañía lanzado el 20 de enero, ha demostrado capacidades comparables a las de los modelos más avanzados de Openai, Anthrope y Google, pero también con costos de capacitación significativamente más bajos. El documento sobre R1 no mencionó el costo del desarrollo.

El bajo costo y el fuerte desempeño de los modelos de Deepseek han puesto en duda la necesidad de los gastos de capital llamativos de los gigantes tecnológicos estadounidenses, particularmente en los caros chips de IA. Esto llevó a una gran venta de ventas a Nvidia Acciones la semana pasada, eliminando US $ 600 mil millones en un solo día.

05:10

El disruptor chino de IA Deepseek afirma el primer puesto en la tienda de aplicaciones de EE. UU., Detronando chatgpt

El disruptor chino de IA Deepseek afirma el primer puesto en la tienda de aplicaciones de EE. UU., Detronando chatgpt

Los propios registros de Deepseek, y los de su Fondo de cobertura afiliado, High-Flyer Quant, muestran que la compañía es una de las entidades con más información para capacitar la IA. Ya en 2019, Liang Wenfeng, el fundador de High-Flyer y Deepseek, había gastado 200 millones de yuanes (US $ 27.8 millones) para comprar 1.100 unidades de procesamiento de gráficos (GPU) para capacitar algoritmos para el comercio de acciones. High-Flyer dijo que su centro informático en ese momento cubría un área equivalente a una cancha de baloncesto, según documentos de la compañía, que lo habría puesto alrededor de 436.6 metros cuadrados (4,700 pies cuadrados).

En 2021, el Fondo gastó mil millones de yuanes en el desarrollo de su Fire-Flyer 2 SuperComuter Fire-Flyer 2, que se esperaba que alcanzara 1.550 petaflops, una medición de la potencia informática, según el sitio web de High-Flyer. Esto sería similar en rendimiento para algunas de las supercomputadoras más poderosas del mundo.

Fuente

Salir de la versión móvil