En un artículo publicado sobre su modelo de lenguaje grande Deepseek-V3 (LLM), que se lanzó en diciembre, la empresa empresarial china afirmó que la capacitación tomó solo 2.8 millones de «horas de GPU» a un costo de US $ 5.6 millones, una fracción de la tiempo y dinero que las empresas estadounidenses han estado gastando en sus propios modelos.
Deepseek-R1, el modelo de razonamiento de código abierto de la compañía lanzado el 20 de enero, ha demostrado capacidades comparables a las de los modelos más avanzados de Openai, Anthrope y Google, pero también con costos de capacitación significativamente más bajos. El documento sobre R1 no mencionó el costo del desarrollo.
Los propios registros de Deepseek, y los de su Fondo de cobertura afiliado, High-Flyer Quant, muestran que la compañía es una de las entidades con más información para capacitar la IA. Ya en 2019, Liang Wenfeng, el fundador de High-Flyer y Deepseek, había gastado 200 millones de yuanes (US $ 27.8 millones) para comprar 1.100 unidades de procesamiento de gráficos (GPU) para capacitar algoritmos para el comercio de acciones. High-Flyer dijo que su centro informático en ese momento cubría un área equivalente a una cancha de baloncesto, según documentos de la compañía, que lo habría puesto alrededor de 436.6 metros cuadrados (4,700 pies cuadrados).
En 2021, el Fondo gastó mil millones de yuanes en el desarrollo de su Fire-Flyer 2 SuperComuter Fire-Flyer 2, que se esperaba que alcanzara 1.550 petaflops, una medición de la potencia informática, según el sitio web de High-Flyer. Esto sería similar en rendimiento para algunas de las supercomputadoras más poderosas del mundo.