Inicio China El uso de las GPU locales de Ant Group, no NVIDIA, reduce...

El uso de las GPU locales de Ant Group, no NVIDIA, reduce los costos de capacitación del modelo de IA en un 20%

0

El uso de las GPU locales de Ant Group, no NVIDIA, reduce los costos de capacitación del modelo de IA en un 20%

Grupo de hormigasel afiliado de fintech de Alibaba Group Holdinges capaz de entrenar modelos de idiomas grandes (LLM) utilizando unidades de procesamiento de gráficos producidos localmente (GPU), reduciendo la dependencia de los chips avanzados de NVIDIA y la reducción de los costos de capacitación en un 20 por ciento, según un documento de investigación e informes de medios.

El equipo de Ling de Ant, responsable del desarrollo de LLM, reveló que su modelo Ling-Plus-Base, un modelo de mezcla de expertos (MOE) con 300 mil millones de parámetros, puede estar «capacitado efectivamente en dispositivos de menor rendimiento». El hallazgo se publicó en un artículo reciente sobre ARXIV, una plataforma de acceso abierto para profesionales de la comunidad científica.

Al evitar las GPU de alto rendimiento, el modelo reduce los costos de computación en un quinto en el proceso de pre-entrenamiento, al tiempo que alcanza el rendimiento comparable a otros modelos como Qwen2.5-72b-Instructo y Deepseek-V2.5-1210-Chat, según el documento.

El desarrollo posiciona al gigante fintech con sede en Hangzhou junto a compañeros nacionales como Veterano y Byte Al reducir la dependencia de los chips Nvidia avanzados, que están sujetos a estrictos controles de exportación de los Estados Unidos.

«Estos resultados demuestran la viabilidad de capacitar a los modelos MOE a gran escala de última generación en un hardware menos potente, lo que permite un enfoque más flexible y rentable para el desarrollo de modelos fundamentales con respecto a la selección de recursos informáticos», escribió el equipo en el documento.

MOE es una técnica de aprendizaje automático en la que se utilizan múltiples redes de conocimiento especializado para dividir un espacio de problemas en secciones homogéneas. La técnica ha sido ampliamente adoptada por liderar Inteligencia artificial (IA) Modelos-Guk, Deepseek y el qwen de Alibaba incluyen-escalar LLM a parámetros de trillón de más mientras mantienen costos informáticos fijos. Alibaba es propietaria del South China Morning Post.

Fuente

Salir de la versión móvil