华泰证券:DeepSeek无望加快模子锻炼取CUDA解耦
- 分类:木材知识
- 作者:龙8
- 来源:
- 发布时间:2025-04-23 10:59
- 访问量:
【概要描述】
华泰证券研究认为,DeepSeek正在V3中利用了比拟CUDA更底层的PTX 来优化硬件算法,PTX是CUDA编译的两头代码,而NSA则利用了OpenAl提出的Triton编程言语高效编写GPU代码,Triton的底层可挪用CUDA,也可挪用其他GPU言语,包罗AMD的rocm以及国产算力芯片言语,如寒武纪的思元590芯片和海光消息的深算一号内置的HYGON ISA指令集。LLM的锻炼短期内虽未完全离开CUDA 生态,但DeepSeek NSA的推出使其初步呈现出取CUDA解耦的趋向,并为后续适配更多类型的算力芯片奠基根本。以异腾为代表的国产算力曾经很好的适配了DeepSeek-R1 等国产模子,华泰证券认为,陪伴海外算力的受限,针对国产算力的优化或将有持续进展,值得注沉。
华泰证券:DeepSeek无望加快模子锻炼取CUDA解耦
【概要描述】
华泰证券研究认为,DeepSeek正在V3中利用了比拟CUDA更底层的PTX 来优化硬件算法,PTX是CUDA编译的两头代码,而NSA则利用了OpenAl提出的Triton编程言语高效编写GPU代码,Triton的底层可挪用CUDA,也可挪用其他GPU言语,包罗AMD的rocm以及国产算力芯片言语,如寒武纪的思元590芯片和海光消息的深算一号内置的HYGON ISA指令集。LLM的锻炼短期内虽未完全离开CUDA 生态,但DeepSeek NSA的推出使其初步呈现出取CUDA解耦的趋向,并为后续适配更多类型的算力芯片奠基根本。以异腾为代表的国产算力曾经很好的适配了DeepSeek-R1 等国产模子,华泰证券认为,陪伴海外算力的受限,针对国产算力的优化或将有持续进展,值得注沉。
- 分类:木材知识
- 作者:龙8
- 来源:
- 发布时间:2025-04-23 10:59
- 访问量:
华泰证券研究认为,DeepSeek正在V3中利用了比拟CUDA更底层的PTX 来优化硬件算法,PTX是CUDA编译的两头代码,而NSA则利用了OpenAl提出的Triton编程言语高效编写GPU代码,Triton的底层可挪用CUDA,也可挪用其他GPU言语,包罗AMD的rocm以及国产算力芯片言语,如寒武纪的思元590芯片和海光消息的深算一号内置的HYGON ISA指令集。LLM的锻炼短期内虽未完全离开CUDA 生态,但DeepSeek NSA的推出使其初步呈现出取CUDA解耦的趋向,并为后续适配更多类型的算力芯片奠基根本。以异腾为代表的国产算力曾经很好的适配了DeepSeek-R1 等国产模子,华泰证券认为,陪伴海外算力的受限,针对国产算力的优化或将有持续进展,值得注沉。
扫二维码用手机看