整理|核子可乐、冬梅编者按:最近,在 NVIDIA 的一次内部对话中,英伟达的三位员工 Nader、Stephen 和 Carter 三位员工分享了他们对 CUDA 技术的发展历程及其在计算科学和 AI 领域的应用的见解。Stephen,作为 ...
作者|王兆洋邮箱|[email protected]主题演讲后第二天,我们参加了一场与英伟达创始人兼CEO黄仁勋的对话。他回答了从AI的发展,芯片和数据中心的未来,到中国AI行业竞争力的多个问题。其中,他自己最关心的,是英伟达这 ...
高调亮相的世界首个「AI CUDA工程师」,宣称能让模型训练速度飙升100倍,如今却上演了一场「作弊」闹剧。OpenAI研究员用o3-mini,11秒便发现了内核代码有bug! 「AI CUDA工程师」实际表现堪称翻车现场,不仅未能实现加速,甚至出现训练速度不升反降的情况。
DeepSeek并未完全绕开CUDA,而是选择绕过了其高层API,直接操作PTX指令集进行底层优化。这种做法虽然能在一定程度上提升计算效率,但本质上仍依赖英伟达的硬件架构和指令集。PTX的优势在于提供了对GPU硬件的底层控制,但这种优化需要开发者具备极高的硬件编程能力,且优化效果能否普适到所有计算任务仍有待验证。
近期,NVIDIA新一代RTX50系列显卡的性能表现引发了广泛关注。在PassMark的排行榜上,RTX5090竟然未能超越上代产品RTX4090,这一结果让人颇感意外。为了揭开真相,PassMark展开了深入调查,发现NVIDIA在最新的'Blackwell'架构中做出了一个重大决策:不再支持32位的OpenCL和CUDA。这一变化直接导致了RTX50系列显卡与现有测试工具和应用程序之间的兼容性 ...
DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。 这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。 来自Mirae Asset Securities Research(韩国 ...
这个内容已经在X上讨论过了, 很火热的问题 我先翻译一下国外教授的详细回答,再讲清楚CUDA、PTX的关系。 中文翻译: 人们说“Deepseek 使用了 PTX ...
新思科技在GTC全球AI大会上宣布,正在使用英伟达CUDA-X库优化其下一代半导体开发解决方案。公司还在扩大对英伟达Grace CPU架构的支持,并将于2025年 ...
15 天on MSN
在显存方面,RTX 5060系列显卡预计将采用GDDR7显存,位宽均为128-bit。等效频率有望保持在28GHz,对应的带宽为448GB/s。然而,也有消息称RTX 5060可能会降低显存频率。
15 天on MSN
知名业内人士 @kopite7kimi 曝光了即将推出GeForce RTX 5060 显卡的相关规格。
NVIDIA近日在CUDA 12.8开发包的更新日志中,针对Maxwell、Pascal及Volta这三款较旧的GPU架构,做出了明确的未来规划。公司宣布,这些架构已完成了全部 ...
华泰证券研究认为,DeepSeek在V3中使用了相比CUDA更底层的PTX 来优化硬件算法,PTX是CUDA编译的中间代码,在CUDA和最终机器码之间起到桥梁作用。
当前正在显示可能无法访问的结果。
隐藏无法访问的结果