Cutlass - 搜索 News

4 天

近日，摩根士丹利发布研报继续聚焦具身人工智能 (Embodied AI)领域，并将目光投向了专注于为美国海军开发无人水面舰艇 (USV)的初创公司Saronic。该行表示，受机器自动化趋势、美国制造业产能不足及国防开支反思等因素影响，国防综合体的颠覆性潜力备受关注。其中，随着全球军事技术的快速发展，USV正成为未来海上防御的关键力量，而Saronic有望在未来的海上竞争中发挥重要作用。

搜狐16 天

DeepSeek-R2曝5月前上线！第三弹DeepGEMM 300行代码暴击专家优化内核

为了解决FP8张量核在累加计算时的精度问题，该库采用了基于CUDA核心的两级累加（提升）技术。虽然DeepGEMM借鉴了CUTLASS和CuTe的一些概念，但避免了过度依赖它们的模板或代数系统。相反，该库追求设计简洁，仅包含一个核心内核函数，代码量仅约300行。

IT之家17 天

DeepSeek 开源进度 3/5：深度学习利器 DeepGEMM

为了应对 FP8 张量核心累加不精确的问题，它使用了 CUDA 核心的两级累加（提升）方法。虽然它借鉴了部分 CUTLASS 和 CuTe 的理念，但并未过度依赖它们的模板或代数结构。 DeepGEMM 的设计简洁，核心内核函数只有大约 300 行代码，方便学习 Hopper FP8 矩阵乘法和优化 ...

腾讯网17 天

一文详解：DeepSeek 第三天开源的 DeepGEMM

它来了，我们的源神 DeepSeek 它又来了DeepSeek 开源周的第三天，带来了专为 Hopper 架构 GPU 优化的矩阵乘法库 — DeepGEMM。这一库支持标准矩阵计算和混合专家模型（MoE）计算，为 DeepSeek-V3/R1 的训练和推理提供强大支持，在 Hopper GPU 上达到 1350+FP8 TFLOPS 的高性能。DeepGEMM 的设计理念是简洁高效，核心代码仅.

17 天

DeepSeek开源通用矩阵乘法库，300行代码加速V3、R1，R2被曝五月前问世

据三位了解 DeepSeek 薪酬情况的人士称，这幻方量化与 DeepSeek 都以薪酬丰厚而闻名。有人表示在幻方的高级数据科学家年薪 150 万元人民币并不罕见，而竞争对手的薪酬很少超过 80 万元。

18 天

DeepSeek开源FlashMLA：解读其三大核心优势

2025年2月21日，DeepSeek宣布启动“OpenSourceWeek”，计划在一周内开源5个代码库。本周一（2月24日）首次开源的代码库是FlashMLA。FlashMLA是什么？要理解它，我先跟你讲过故事：从前，有个小镇，镇上有个神奇的算命 ...

腾讯网19 天

DeepSeek代码开源第一弹Flash MLA，揭秘大模型训练低成本关键

【TechWeb】2月24日消息，随着DeepSeek大模型开源引发全球热潮后，2月21日DeepSeek在社交平台X发文称，这周起会陆续开源5个代码库。今天DeepSeek开源首个代码库Flash MLA，引发极大关注，截至目前github Star星数已经超过4.5k。Flash MLA是DeepSeek针对英伟达Hopper ...

腾讯网19 天

DeepSeek 发布开源第一弹！让 H800 GPU 性能狂飙，AI 推理加速

就在刚刚，DeepSeek 第一天的开源项目 FlashMLA 正式发布。 DeepSeek 官方在 X 平台发文称：「很荣幸能分享 FlashMLA —— 我们专为 Hopper GPU 优化的高效 MLA 解码内核，不仅支持变长序列处理，现在已经投入生产使用。据官方介绍，FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。具体来说，FlashML ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果