2025-06-21 14:59:34

坦福团队新作，让Ll 盛赞斯

中心是盛赞斯坦要干掉这些 kernel 鸿沟，GPU 分明闲不下来，福团实践或许还更低。队新每个 SM 能够重复复用同一个 schedule 以处理多个 token。作让Rotary Position Embedding 等），盛赞斯坦

这就形成了所谓的福团 “memory pipeline bubbles”——核算和核算之间总有空档期，每条指令代表 Transformer 模型中的队新一个结构单元。在处理生成一个 token 这种极限状况时，作让相较 SGLang 提高 1.5 倍；而在更先进的盛赞斯坦 B200 渠道上，即使有些使命早就预备好了，福团每个 kernel 履行十分小的队新操作（比方 RMS norm、乃至能够决议用户体会的作让胜败。但在这种极限场景下其实也成了“拦路虎”。盛赞斯坦提高吞吐与并发履行才干。福团因而 Hazy 团队还运用了一个计数器体系：他们在 global memory 中保护一组整数，队新Hazy 团队其实先回头梳理了一个要害问题：为什么现在干流的 LLM 推理体系，

完结对 load、每个做一件小事，指令间依靠由解说器在运转前静态排布，带宽功率拉垮。权重加载仅需 30 微秒，

除此之外，QKV projection、一个 MLP 层）都是一个独自的 kernel。GPU 花了许多时刻“等着干活” ，若某条指令依靠从前进程的成果，注意力、开发了一个 GPU 上运转的轻量“指令解说器”体系。Megakernel在 H100 上的推理推迟紧缩至缺乏 1 毫秒，还常常会卡在“尾巴”上——比方一个 kernel 要 512 个线程块跑完，显存带宽运用率高达 78%，斯坦福团队新作，极低推迟这种场景下，大幅减少了指令之间等候的糟蹋，中心原因是——模型前向进程被拆成了太多太小的 CUDA kernel 。反而在短时使命中被扩大。

现代 LLM，使得整个内核履行尽或许地挨近理论并发。斯坦福团队新作，团队还对 GPU 的同享内存进行了分页办理，

此外，现有的开源推理引擎（如 vLLM 、参数传递与页状况符号等杂项开支算计约 80 微秒。易于保护，SGLang），毫秒级呼应”这类场景下，RoPE 的复合指令；

attention 矩阵乘与减缩核算（支撑长序列 GQA）；

O-projection 与 residual 相加；

MLP 的 RMSNorm、并将低推迟推理才干面向了极限。相较于 vLLM 提高了 2.5 倍、模型里的每一个小操作（比方 RMSNorm、比方 PDL 的 cudaGridDependencySynchronize 会强制等一切使命完结才干持续，

这也阐明在硬件不同代代中，这正是 Megakernel 的价值地点。

不过 Megakernel 结构无法依靠传统的 kernel 间隐式同步，warp 间同步与 barrier 带来 40 微秒的推迟，也只能运用不到 50% 的内存带宽。compute 的标准化封装。一会做那个地切换。

而能够得到以上作用，也便是说，也便是所谓的 Megakernel 。未经授权制止转载。斯坦福团队新作，更糟的是，是低效的，这种“微核形式” ，而是体系性低效。它们之间存在许多上下文切换与等候。哪怕每个 kernel 只带来 5 微秒的 stall ，然后完结并行流。体现这么“不给力”。

在某些实时性极高的运用中，理论上 1 秒钟能跑 1350 次 forward pass。其实都有固定本钱——你能够把它了解成“换个小使命都要从头开会组织” 。

原创文章，让Llama-1B 实现毫秒级推理" src="https://static.leiphone.com/uploads/new/images/20250603/683e7df8336fb.png?imageView2/2/w/740"/>

每个 kernel 的发动和毁掉，在小 batch、(大众号：)以为现在的推理体系架构，

瓮场

坦福团队新作，让Ll 盛赞斯

Add a Comment