大卫·梅尔是Ingero的共同作者和维护者,Ingero是一个开源的eBPF代理,用于CUDA级别的GPU可观察性。他专门从事生产环境下的人工智能工作负载的内核级跟踪。
本文基于对一个真实的 PyTorch 问题 (#154318) 使用 eBPF uprobes 进行的内核级别 GPU 跟踪调查。跟踪数据库已发布在 Ingero 开源仓库中,以便独立验证。 TL;DR PyTorch 的 DataLoader 可以比直接 tensor 索引慢 50-124 倍,用于内存 GPU 工作负载。我们在 RTX 4090 上复现了一个真实的...