Laporan wawasan
March 30, 2026
124x Lebih Lambat: Apa yang Dilakukan PyTorch DataLoader pada Tingkat Kernel [SYSTEM] CPU 100% [HOST ] 1.880 konteks switch (21s off-CPU) [CUDA ] p99=42ms (1.638x p50=25us)
Artikel ini berdasarkan temuan dari penyelidikan jejak kernel-level GPU yang dilakukan pada masalah PyTorch yang sebenarnya (#154318) menggunakan eBPF uprobes. Basis data jejak dipublikasikan di repository...