Raporty analityczne2 days ago
124x Wolniej: Co PyTorch DataLoader Tak Naprawdę Robi na Poziomie Jądra [SYSTEM] CPU 100% [HOST ] 1,880 context switches (21s off-CPU) [CUDA ] p99=42ms (1,638x p50=25us)
Ten artykuł opiera się na wynikach śledzenia na poziomie jądra GPU przeprowadzonego na rzeczywistym problemie PyTorch (#154318) przy użyciu eBPF uprobes. Bazy danych śledzenia są publikowane...