Аналітичні звіти
March 30, 2026
124x повільніше: Що насправді робить PyTorch DataLoader на рівні ядра [SYSTEM] CPU 100% [HOST ] 1,880 context switches (21s off-CPU) [CUDA ] p99=42ms (1,638x p50=25us)
Ця стаття базується на результатах дослідження на рівні ядра GPU, виконаного над реальною проблемою PyTorch (#154318) з використанням eBPF uprobes. Трейс-бази опубліковані в відкритому репозиторії Ingero...