-
Notifications
You must be signed in to change notification settings - Fork 1.1k
AArch64 status
[bot] vpirogov edited this page Dec 3, 2025
·
345 revisions
✅ unit tests passed
✅ unit tests passed
✅ unit tests passed
| problem | oneDNN (v3.9) time(ms) | oneDNN (703351) time(ms) | speedup (>1 is faster) |
|---|---|---|---|
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA8b4a 384x384 |
0.0083 | 0.00562 | |
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA4b4a 384x384 |
0.0083 | 0.00537 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=abx --dtag=abx 8x256x7x7 |
0.00391 | 0.00244 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=axb 8x256x7x7 |
0.00391 | 0.00244 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x7x7 |
0.00464 | 0.00342 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x7x7 |
0.00464 | 0.00293 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x7x7 |
0.00391 | 0.00244 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x7x7 |
0.00439 | 0.00269 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x7x7 |
0.00439 | 0.00269 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x7x7 |
0.00391 | 0.00244 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=axb 8x256x7x7 |
0.0061 | 0.00464 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x7x7 |
0.011 | 0.00562 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x7x7 |
0.011 | 0.00537 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x7x7 |
0.0061 | 0.00464 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x7x7 |
0.011 | 0.00488 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x7x7 |
0.0107 | 0.00488 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x7x7 |
0.0061 | 0.00464 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=abx --dtag=abx 8x256x7x7 |
0.00439 | 0.00317 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=axb 8x256x7x7 |
0.00439 | 0.00317 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x7x7 |
0.00732 | 0.00366 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x7x7 |
0.00732 | 0.00366 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x7x7 |
0.00439 | 0.00317 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x7x7 |
0.00732 | 0.00342 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x7x7 |
0.00708 | 0.00342 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x7x7 |
0.00439 | 0.00317 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=abx --dtag=abx 8x256x7x7 |
0.00391 | 0.0022 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=axb 8x256x7x7 |
0.00391 | 0.0022 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x7x7 |
0.00464 | 0.00317 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x7x7 |
0.00464 | 0.00293 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x7x7 |
0.00391 | 0.0022 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x7x7 |
0.00439 | 0.00293 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x7x7 |
0.00439 | 0.00281 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x7x7 |
0.00391 | 0.0022 |
| problem | oneDNN (v3.9) time(ms) | oneDNN (703351) time(ms) | speedup (>1 is faster) |
|---|---|---|---|
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 12x128x64:12x64x128-n"encoder:QK-matmul:12" |
0.115 | 0.0972 | |
matmul dt=s8:s8:f32 bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 --bia-dt=f32 --bia-mask=4 12x128x64:12x64x128-n"encoder:QK-matmul:12" |
0.257 | 0.228 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 12x128x128:12x128x64-n"encoder:WV-matmul:12" |
0.0902 | 0.0818 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 1536x128x64:1536x64x128-n"encoder:QK-matmul:12" |
12.8 | 10.3 | |
matmul dt=s8:s8:f32 bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 --bia-dt=f32 --bia-mask=4 1536x128x64:1536x64x128-n"encoder:QK-matmul:12" |
26.7 | 24 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 1536x128x128:1536x128x64-n"encoder:WV-matmul:12" |
8.96 | 7.79 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 12x128x64:12x64x128-n"encoder:QK-matmul:12" |
0.117 | 0.0983 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 12x128x128:12x128x64-n"encoder:WV-matmul:12" |
0.0903 | 0.0818 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 1536x128x64:1536x64x128-n"encoder:QK-matmul:12" |
12.8 | 10.3 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 1536x128x128:1536x128x64-n"encoder:WV-matmul:12" |
8.96 | 7.78 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb1ic64ih200iw267oc256oh200ow267kh1kw1ph0pw0 |
1.63 | 2.65 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1" |
31.5 | 12.1 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1" |
31.5 | 12.1 | |
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1" |
33.2 | 12.2 | |
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1" |
33.2 | 12.2 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic64ih56oc256oh56kh1ph0n"resnet-50:res2a-branch1*4" |
5.49 | 7.57 | |
conv--mode=P --max-ms-per-prb=300 --conv mb50ic64ih56oc256oh56kh1ph0n"resnet-50:res2a-branch1*4" |
5.49 | 7.61 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic64ih56oc64oh56kh1ph0n"resnet-50:res2a-branch2a" |
1.22 | 2.72 | |
conv--mode=P --max-ms-per-prb=300 --conv mb50ic64ih56oc64oh56kh1ph0n"resnet-50:res2a-branch2a" |
1.22 | 2.74 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic256ih56oc64oh56kh1ph0n"resnet-50:res2b-branch2a*2" |
4.95 | 10.6 | |
conv--mode=P --max-ms-per-prb=300 --conv mb50ic256ih56oc64oh56kh1ph0n"resnet-50:res2b-branch2a*2" |
4.96 | 10.7 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1" |
41.2 | 12.1 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1" |
41.2 | 12.1 | |
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1" |
41.3 | 12.2 | |
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1" |
41.3 | 12.2 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a" |
7.92 | 3.06 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a" |
7.91 | 3.06 | |
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a" |
7.97 | 3.08 | |
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a" |
7.98 | 3.08 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic128ih28oc512oh28kh1ph0n"resnet-50:res3a-branch2c*4" |
5.02 | 9.87 | |
conv--mode=P --max-ms-per-prb=300 --conv mb50ic128ih28oc512oh28kh1ph0n"resnet-50:res3a-branch2c*4" |
5.02 | 9.89 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic512ih28oc128oh28kh1ph0n"resnet-50:res3b-branch2a*3" |
5.06 | 9.93 | |
conv--mode=P --max-ms-per-prb=300 --conv mb50ic512ih28oc128oh28kh1ph0n"resnet-50:res3b-branch2a*3" |
5.07 | 9.93 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1" |
24.6 | 13.3 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1" |
24.6 | 13.3 | |
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1" |
24.7 | 13.3 | |
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1" |
24.7 | 13.3 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a" |
6.78 | 3.3 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a" |
6.78 | 3.3 | |
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a" |
6.8 | 3.32 | |
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a" |
6.8 | 3.32 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic256ih14oc1024oh14kh1ph0n"resnet-50:res4a-branch2c*6" |
5.09 | 9.91 | |
conv--mode=P --max-ms-per-prb=300 --conv mb50ic256ih14oc1024oh14kh1ph0n"resnet-50:res4a-branch2c*6" |
5.1 | 9.92 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic1024ih14oc256oh14kh1ph0n"resnet-50:res4b-branch2a*5" |
5.43 | 9.96 | |
conv--mode=P --max-ms-per-prb=300 --conv mb50ic1024ih14oc256oh14kh1ph0n"resnet-50:res4b-branch2a*5" |
5.43 | 9.97 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1" |
25.4 | 14.8 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1" |
25.4 | 14.8 | |
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1" |
25.5 | 14.9 | |
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1" |
25.5 | 14.9 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a" |
11 | 3.69 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a" |
11 | 3.69 | |
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a" |
11 | 3.72 | |
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a" |
11 | 3.72 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic512ih7oc2048oh7kh1ph0n"resnet-50:res5a-branch2c*3" |
5.1 | 9.91 | |
conv--mode=P --max-ms-per-prb=300 --conv mb50ic512ih7oc2048oh7kh1ph0n"resnet-50:res5a-branch2c*3" |
5.1 | 9.91 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic2048ih7oc512oh7kh1ph0n"resnet-50:res5b-branch2a*2" |
5.51 | 10.1 | |
conv--mode=P --max-ms-per-prb=300 --conv mb50ic2048ih7oc512oh7kh1ph0n"resnet-50:res5b-branch2a*2" |
5.51 | 10.1 | |
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA8b4a 384x384 |
0.00708 | 0.00439 | |
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA4b4a 384x384 |
0.00708 | 0.00427 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=abx --dtag=abx 8x256x7x7 |
0.00317 | 0.0022 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=axb 8x256x7x7 |
0.0033 | 0.0022 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x7x7 |
0.00391 | 0.00293 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=aBx8b 8x256x7x7 |
0.0022 | 0.00244 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x7x7 |
0.00415 | 0.00244 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x7x7 |
0.00317 | 0.0022 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x7x7 |
0.00391 | 0.00244 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=axb 8x256x7x7 |
0.00244 | 0.00244 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x7x7 |
0.00391 | 0.00244 | |
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x7x7 |
0.00317 | 0.0022 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=axb 8x256x7x7 |
0.00464 | 0.00391 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x7x7 |
0.00952 | 0.00439 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x7x7 |
0.00952 | 0.00439 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x7x7 |
0.00464 | 0.00391 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x7x7 |
0.00952 | 0.00415 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x7x7 |
0.00928 | 0.00415 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x7x7 |
0.00464 | 0.00391 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=abx --dtag=abx 8x256x7x7 |
0.00342 | 0.00293 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=axb 8x256x7x7 |
0.00342 | 0.00293 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x7x7 |
0.00659 | 0.00317 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x7x7 |
0.00659 | 0.00317 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x7x7 |
0.00342 | 0.00293 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x7x7 |
0.00659 | 0.00317 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x7x7 |
0.00659 | 0.00293 | |
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x7x7 |
0.00342 | 0.00293 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=abx --dtag=abx 8x256x7x7 |
0.00342 | 0.00195 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=axb 8x256x7x7 |
0.00342 | 0.00195 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x7x7 |
0.00391 | 0.00293 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x7x7 |
0.00391 | 0.00269 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x7x7 |
0.00342 | 0.00195 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x7x7 |
0.00391 | 0.00244 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x7x7 |
0.00391 | 0.00244 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x7x7 |
0.00342 | 0.00195 |