Skip to content

AArch64 status

[bot] vpirogov edited this page Dec 3, 2025 · 345 revisions

AArch64 Testing Status

Unit test results

c6g

✅ unit tests passed

c7g

✅ unit tests passed

c8g

✅ unit tests passed

Performance test results

c7g

problem oneDNN (v3.9) time(ms) oneDNN (703351) time(ms) speedup (>1 is faster)
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA8b4a 384x384
0.0083 0.00562 $${\color{green}1.48\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA4b4a 384x384
0.0083 0.00537 $${\color{green}1.55\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=abx --dtag=abx 8x256x7x7
0.00391 0.00244 $${\color{green}1.6\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=axb 8x256x7x7
0.00391 0.00244 $${\color{green}1.6\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x7x7
0.00464 0.00342 $${\color{green}1.36\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x7x7
0.00464 0.00293 $${\color{green}1.58\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x7x7
0.00391 0.00244 $${\color{green}1.6\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x7x7
0.00439 0.00269 $${\color{green}1.64\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x7x7
0.00439 0.00269 $${\color{green}1.64\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x7x7
0.00391 0.00244 $${\color{green}1.6\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=axb 8x256x7x7
0.0061 0.00464 $${\color{green}1.32\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x7x7
0.011 0.00562 $${\color{green}1.96\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x7x7
0.011 0.00537 $${\color{green}2.05\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x7x7
0.0061 0.00464 $${\color{green}1.32\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x7x7
0.011 0.00488 $${\color{green}2.25\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x7x7
0.0107 0.00488 $${\color{green}2.2\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x7x7
0.0061 0.00464 $${\color{green}1.32\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=abx --dtag=abx 8x256x7x7
0.00439 0.00317 $${\color{green}1.38\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=axb 8x256x7x7
0.00439 0.00317 $${\color{green}1.38\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x7x7
0.00732 0.00366 $${\color{green}2\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x7x7
0.00732 0.00366 $${\color{green}2\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x7x7
0.00439 0.00317 $${\color{green}1.38\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x7x7
0.00732 0.00342 $${\color{green}2.14\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x7x7
0.00708 0.00342 $${\color{green}2.07\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x7x7
0.00439 0.00317 $${\color{green}1.38\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=abx --dtag=abx 8x256x7x7
0.00391 0.0022 $${\color{green}1.78\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=axb 8x256x7x7
0.00391 0.0022 $${\color{green}1.78\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x7x7
0.00464 0.00317 $${\color{green}1.46\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x7x7
0.00464 0.00293 $${\color{green}1.58\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x7x7
0.00391 0.0022 $${\color{green}1.78\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x7x7
0.00439 0.00293 $${\color{green}1.5\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x7x7
0.00439 0.00281 $${\color{green}1.57\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x7x7
0.00391 0.0022 $${\color{green}1.78\times}$$

c8g

problem oneDNN (v3.9) time(ms) oneDNN (703351) time(ms) speedup (>1 is faster)
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 12x128x64:12x64x128-n"encoder:QK-matmul:12"
0.115 0.0972 $${\color{green}1.18\times}$$
matmul dt=s8:s8:f32 bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 --bia-dt=f32 --bia-mask=4 12x128x64:12x64x128-n"encoder:QK-matmul:12"
0.257 0.228 $${\color{green}1.12\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 12x128x128:12x128x64-n"encoder:WV-matmul:12"
0.0902 0.0818 $${\color{green}1.1\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 1536x128x64:1536x64x128-n"encoder:QK-matmul:12"
12.8 10.3 $${\color{green}1.24\times}$$
matmul dt=s8:s8:f32 bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 --bia-dt=f32 --bia-mask=4 1536x128x64:1536x64x128-n"encoder:QK-matmul:12"
26.7 24 $${\color{green}1.11\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 1536x128x128:1536x128x64-n"encoder:WV-matmul:12"
8.96 7.79 $${\color{green}1.15\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 12x128x64:12x64x128-n"encoder:QK-matmul:12"
0.117 0.0983 $${\color{green}1.19\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 12x128x128:12x128x64-n"encoder:WV-matmul:12"
0.0903 0.0818 $${\color{green}1.1\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 1536x128x64:1536x64x128-n"encoder:QK-matmul:12"
12.8 10.3 $${\color{green}1.24\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 1536x128x128:1536x128x64-n"encoder:WV-matmul:12"
8.96 7.78 $${\color{green}1.15\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb1ic64ih200iw267oc256oh200ow267kh1kw1ph0pw0
1.63 2.65 $${\color{red}0.616\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1"
31.5 12.1 $${\color{green}2.6\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1"
31.5 12.1 $${\color{green}2.6\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1"
33.2 12.2 $${\color{green}2.73\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic3ih224oc64oh112kh7sh2ph3n"resnet-50:conv1"
33.2 12.2 $${\color{green}2.72\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic64ih56oc256oh56kh1ph0n"resnet-50:res2a-branch1*4"
5.49 7.57 $${\color{red}0.725\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic64ih56oc256oh56kh1ph0n"resnet-50:res2a-branch1*4"
5.49 7.61 $${\color{red}0.722\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic64ih56oc64oh56kh1ph0n"resnet-50:res2a-branch2a"
1.22 2.72 $${\color{red}0.449\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic64ih56oc64oh56kh1ph0n"resnet-50:res2a-branch2a"
1.22 2.74 $${\color{red}0.447\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic256ih56oc64oh56kh1ph0n"resnet-50:res2b-branch2a*2"
4.95 10.6 $${\color{red}0.467\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic256ih56oc64oh56kh1ph0n"resnet-50:res2b-branch2a*2"
4.96 10.7 $${\color{red}0.465\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
41.2 12.1 $${\color{green}3.4\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
41.2 12.1 $${\color{green}3.41\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
41.3 12.2 $${\color{green}3.4\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
41.3 12.2 $${\color{green}3.4\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
7.92 3.06 $${\color{green}2.59\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
7.91 3.06 $${\color{green}2.58\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
7.97 3.08 $${\color{green}2.59\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
7.98 3.08 $${\color{green}2.59\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic128ih28oc512oh28kh1ph0n"resnet-50:res3a-branch2c*4"
5.02 9.87 $${\color{red}0.508\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic128ih28oc512oh28kh1ph0n"resnet-50:res3a-branch2c*4"
5.02 9.89 $${\color{red}0.508\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic512ih28oc128oh28kh1ph0n"resnet-50:res3b-branch2a*3"
5.06 9.93 $${\color{red}0.509\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic512ih28oc128oh28kh1ph0n"resnet-50:res3b-branch2a*3"
5.07 9.93 $${\color{red}0.51\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
24.6 13.3 $${\color{green}1.86\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
24.6 13.3 $${\color{green}1.86\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
24.7 13.3 $${\color{green}1.86\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
24.7 13.3 $${\color{green}1.86\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
6.78 3.3 $${\color{green}2.05\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
6.78 3.3 $${\color{green}2.05\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
6.8 3.32 $${\color{green}2.05\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
6.8 3.32 $${\color{green}2.05\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic256ih14oc1024oh14kh1ph0n"resnet-50:res4a-branch2c*6"
5.09 9.91 $${\color{red}0.514\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic256ih14oc1024oh14kh1ph0n"resnet-50:res4a-branch2c*6"
5.1 9.92 $${\color{red}0.515\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic1024ih14oc256oh14kh1ph0n"resnet-50:res4b-branch2a*5"
5.43 9.96 $${\color{red}0.545\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic1024ih14oc256oh14kh1ph0n"resnet-50:res4b-branch2a*5"
5.43 9.97 $${\color{red}0.545\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
25.4 14.8 $${\color{green}1.72\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
25.4 14.8 $${\color{green}1.72\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
25.5 14.9 $${\color{green}1.71\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
25.5 14.9 $${\color{green}1.71\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
11 3.69 $${\color{green}2.98\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
11 3.69 $${\color{green}2.97\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
11 3.72 $${\color{green}2.95\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
11 3.72 $${\color{green}2.95\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic512ih7oc2048oh7kh1ph0n"resnet-50:res5a-branch2c*3"
5.1 9.91 $${\color{red}0.515\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic512ih7oc2048oh7kh1ph0n"resnet-50:res5a-branch2c*3"
5.1 9.91 $${\color{red}0.515\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D mb50ic2048ih7oc512oh7kh1ph0n"resnet-50:res5b-branch2a*2"
5.51 10.1 $${\color{red}0.546\times}$$
conv--mode=P --max-ms-per-prb=300 --conv mb50ic2048ih7oc512oh7kh1ph0n"resnet-50:res5b-branch2a*2"
5.51 10.1 $${\color{red}0.545\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA8b4a 384x384
0.00708 0.00439 $${\color{green}1.61\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ba --dtag=BA4b4a 384x384
0.00708 0.00427 $${\color{green}1.66\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=abx --dtag=abx 8x256x7x7
0.00317 0.0022 $${\color{green}1.44\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=axb 8x256x7x7
0.0033 0.0022 $${\color{green}1.5\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x7x7
0.00391 0.00293 $${\color{green}1.33\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=axb --dtag=aBx8b 8x256x7x7
0.0022 0.00244 $${\color{red}0.9\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x7x7
0.00415 0.00244 $${\color{green}1.7\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x7x7
0.00317 0.0022 $${\color{green}1.44\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x7x7
0.00391 0.00244 $${\color{green}1.6\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=axb 8x256x7x7
0.00244 0.00244 $${\color{red}1\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x7x7
0.00391 0.00244 $${\color{green}1.6\times}$$
reorder sdt=f32 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x7x7
0.00317 0.0022 $${\color{green}1.44\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=axb 8x256x7x7
0.00464 0.00391 $${\color{green}1.19\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x7x7
0.00952 0.00439 $${\color{green}2.17\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x7x7
0.00952 0.00439 $${\color{green}2.17\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x7x7
0.00464 0.00391 $${\color{green}1.19\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x7x7
0.00952 0.00415 $${\color{green}2.29\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x7x7
0.00928 0.00415 $${\color{green}2.24\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x7x7
0.00464 0.00391 $${\color{green}1.19\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=abx --dtag=abx 8x256x7x7
0.00342 0.00293 $${\color{green}1.17\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=axb 8x256x7x7
0.00342 0.00293 $${\color{green}1.17\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=axb --dtag=aBx4b 8x256x7x7
0.00659 0.00317 $${\color{green}2.08\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=axb 8x256x7x7
0.00659 0.00317 $${\color{green}2.08\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx4b 8x256x7x7
0.00342 0.00293 $${\color{green}1.17\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx4b --dtag=aBx8b 8x256x7x7
0.00659 0.00317 $${\color{green}2.08\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx4b 8x256x7x7
0.00659 0.00293 $${\color{green}2.25\times}$$
reorder sdt=s8 ddt=f32--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=f32 --stag=aBx8b --dtag=aBx8b 8x256x7x7
0.00342 0.00293 $${\color{green}1.17\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=abx --dtag=abx 8x256x7x7
0.00342 0.00195 $${\color{green}1.75\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=axb 8x256x7x7
0.00342 0.00195 $${\color{green}1.75\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=aBx4b 8x256x7x7
0.00391 0.00293 $${\color{green}1.33\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=axb 8x256x7x7
0.00391 0.00269 $${\color{green}1.45\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x7x7
0.00342 0.00195 $${\color{green}1.75\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx8b 8x256x7x7
0.00391 0.00244 $${\color{green}1.6\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx4b 8x256x7x7
0.00391 0.00244 $${\color{green}1.6\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x7x7
0.00342 0.00195 $${\color{green}1.75\times}$$

Clone this wiki locally