fold add with fneg to sub

Wolfram70 · Wolfram70 · commit 992685ce6564 · 2025-12-03T16:53:43.000Z
diff --git a/clang/include/clang/Basic/BuiltinsNVPTX.td b/clang/include/clang/Basic/BuiltinsNVPTX.td
@@ -476,30 +476,6 @@ def __nvvm_add_rz_d : NVPTXBuiltin<"double(double, double)">;
 def __nvvm_add_rm_d : NVPTXBuiltin<"double(double, double)">;
 def __nvvm_add_rp_d : NVPTXBuiltin<"double(double, double)">;
 
-// Sub
-
-def __nvvm_sub_rn_ftz_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rn_ftz_sat_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rn_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rn_sat_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rz_ftz_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rz_ftz_sat_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rz_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rz_sat_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rm_ftz_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rm_ftz_sat_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rm_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rm_sat_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rp_ftz_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rp_ftz_sat_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rp_f : NVPTXBuiltin<"float(float, float)">;
-def __nvvm_sub_rp_sat_f : NVPTXBuiltin<"float(float, float)">;
-
-def __nvvm_sub_rn_d : NVPTXBuiltin<"double(double, double)">;
-def __nvvm_sub_rz_d : NVPTXBuiltin<"double(double, double)">;
-def __nvvm_sub_rm_d : NVPTXBuiltin<"double(double, double)">;
-def __nvvm_sub_rp_d : NVPTXBuiltin<"double(double, double)">;
-
 // Convert
 
 def __nvvm_d2f_rn_ftz : NVPTXBuiltin<"float(double)">;
diff --git a/clang/test/CodeGen/builtins-nvptx.c b/clang/test/CodeGen/builtins-nvptx.c
@@ -1520,8 +1520,8 @@ __device__ void nvvm_min_max_sm86() {
   // CHECK: ret void
 }
 
-// CHECK-LABEL: nvvm_add_sub_fma_f32_sat
-__device__ void nvvm_add_sub_fma_f32_sat() {
+// CHECK-LABEL: nvvm_add_fma_f32_sat
+__device__ void nvvm_add_fma_f32_sat() {
   // CHECK: call float @llvm.nvvm.add.rn.sat.f
   __nvvm_add_rn_sat_f(1.0f, 2.0f);
   // CHECK: call float @llvm.nvvm.add.rn.ftz.sat.f
@@ -1539,23 +1539,6 @@ __device__ void nvvm_add_sub_fma_f32_sat() {
   // CHECK: call float @llvm.nvvm.add.rp.ftz.sat.f
   __nvvm_add_rp_ftz_sat_f(1.0f, 2.0f);
 
-  // CHECK: call float @llvm.nvvm.sub.rn.sat.f
-  __nvvm_sub_rn_sat_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rn.ftz.sat.f
-  __nvvm_sub_rn_ftz_sat_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rz.sat.f
-  __nvvm_sub_rz_sat_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rz.ftz.sat.f
-  __nvvm_sub_rz_ftz_sat_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rm.sat.f
-  __nvvm_sub_rm_sat_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rm.ftz.sat.f
-  __nvvm_sub_rm_ftz_sat_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rp.sat.f
-  __nvvm_sub_rp_sat_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rp.ftz.sat.f
-  __nvvm_sub_rp_ftz_sat_f(1.0f, 2.0f);
-
   // CHECK: call float @llvm.nvvm.fma.rn.sat.f
   __nvvm_fma_rn_sat_f(1.0f, 2.0f, 3.0f);
   // CHECK: call float @llvm.nvvm.fma.rn.ftz.sat.f
@@ -1575,39 +1558,3 @@ __device__ void nvvm_add_sub_fma_f32_sat() {
 
   // CHECK: ret void
 }
-
-// CHECK-LABEL: nvvm_sub_f32
-__device__ void nvvm_sub_f32() {
-  // CHECK: call float @llvm.nvvm.sub.rn.f
-  __nvvm_sub_rn_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rn.ftz.f
-  __nvvm_sub_rn_ftz_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rz.f
-  __nvvm_sub_rz_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rz.ftz.f
-  __nvvm_sub_rz_ftz_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rm.f
-  __nvvm_sub_rm_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rm.ftz.f
-  __nvvm_sub_rm_ftz_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rp.f
-  __nvvm_sub_rp_f(1.0f, 2.0f);
-  // CHECK: call float @llvm.nvvm.sub.rp.ftz.f
-  __nvvm_sub_rp_ftz_f(1.0f, 2.0f);
-
-  // CHECK: ret void
-}
-
-// CHECK-LABEL: nvvm_sub_f64
-__device__ void nvvm_sub_f64() {
-  // CHECK: call double @llvm.nvvm.sub.rn.d
-  __nvvm_sub_rn_d(1.0f, 2.0f);
-  // CHECK: call double @llvm.nvvm.sub.rz.d 
-  __nvvm_sub_rz_d(1.0f, 2.0f);
-  // CHECK: call double @llvm.nvvm.sub.rm.d
-  __nvvm_sub_rm_d(1.0f, 2.0f);
-  // CHECK: call double @llvm.nvvm.sub.rp.d
-  __nvvm_sub_rp_d(1.0f, 2.0f);
-
-  // CHECK: ret void
-}
diff --git a/llvm/include/llvm/IR/IntrinsicsNVVM.td b/llvm/include/llvm/IR/IntrinsicsNVVM.td
@@ -1581,20 +1581,6 @@ let TargetPrefix = "nvvm" in {
           DefaultAttrsIntrinsic<[llvm_double_ty], [llvm_double_ty, llvm_double_ty]>;
     } // rnd
   }
-  
-  //
-  // Sub
-  //
-  foreach rnd = ["_rn", "_rz", "_rm", "_rp"] in {
-    foreach ftz = ["", "_ftz"] in {
-      foreach sat = ["", "_sat"] in {
-        def int_nvvm_sub # rnd # ftz # sat # _f : NVVMBuiltin,
-        PureIntrinsic<[llvm_float_ty], [llvm_float_ty, llvm_float_ty]>;
-      } // sat
-    } // ftz
-    def int_nvvm_sub # rnd # _d : NVVMBuiltin,
-        PureIntrinsic<[llvm_double_ty], [llvm_double_ty, llvm_double_ty]>;
-  } // rnd
 
   //
   // Dot Product
diff --git a/llvm/lib/Target/NVPTX/NVPTXISelLowering.cpp b/llvm/lib/Target/NVPTX/NVPTXISelLowering.cpp
@@ -866,14 +866,28 @@ NVPTXTargetLowering::NVPTXTargetLowering(const NVPTXTargetMachine &TM,
   setOperationAction(ISD::UMUL_LOHI, MVT::i64, Expand);
 
   // We have some custom DAG combine patterns for these nodes
-  setTargetDAGCombine(
-      {ISD::ADD,          ISD::AND,           ISD::EXTRACT_VECTOR_ELT,
-       ISD::FADD,         ISD::FMAXNUM,       ISD::FMINNUM,
-       ISD::FMAXIMUM,     ISD::FMINIMUM,      ISD::FMAXIMUMNUM,
-       ISD::FMINIMUMNUM,  ISD::MUL,           ISD::SHL,
-       ISD::SREM,         ISD::UREM,          ISD::VSELECT,
-       ISD::BUILD_VECTOR, ISD::ADDRSPACECAST, ISD::LOAD,
-       ISD::STORE,        ISD::ZERO_EXTEND,   ISD::SIGN_EXTEND});
+  setTargetDAGCombine({ISD::ADD,
+                       ISD::AND,
+                       ISD::EXTRACT_VECTOR_ELT,
+                       ISD::FADD,
+                       ISD::FMAXNUM,
+                       ISD::FMINNUM,
+                       ISD::FMAXIMUM,
+                       ISD::FMINIMUM,
+                       ISD::FMAXIMUMNUM,
+                       ISD::FMINIMUMNUM,
+                       ISD::MUL,
+                       ISD::SHL,
+                       ISD::SREM,
+                       ISD::UREM,
+                       ISD::VSELECT,
+                       ISD::BUILD_VECTOR,
+                       ISD::ADDRSPACECAST,
+                       ISD::LOAD,
+                       ISD::STORE,
+                       ISD::ZERO_EXTEND,
+                       ISD::SIGN_EXTEND,
+                       ISD::INTRINSIC_WO_CHAIN});
 
   // setcc for f16x2 and bf16x2 needs special handling to prevent
   // legalizer's attempt to scalarize it due to v2i1 not being legal.
@@ -6504,6 +6518,143 @@ static SDValue sinkProxyReg(SDValue R, SDValue Chain,
   }
 }
 
+static std::optional<unsigned> getSubF32Opc(Intrinsic::ID AddIntrinsicID) {
+  switch (AddIntrinsicID) {
+  default:
+    break;
+  case Intrinsic::nvvm_add_rn_f:
+    return NVPTXISD::SUB_RN_F;
+  case Intrinsic::nvvm_add_rn_sat_f:
+    return NVPTXISD::SUB_RN_SAT_F;
+  case Intrinsic::nvvm_add_rn_ftz_f:
+    return NVPTXISD::SUB_RN_FTZ_F;
+  case Intrinsic::nvvm_add_rn_ftz_sat_f:
+    return NVPTXISD::SUB_RN_FTZ_SAT_F;
+  case Intrinsic::nvvm_add_rz_f:
+    return NVPTXISD::SUB_RZ_F;
+  case Intrinsic::nvvm_add_rz_sat_f:
+    return NVPTXISD::SUB_RZ_SAT_F;
+  case Intrinsic::nvvm_add_rz_ftz_f:
+    return NVPTXISD::SUB_RZ_FTZ_F;
+  case Intrinsic::nvvm_add_rz_ftz_sat_f:
+    return NVPTXISD::SUB_RZ_FTZ_SAT_F;
+  case Intrinsic::nvvm_add_rm_f:
+    return NVPTXISD::SUB_RM_F;
+  case Intrinsic::nvvm_add_rm_sat_f:
+    return NVPTXISD::SUB_RM_SAT_F;
+  case Intrinsic::nvvm_add_rm_ftz_f:
+    return NVPTXISD::SUB_RM_FTZ_F;
+  case Intrinsic::nvvm_add_rm_ftz_sat_f:
+    return NVPTXISD::SUB_RM_FTZ_SAT_F;
+  case Intrinsic::nvvm_add_rp_f:
+    return NVPTXISD::SUB_RP_F;
+  case Intrinsic::nvvm_add_rp_sat_f:
+    return NVPTXISD::SUB_RP_SAT_F;
+  case Intrinsic::nvvm_add_rp_ftz_f:
+    return NVPTXISD::SUB_RP_FTZ_F;
+  case Intrinsic::nvvm_add_rp_ftz_sat_f:
+    return NVPTXISD::SUB_RP_FTZ_SAT_F;
+  }
+  llvm_unreachable("Invalid add intrinsic ID");
+  return std::nullopt;
+}
+
+static std::optional<unsigned> getSubF64Opc(Intrinsic::ID AddIntrinsicID) {
+  switch (AddIntrinsicID) {
+  default:
+    return std::nullopt;
+  case Intrinsic::nvvm_add_rn_d:
+    return NVPTXISD::SUB_RN_D;
+  case Intrinsic::nvvm_add_rz_d:
+    return NVPTXISD::SUB_RZ_D;
+  case Intrinsic::nvvm_add_rm_d:
+    return NVPTXISD::SUB_RM_D;
+  case Intrinsic::nvvm_add_rp_d:
+    return NVPTXISD::SUB_RP_D;
+  }
+  llvm_unreachable("Invalid add intrinsic ID");
+  return std::nullopt;
+}
+
+static SDValue combineF32AddWithNeg(SDNode *N, SelectionDAG &DAG,
+                                    Intrinsic::ID AddIntrinsicID,
+                                    unsigned PTXVersion, unsigned SmVersion) {
+  SDValue Op2 = N->getOperand(2);
+
+  if (Op2.getOpcode() != ISD::FNEG)
+    return SDValue();
+
+  // If PTX > 8.6 and SM >= 100, when Op1 is a fpextend from f16 or bf16, don't
+  // fold this pattern as this will be folded to a mixed precision instruction
+  // later on.
+  SDValue Op1 = N->getOperand(1);
+  if (PTXVersion >= 86 && SmVersion >= 100 &&
+      Op1.getOpcode() == ISD::FP_EXTEND) {
+    if (Op1.getOperand(0).getSimpleValueType() == MVT::f16 ||
+        Op1.getOperand(0).getSimpleValueType() == MVT::bf16)
+      return SDValue();
+  }
+
+  std::optional<unsigned> Opc = getSubF32Opc(AddIntrinsicID);
+  if (!Opc)
+    return SDValue();
+
+  SDLoc DL(N);
+  return DAG.getNode(*Opc, DL, N->getValueType(0), N->getOperand(1),
+                     Op2.getOperand(0));
+}
+
+static SDValue combineF64AddWithNeg(SDNode *N, SelectionDAG &DAG,
+                                    Intrinsic::ID AddIntrinsicID) {
+  SDValue Op2 = N->getOperand(2);
+
+  if (Op2.getOpcode() != ISD::FNEG)
+    return SDValue();
+
+  std::optional<unsigned> Opc = getSubF64Opc(AddIntrinsicID);
+  if (!Opc)
+    return SDValue();
+
+  SDLoc DL(N);
+  return DAG.getNode(*Opc, DL, N->getValueType(0), N->getOperand(1),
+                     Op2.getOperand(0));
+}
+
+static SDValue combineIntrinsicWOChain(SDNode *N,
+                                       TargetLowering::DAGCombinerInfo &DCI,
+                                       const NVPTXSubtarget &STI) {
+  unsigned IntID = N->getConstantOperandVal(0);
+
+  switch (IntID) {
+  default:
+    break;
+  case Intrinsic::nvvm_add_rn_f:
+  case Intrinsic::nvvm_add_rn_sat_f:
+  case Intrinsic::nvvm_add_rn_ftz_f:
+  case Intrinsic::nvvm_add_rn_ftz_sat_f:
+  case Intrinsic::nvvm_add_rz_f:
+  case Intrinsic::nvvm_add_rz_sat_f:
+  case Intrinsic::nvvm_add_rz_ftz_f:
+  case Intrinsic::nvvm_add_rz_ftz_sat_f:
+  case Intrinsic::nvvm_add_rm_f:
+  case Intrinsic::nvvm_add_rm_sat_f:
+  case Intrinsic::nvvm_add_rm_ftz_f:
+  case Intrinsic::nvvm_add_rm_ftz_sat_f:
+  case Intrinsic::nvvm_add_rp_f:
+  case Intrinsic::nvvm_add_rp_sat_f:
+  case Intrinsic::nvvm_add_rp_ftz_f:
+  case Intrinsic::nvvm_add_rp_ftz_sat_f:
+    return combineF32AddWithNeg(N, DCI.DAG, IntID, STI.getPTXVersion(),
+                                STI.getSmVersion());
+  case Intrinsic::nvvm_add_rn_d:
+  case Intrinsic::nvvm_add_rz_d:
+  case Intrinsic::nvvm_add_rm_d:
+  case Intrinsic::nvvm_add_rp_d:
+    return combineF64AddWithNeg(N, DCI.DAG, IntID);
+  }
+  return SDValue();
+}
+
 static SDValue combineProxyReg(SDNode *N,
                                TargetLowering::DAGCombinerInfo &DCI) {
 
@@ -6570,6 +6721,8 @@ SDValue NVPTXTargetLowering::PerformDAGCombine(SDNode *N,
     return combineSTORE(N, DCI, STI);
   case ISD::VSELECT:
     return PerformVSELECTCombine(N, DCI);
+  case ISD::INTRINSIC_WO_CHAIN:
+    return combineIntrinsicWOChain(N, DCI, STI);
   }
   return SDValue();
 }
diff --git a/llvm/lib/Target/NVPTX/NVPTXIntrinsics.td b/llvm/lib/Target/NVPTX/NVPTXIntrinsics.td
@@ -1910,27 +1910,25 @@ let Predicates = [hasSM<100>, hasPTX<86>, doNoF32FTZ] in {
 // Sub
 //
 
-def INT_NVVM_SUB_RN_FTZ_F : F_MATH_2<"sub.rn.ftz.f32", B32, B32, B32, int_nvvm_sub_rn_ftz_f>;
-def INT_NVVM_SUB_RN_SAT_FTZ_F : F_MATH_2<"sub.rn.sat.ftz.f32", B32, B32, B32, int_nvvm_sub_rn_ftz_sat_f>;
-def INT_NVVM_SUB_RN_F : F_MATH_2<"sub.rn.f32", B32, B32, B32, int_nvvm_sub_rn_f>;
-def INT_NVVM_SUB_RN_SAT_F : F_MATH_2<"sub.rn.sat.f32", B32, B32, B32, int_nvvm_sub_rn_sat_f>;
-def INT_NVVM_SUB_RZ_FTZ_F : F_MATH_2<"sub.rz.ftz.f32", B32, B32, B32, int_nvvm_sub_rz_ftz_f>;
-def INT_NVVM_SUB_RZ_SAT_FTZ_F : F_MATH_2<"sub.rz.sat.ftz.f32", B32, B32, B32, int_nvvm_sub_rz_ftz_sat_f>;
-def INT_NVVM_SUB_RZ_F : F_MATH_2<"sub.rz.f32", B32, B32, B32, int_nvvm_sub_rz_f>;
-def INT_NVVM_SUB_RZ_SAT_F : F_MATH_2<"sub.rz.sat.f32", B32, B32, B32, int_nvvm_sub_rz_sat_f>;
-def INT_NVVM_SUB_RM_FTZ_F : F_MATH_2<"sub.rm.ftz.f32", B32, B32, B32, int_nvvm_sub_rm_ftz_f>;
-def INT_NVVM_SUB_RM_SAT_FTZ_F : F_MATH_2<"sub.rm.sat.ftz.f32", B32, B32, B32, int_nvvm_sub_rm_ftz_sat_f>;
-def INT_NVVM_SUB_RM_F : F_MATH_2<"sub.rm.f32", B32, B32, B32, int_nvvm_sub_rm_f>;
-def INT_NVVM_SUB_RM_SAT_F : F_MATH_2<"sub.rm.sat.f32", B32, B32, B32, int_nvvm_sub_rm_sat_f>;
-def INT_NVVM_SUB_RP_FTZ_F : F_MATH_2<"sub.rp.ftz.f32", B32, B32, B32, int_nvvm_sub_rp_ftz_f>;
-def INT_NVVM_SUB_RP_SAT_FTZ_F : F_MATH_2<"sub.rp.sat.ftz.f32", B32, B32, B32, int_nvvm_sub_rp_ftz_sat_f>;
-def INT_NVVM_SUB_RP_F : F_MATH_2<"sub.rp.f32", B32, B32, B32, int_nvvm_sub_rp_f>;
-def INT_NVVM_SUB_RP_SAT_F : F_MATH_2<"sub.rp.sat.f32", B32, B32, B32, int_nvvm_sub_rp_sat_f>;
-
-def INT_NVVM_SUB_RN_D : F_MATH_2<"sub.rn.f64", B64, B64, B64, int_nvvm_sub_rn_d>;
-def INT_NVVM_SUB_RZ_D : F_MATH_2<"sub.rz.f64", B64, B64, B64, int_nvvm_sub_rz_d>;
-def INT_NVVM_SUB_RM_D : F_MATH_2<"sub.rm.f64", B64, B64, B64, int_nvvm_sub_rm_d>;
-def INT_NVVM_SUB_RP_D : F_MATH_2<"sub.rp.f64", B64, B64, B64, int_nvvm_sub_rp_d>;
+foreach rnd = ["_RN", "_RZ", "_RM", "_RP"] in {
+  foreach ftz = ["", "_FTZ"] in {
+    foreach sat = ["", "_SAT"] in {
+      def SUB_ # rnd # ftz # sat # _F : 
+        SDNode<"NVPTXISD::SUB" # rnd # ftz # sat # "_F", SDTFPBinOp>;
+      def INT_NVVM_SUB # rnd # ftz # sat # _F : 
+        BasicNVPTXInst<(outs B32:$dst), (ins B32:$a, B32:$b),
+          !tolower(!subst("_", ".", "sub" # rnd # ftz # sat # "_f32")),
+          [(set f32:$dst, 
+           (!cast<SDNode>("SUB_" # rnd # ftz # sat # "_F") f32:$a, f32:$b))]>;
+    }
+  }
+  
+  def SUB_ # rnd # _D : SDNode<"NVPTXISD::SUB" # rnd # "_D", SDTFPBinOp>;
+  def INT_NVVM_SUB # rnd # _D : BasicNVPTXInst<(outs B64:$dst), (ins B64:$a, B64:$b),
+    !tolower(!subst("_", ".", "sub" # rnd # "_f64")),
+    [(set f64:$dst, 
+     (!cast<SDNode>("SUB_" # rnd # "_D") f64:$a, f64:$b))]>;
+}
 
 foreach rnd = ["_rn", "_rz", "_rm", "_rp"] in {
   foreach sat = ["", "_sat"] in {
@@ -1939,9 +1937,9 @@ foreach rnd = ["_rn", "_rz", "_rm", "_rp"] in {
         BasicNVPTXInst<(outs B32:$dst), (ins B16:$a, B32:$b),
           !subst("_", ".", "sub" # rnd # sat # "_f32_" # type),
           [(set f32:$dst, 
-           (!cast<Intrinsic>("int_nvvm_sub" # rnd # sat # "_f") 
+           (!cast<Intrinsic>("int_nvvm_add" # rnd # sat # "_f") 
              (f32 (fpextend type:$a)),
-             f32:$b))]>,
+             (f32 (fneg f32:$b))))]>,
         Requires<[hasSM<100>, hasPTX<86>]>;
     }
   }
@@ -6236,3 +6234,4 @@ foreach sp = [0, 1] in {
     }
   }
 }
+
diff --git a/llvm/test/CodeGen/NVPTX/fp-fold-sub.ll b/llvm/test/CodeGen/NVPTX/fp-fold-sub.ll
diff --git a/llvm/test/CodeGen/NVPTX/mixed-precision-fp.ll b/llvm/test/CodeGen/NVPTX/mixed-precision-fp.ll