inclusionAI
diff --git a/‎areal/api/cli_args.py‎
Lines changed: 16 additions & 0 deletions b/‎areal/api/cli_args.py‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎areal/engine/ppo/actor.py‎
Lines changed: 405 additions & 9 deletions b/‎areal/engine/ppo/actor.py‎
Lines changed: 405 additions & 9 deletions
@@ -16,6 +16,10 @@
 
 from areal.platforms import current_platform
 from areal.utils import logging, name_resolve, pkg_version
+from areal.utils.constants import (
+    PROX_LOGP_METHOD_RECOMPUTE,
+    PROX_LOGP_METHODS_ALL,
+)
 from areal.utils.pkg_version import is_version_less
 
 uvloop.install()
@@ -639,6 +643,18 @@ class PPOActorConfig(TrainEngineConfig):
             "choices": ["token", "sequence"],
         },
     )
+    # Proximal Log-Probability Computation Method
+    prox_logp_method: str = field(
+        default=PROX_LOGP_METHOD_RECOMPUTE,
+        metadata={
+            "help": "Method for computing proximal policy log-probabilities in decoupled PPO. "
+            "Only effective when use_decoupled_loss=True. Options: "
+            "'recompute' (default): Standard decoupled PPO, recompute proximal policy via forward pass. "
+            "'loglinear': Use log-linear interpolation to approximate proximal policy (skip forward pass). "
+            "'metrics': Like 'recompute', but also compute approximation metrics for evaluation.",
+            "choices": PROX_LOGP_METHODS_ALL,
+        },
+    )
     # Advanced Options
     dynamic_sampling: bool = field(
         default=False,