microsoft
diff --git a/‎Directory.Packages.props‎
Lines changed: 1 addition & 1 deletion b/‎Directory.Packages.props‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎Version.props‎
Lines changed: 1 addition & 1 deletion b/‎Version.props‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmark/BDN.benchmark/Embedded/GarnetServerEmbedded.cs‎
Lines changed: 22 additions & 0 deletions b/‎benchmark/BDN.benchmark/Embedded/GarnetServerEmbedded.cs‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎libs/cluster/Server/ClusterManagerWorkerState.cs‎
Lines changed: 18 additions & 4 deletions b/‎libs/cluster/Server/ClusterManagerWorkerState.cs‎
Lines changed: 18 additions & 4 deletions
diff --git a/‎libs/cluster/Server/ClusterProvider.cs‎
Lines changed: 8 additions & 0 deletions b/‎libs/cluster/Server/ClusterProvider.cs‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎libs/cluster/Server/Failover/ReplicaFailoverSession.cs‎
Lines changed: 2 additions & 2 deletions b/‎libs/cluster/Server/Failover/ReplicaFailoverSession.cs‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎libs/cluster/Server/Replication/PrimaryOps/AofSyncTaskInfo.cs‎
Lines changed: 3 additions & 0 deletions b/‎libs/cluster/Server/Replication/PrimaryOps/AofSyncTaskInfo.cs‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎libs/cluster/Server/Replication/RecoveryStatus.cs‎
Lines changed: 4 additions & 0 deletions b/‎libs/cluster/Server/Replication/RecoveryStatus.cs‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎libs/cluster/Server/Replication/ReplicaOps/ReplicaDisklessSync.cs‎
Lines changed: 27 additions & 20 deletions b/‎libs/cluster/Server/Replication/ReplicaOps/ReplicaDisklessSync.cs‎
Lines changed: 27 additions & 20 deletions
@@ -9,7 +9,7 @@
     <PackageVersion Include="BenchmarkDotNet.Diagnostics.Windows" Version="0.13.12" />
     <PackageVersion Include="CommandLineParser" Version="2.9.1" />
     <PackageVersion Include="JsonPath.Net" Version="1.1.6" />
-    <PackageVersion Include="KeraLua" Version="1.4.4" />
+    <PackageVersion Include="KeraLua" Version="1.4.6" />
     <PackageVersion Include="Microsoft.Identity.Client" Version="4.73.1" />
     <PackageVersion Include="NUnit" Version="4.1.0" />
     <PackageVersion Include="NUnit3TestAdapter" Version="4.6.0" />
 
@@ -1,6 +1,6 @@
 <Project>
 	<!-- VersionPrefix property for builds and packages -->
 	<PropertyGroup>
-		<VersionPrefix>1.0.79</VersionPrefix>
+		<VersionPrefix>1.0.80</VersionPrefix>
 	</PropertyGroup>
 </Project>
@@ -18,6 +18,28 @@ public GarnetServerEmbedded() : base(new IPEndPoint(IPAddress.Loopback, 0), 1 <<
         {
         }
 
+        /// <inheritdoc/>
+        public override IEnumerable<IMessageConsumer> ActiveConsumers()
+        {
+            foreach (var kvp in activeHandlers)
+            {
+                var consumer = kvp.Key.Session;
+                if (consumer != null)
+                    yield return consumer;
+            }
+        }
+
+        /// <inheritdoc/>
+        public override IEnumerable<IClusterSession> ActiveClusterSessions()
+        {
+            foreach (var kvp in activeHandlers)
+            {
+                var consumer = kvp.Key.Session;
+                if (consumer != null)
+                    yield return ((RespServerSession)consumer).clusterSession;
+            }
+        }
+
         public EmbeddedNetworkHandler CreateNetworkHandler(SslClientAuthenticationOptions tlsOptions = null, string remoteEndpointName = null)
         {
             var networkSender = new EmbeddedNetworkSender();
 
@@ -3,6 +3,7 @@
 
 using System;
 using System.Collections.Generic;
+using System.Diagnostics;
 using System.Text;
 using System.Threading;
 using Garnet.common;
@@ -141,11 +142,17 @@ public ReadOnlySpan<byte> TryReset(bool soft, int expirySeconds = 60)
         /// Try to make this node a replica of node with nodeid
         /// </summary>
         /// <param name="nodeid"></param>
-        /// <param name="force">Check if node is clean (i.e. is PRIMARY without any assigned nodes)</param>
+        /// <param name="force">If false, checks if node is clean (i.e. is PRIMARY without any assigned nodes) before making changes.</param>
+        /// <param name="upgradeLock">If true, allows for a <see cref="RecoveryStatus.ReadRole"/> read lock to be upgraded to <see cref="RecoveryStatus.ClusterReplicate"/>.</param>
         /// <param name="errorMessage">The ASCII encoded error response if the method returned <see langword="false"/>; otherwise <see langword="default"/></param>
         /// <param name="logger"></param>
-        public bool TryAddReplica(string nodeid, bool force, out ReadOnlySpan<byte> errorMessage, ILogger logger = null)
+        public bool TryAddReplica(string nodeid, bool force, bool upgradeLock, out ReadOnlySpan<byte> errorMessage, ILogger logger = null)
         {
+            Debug.Assert(
+                !upgradeLock || clusterProvider.replicationManager.currentRecoveryStatus == RecoveryStatus.ReadRole,
+                "Lock upgrades are only allowed if caller holds a ReadRole lock"
+            );
+
             errorMessage = default;
             while (true)
             {
@@ -188,7 +195,7 @@ public bool TryAddReplica(string nodeid, bool force, out ReadOnlySpan<byte> erro
 
                 // Transition to recovering state
                 // Only one caller will succeed in becoming a replica for the provided node-id
-                if (!clusterProvider.replicationManager.BeginRecovery(RecoveryStatus.ClusterReplicate))
+                if (!clusterProvider.replicationManager.BeginRecovery(RecoveryStatus.ClusterReplicate, upgradeLock))
                 {
                     logger?.LogError($"{nameof(TryAddReplica)}: {{logMessage}}", Encoding.ASCII.GetString(CmdStrings.RESP_ERR_GENERIC_CANNOT_ACQUIRE_RECOVERY_LOCK));
                     errorMessage = CmdStrings.RESP_ERR_GENERIC_CANNOT_ACQUIRE_RECOVERY_LOCK;
@@ -200,7 +207,14 @@ public bool TryAddReplica(string nodeid, bool force, out ReadOnlySpan<byte> erro
                     break;
 
                 // If we reach here then we failed to update config so we need to suspend recovery and retry to update the config
-                clusterProvider.replicationManager.EndRecovery(RecoveryStatus.NoRecovery);
+                if (upgradeLock)
+                {
+                    clusterProvider.replicationManager.EndRecovery(RecoveryStatus.ReadRole, downgradeLock: true);
+                }
+                else
+                {
+                    clusterProvider.replicationManager.EndRecovery(RecoveryStatus.NoRecovery, downgradeLock: false);
+                }
             }
             FlushConfig();
             return true;
 
@@ -84,6 +84,14 @@ public void Recover()
             replicationManager.Recover();
         }
 
+        /// <inheritdoc />
+        public bool PreventRoleChange()
+        => replicationManager.BeginRecovery(RecoveryStatus.ReadRole, upgradeLock: false);
+
+        /// <inheritdoc />
+        public void AllowRoleChange()
+        => replicationManager.EndRecovery(RecoveryStatus.NoRecovery, downgradeLock: false);
+
         /// <inheritdoc />
         public void Start()
         {
 
@@ -155,7 +155,7 @@ private bool TakeOverAsPrimary()
             try
             {
                 // Make replica syncing unavailable by setting recovery flag
-                if (!clusterProvider.replicationManager.BeginRecovery(RecoveryStatus.ClusterFailover))
+                if (!clusterProvider.replicationManager.BeginRecovery(RecoveryStatus.ClusterFailover, upgradeLock: false))
                 {
                     logger?.LogWarning($"{nameof(TakeOverAsPrimary)}: {{logMessage}}", Encoding.ASCII.GetString(CmdStrings.RESP_ERR_GENERIC_CANNOT_ACQUIRE_RECOVERY_LOCK));
                     return false;
@@ -181,7 +181,7 @@ private bool TakeOverAsPrimary()
             finally
             {
                 // Disable recovering as now this node has become a primary or failed in its attempt earlier
-                if (acquiredLock) clusterProvider.replicationManager.EndRecovery(RecoveryStatus.NoRecovery);
+                if (acquiredLock) clusterProvider.replicationManager.EndRecovery(RecoveryStatus.NoRecovery, downgradeLock: false);
             }
 
             return true;
 
@@ -5,6 +5,7 @@
 using System.Threading;
 using System.Threading.Tasks;
 using Garnet.client;
+using Garnet.common;
 using Microsoft.Extensions.Logging;
 using Tsavorite.core;
 
@@ -69,6 +70,8 @@ public unsafe void Consume(byte* payloadPtr, int payloadLength, long currentAddr
         {
             try
             {
+                ExceptionInjectionHelper.TriggerException(ExceptionInjectionType.Aof_Sync_Task_Consume);
+
                 // logger?.LogInformation("Sending {payloadLength} bytes to {remoteNodeId} at address {currentAddress}-{nextAddress}", payloadLength, remoteNodeId, currentAddress, nextAddress);
 
                 // This is called under epoch protection, so we have to wait for appending to complete
 
@@ -32,5 +32,9 @@ public enum RecoveryStatus : byte
         /// Replica has recovered the checkpoint after signal from primary
         /// </summary>
         CheckpointRecoveredAtReplica,
+        /// <summary>
+        /// Need to ensure a node does not change its role during a commit or checkpoint
+        /// </summary>
+        ReadRole,
     }
 }
@@ -6,6 +6,7 @@
 using System.Text;
 using System.Threading.Tasks;
 using Garnet.client;
+using Garnet.cluster.Server.Replication;
 using Microsoft.Extensions.Logging;
 
 namespace Garnet.cluster
@@ -15,36 +16,30 @@ internal sealed partial class ReplicationManager : IDisposable
         /// <summary>
         /// Try to replicate using diskless sync
         /// </summary>
-        /// <param name="session"></param>
-        /// <param name="nodeId"></param>
-        /// <param name="background"></param>
-        /// <param name="force"></param>
-        /// <param name="tryAddReplica"></param>
-        /// <param name="errorMessage"></param>
-        /// <returns></returns>
+        /// <param name="session">ClusterSession for this connection.</param>
+        /// <param name="options">Options for the sync.</param>
+        /// <param name="errorMessage">The ASCII encoded error message if the method returned <see langword="false"/>; otherwise <see langword="default"/></param>
+        /// <returns>A boolean indicating whether replication initiation was successful.</returns>
         public bool TryReplicateDisklessSync(
             ClusterSession session,
-            string nodeId,
-            bool background,
-            bool force,
-            bool tryAddReplica,
+            ReplicateSyncOptions options,
             out ReadOnlySpan<byte> errorMessage)
         {
             errorMessage = default;
 
             try
             {
-                logger?.LogTrace("CLUSTER REPLICATE {nodeid}", nodeId);
-                if (!clusterProvider.clusterManager.TryAddReplica(nodeId, force: force, out errorMessage, logger: logger))
+                logger?.LogTrace("CLUSTER REPLICATE {nodeid}", options.NodeId);
+                if (options.TryAddReplica && !clusterProvider.clusterManager.TryAddReplica(options.NodeId, options.Force, options.UpgradeLock, out errorMessage, logger: logger))
                     return false;
 
                 // Wait for threads to agree configuration change of this node
                 session.UnsafeBumpAndWaitForEpochTransition();
-                if (background)
-                    _ = Task.Run(() => TryBeginReplicaSync());
+                if (options.Background)
+                    _ = Task.Run(() => TryBeginReplicaSync(options.UpgradeLock));
                 else
                 {
-                    var result = TryBeginReplicaSync().Result;
+                    var result = TryBeginReplicaSync(options.UpgradeLock).Result;
                     if (result != null)
                     {
                         errorMessage = Encoding.ASCII.GetBytes(result);
@@ -58,7 +53,7 @@ public bool TryReplicateDisklessSync(
             }
             return true;
 
-            async Task<string> TryBeginReplicaSync()
+            async Task<string> TryBeginReplicaSync(bool downgradeLock)
             {
                 var disklessSync = clusterProvider.serverOptions.ReplicaDisklessSync;
                 var disableObjects = clusterProvider.serverOptions.DisableObjects;
@@ -129,12 +124,24 @@ async Task<string> TryBeginReplicaSync()
                 catch (Exception ex)
                 {
                     logger?.LogError(ex, $"{nameof(TryBeginReplicaSync)}");
-                    clusterProvider.clusterManager.TryResetReplica();
+
+                    if (options.AllowReplicaResetOnFailure)
+                    {
+                        clusterProvider.clusterManager.TryResetReplica();
+                    }
+
                     return ex.Message;
                 }
                 finally
                 {
-                    EndRecovery(RecoveryStatus.NoRecovery);
+                    if (downgradeLock)
+                    {
+                        EndRecovery(RecoveryStatus.ReadRole, downgradeLock: true);
+                    }
+                    else
+                    {
+                        EndRecovery(RecoveryStatus.NoRecovery, downgradeLock: false);
+                    }
                     gcs?.Dispose();
                     recvCheckpointHandler?.Dispose();
                 }
@@ -188,7 +195,7 @@ public long ReplicaRecoverDiskless(SyncMetadata primarySyncMetadata, out ReadOnl
             finally
             {
                 // Done with recovery at this point
-                EndRecovery(RecoveryStatus.CheckpointRecoveredAtReplica);
+                EndRecovery(RecoveryStatus.CheckpointRecoveredAtReplica, downgradeLock: false);
             }
         }
     }
Original file line number	Diff line number	Diff line change
`@@ -84,6 +84,14 @@ public void Recover()`
`84`	`84`	`replicationManager.Recover();`
`85`	`85`	`}`
`86`	`86`
	`87`	`+ /// <inheritdoc />`
	`88`	`+ public bool PreventRoleChange()`
	`89`	`+ => replicationManager.BeginRecovery(RecoveryStatus.ReadRole, upgradeLock: false);`
	`90`	`+`
	`91`	`+ /// <inheritdoc />`
	`92`	`+ public void AllowRoleChange()`
	`93`	`+ => replicationManager.EndRecovery(RecoveryStatus.NoRecovery, downgradeLock: false);`
	`94`	`+`
`87`	`95`	`/// <inheritdoc />`
`88`	`96`	`public void Start()`
`89`	`97`	`{`
Original file line number	Diff line number	Diff line change
`@@ -155,7 +155,7 @@ private bool TakeOverAsPrimary()`
`155`	`155`	`try`
`156`	`156`	`{`
`157`	`157`	`// Make replica syncing unavailable by setting recovery flag`
`158`		`- if (!clusterProvider.replicationManager.BeginRecovery(RecoveryStatus.ClusterFailover))`
	`158`	`+ if (!clusterProvider.replicationManager.BeginRecovery(RecoveryStatus.ClusterFailover, upgradeLock: false))`
`159`	`159`	`{`
`160`	`160`	`logger?.LogWarning($"{nameof(TakeOverAsPrimary)}: {{logMessage}}", Encoding.ASCII.GetString(CmdStrings.RESP_ERR_GENERIC_CANNOT_ACQUIRE_RECOVERY_LOCK));`
`161`	`161`	`return false;`
`@@ -181,7 +181,7 @@ private bool TakeOverAsPrimary()`
`181`	`181`	`finally`
`182`	`182`	`{`
`183`	`183`	`// Disable recovering as now this node has become a primary or failed in its attempt earlier`
`184`		`- if (acquiredLock) clusterProvider.replicationManager.EndRecovery(RecoveryStatus.NoRecovery);`
	`184`	`+ if (acquiredLock) clusterProvider.replicationManager.EndRecovery(RecoveryStatus.NoRecovery, downgradeLock: false);`
`185`	`185`	`}`
`186`	`186`
`187`	`187`	`return true;`
Original file line number	Diff line number	Diff line change
`@@ -5,6 +5,7 @@`
`5`	`5`	`using System.Threading;`
`6`	`6`	`using System.Threading.Tasks;`
`7`	`7`	`using Garnet.client;`
	`8`	`+using Garnet.common;`
`8`	`9`	`using Microsoft.Extensions.Logging;`
`9`	`10`	`using Tsavorite.core;`
`10`	`11`
`@@ -69,6 +70,8 @@ public unsafe void Consume(byte* payloadPtr, int payloadLength, long currentAddr`
`69`	`70`	`{`
`70`	`71`	`try`
`71`	`72`	`{`
	`73`	`+ ExceptionInjectionHelper.TriggerException(ExceptionInjectionType.Aof_Sync_Task_Consume);`
	`74`	`+`
`72`	`75`	`// logger?.LogInformation("Sending {payloadLength} bytes to {remoteNodeId} at address {currentAddress}-{nextAddress}", payloadLength, remoteNodeId, currentAddress, nextAddress);`
`73`	`76`
`74`	`77`	`// This is called under epoch protection, so we have to wait for appending to complete`
Original file line number	Diff line number	Diff line change
`@@ -32,5 +32,9 @@ public enum RecoveryStatus : byte`
`32`	`32`	`/// Replica has recovered the checkpoint after signal from primary`
`33`	`33`	`/// </summary>`
`34`	`34`	`CheckpointRecoveredAtReplica,`
	`35`	`+ /// <summary>`
	`36`	`+ /// Need to ensure a node does not change its role during a commit or checkpoint`
	`37`	`+ /// </summary>`
	`38`	`+ ReadRole,`
`35`	`39`	`}`
`36`	`40`	`}`