diff --git a/csrc/config.hpp b/csrc/config.hpp
index 0e4f5b06..b56d200c 100644
--- a/csrc/config.hpp
+++ b/csrc/config.hpp
@@ -133,8 +133,11 @@ struct LowLatencyLayout {
         return reinterpret_cast<out_ptr_t>(reinterpret_cast<count_ptr_t>(ptr) + count);
     }
 
-    LowLatencyLayout(void* rdma_buffer, int num_max_dispatch_tokens_per_rank, int hidden, int num_ranks, int num_experts) {
+    LowLatencyLayout(
+        bool disable_ll_layered, void* rdma_buffer, int num_max_dispatch_tokens_per_rank, int hidden, int num_ranks, int num_experts) {
         const int num_scales = hidden / 128;
+        const int num_nodes = num_ranks / NUM_MAX_NVL_PEERS;  // TODO Automatically calculate the value of NUM_MAX_NVL_PEERS according to
+                                                              // the running situation of the process
 
         // Dispatch and combine layout:
         //  - 2 symmetric odd/even send buffer
@@ -145,7 +148,12 @@ struct LowLatencyLayout {
         // NOTES: you should add a control `int4` for combine messages if you want to do data transformation
         // NOTES: `num_scales * sizeof(nv_bfloat162)` means the per-128-channel min/max
         EP_HOST_ASSERT(num_scales * sizeof(float) <= hidden);
+        size_t per_meta_data_size = sizeof(int4);
+        size_t per_token_size = std::max(hidden * sizeof(nv_bfloat16), hidden + num_scales * sizeof(float));
         size_t num_bytes_per_dispatch_msg = sizeof(int4) + std::max(hidden * sizeof(nv_bfloat16), hidden + num_scales * sizeof(float));
+        if (!disable_ll_layered) {
+            num_bytes_per_dispatch_msg = per_meta_data_size + per_token_size;
+        }
         size_t num_bytes_per_combine_msg = num_scales * sizeof(nv_bfloat162) + hidden * sizeof(nv_bfloat16);
 
         // Send buffer
@@ -158,13 +166,23 @@ struct LowLatencyLayout {
         // Symmetric receive buffers
         // TODO: optimize memory usages
         size_t dispatch_recv_data_buffer_bytes = num_experts * num_max_dispatch_tokens_per_rank * num_bytes_per_dispatch_msg;
+        if (!disable_ll_layered) {
+            dispatch_recv_data_buffer_bytes = num_experts * num_max_dispatch_tokens_per_rank * per_meta_data_size +
+                num_nodes * num_max_dispatch_tokens_per_rank * per_token_size;  // means num_experts == local_experts * num_ranks
+        }
         size_t combine_recv_buffer_bytes = num_experts * num_max_dispatch_tokens_per_rank * num_bytes_per_combine_msg;
         size_t recv_buffer_bytes = std::max(dispatch_recv_data_buffer_bytes, combine_recv_buffer_bytes);
         EP_HOST_ASSERT(recv_buffer_bytes % sizeof(int4) == 0);
         total_bytes += recv_buffer_bytes * 2;
 
         // Symmetric signaling buffers
-        size_t dispatch_recv_count_buffer_bytes = num_experts * sizeof(int);
+        size_t dispatch_recv_count_buffer_bytes =
+            num_experts * sizeof(int);  // means num_experts == local_experts * num_ranks == local_experts * NUM_MAX_NVL_PEERS * num_nodes,
+                                        // Half is used in dispatch, and the other half is used in combine.
+        if (!disable_ll_layered) {
+            dispatch_recv_count_buffer_bytes +=
+                NUM_MAX_NVL_PEERS * num_nodes * num_max_dispatch_tokens_per_rank * sizeof(int) + NUM_MAX_NVL_PEERS * sizeof(int);
+        }
         size_t combine_recv_flag_buffer_bytes = dispatch_recv_count_buffer_bytes;
         size_t signaling_buffer_bytes = std::max(dispatch_recv_count_buffer_bytes, combine_recv_flag_buffer_bytes);
         size_t signaling_buffer_bytes_aligned = align_up<size_t>(signaling_buffer_bytes, 128);
@@ -187,8 +205,10 @@ struct LowLatencyLayout {
     }
 };
 
-size_t get_low_latency_rdma_size_hint(int num_max_dispatch_tokens_per_rank, int hidden, int num_ranks, int num_experts) {
-    auto num_bytes = LowLatencyLayout(nullptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts).total_bytes;
+size_t get_low_latency_rdma_size_hint(
+    bool dispatch_ll_dispatch_opt, int num_max_dispatch_tokens_per_rank, int hidden, int num_ranks, int num_experts) {
+    auto num_bytes =
+        LowLatencyLayout(dispatch_ll_dispatch_opt, nullptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts).total_bytes;
     return ((num_bytes + NUM_BUFFER_ALIGNMENT_BYTES) / NUM_BUFFER_ALIGNMENT_BYTES) * NUM_BUFFER_ALIGNMENT_BYTES;
 }
 
diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index ab305952..714774c8 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -132,12 +132,14 @@ Buffer::Buffer(int rank,
                bool low_latency_mode,
                bool explicitly_destroy,
                bool enable_shrink,
-               bool use_fabric)
+               bool use_fabric,
+               bool disable_ll_layered)
     : rank(rank),
       num_ranks(num_ranks),
       num_nvl_bytes(num_nvl_bytes),
       num_rdma_bytes(num_rdma_bytes),
       enable_shrink(enable_shrink),
+      _disable_ll_layered(disable_ll_layered),
       low_latency_mode(low_latency_mode),
       explicitly_destroy(explicitly_destroy),
       comm_stream(at::cuda::getStreamFromPool(true)),
@@ -1499,7 +1501,7 @@ void Buffer::clean_low_latency_buffer(int num_max_dispatch_tokens_per_rank, int
 #ifndef DISABLE_NVSHMEM
     EP_HOST_ASSERT(low_latency_mode);
 
-    auto layout = LowLatencyLayout(rdma_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts);
+    auto layout = LowLatencyLayout(_disable_ll_layered, rdma_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts);
     auto clean_meta_0 = layout.buffers[0].clean_meta();
     auto clean_meta_1 = layout.buffers[1].clean_meta();
 
@@ -1571,7 +1573,7 @@ Buffer::low_latency_dispatch(const torch::Tensor& x,
     auto num_local_experts = num_experts / num_ranks;
 
     // Buffer control
-    LowLatencyLayout layout(rdma_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts);
+    LowLatencyLayout layout(_disable_ll_layered, rdma_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts);
     EP_HOST_ASSERT(layout.total_bytes <= num_rdma_bytes);
     auto buffer = layout.buffers[low_latency_buffer_idx];
     auto next_buffer = layout.buffers[low_latency_buffer_idx ^= 1];
@@ -1616,6 +1618,7 @@ Buffer::low_latency_dispatch(const torch::Tensor& x,
     auto next_clean_meta = next_buffer.clean_meta();
     auto launcher = [=](int phases) {
         internode_ll::dispatch(
+            _disable_ll_layered,
             packed_recv_x.data_ptr(),
             packed_recv_x_scales_ptr,
             packed_recv_src_info.data_ptr<int64_t>(),
@@ -1729,7 +1732,7 @@ std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::functio
     auto num_combined_tokens = static_cast<int>(topk_weights.size(0));
 
     // Buffer control
-    LowLatencyLayout layout(rdma_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts);
+    LowLatencyLayout layout(_disable_ll_layered, rdma_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts);
     EP_HOST_ASSERT(layout.total_bytes <= num_rdma_bytes);
     auto buffer = layout.buffers[low_latency_buffer_idx];
     auto next_buffer = layout.buffers[low_latency_buffer_idx ^= 1];
@@ -1756,7 +1759,8 @@ std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::functio
     // Kernel launch
     auto next_clean_meta = next_buffer.clean_meta();
     auto launcher = [=](int phases) {
-        internode_ll::combine(combined_x.data_ptr(),
+        internode_ll::combine(_disable_ll_layered,
+                              combined_x.data_ptr(),
                               buffer.combine_rdma_recv_data_buffer,
                               buffer.combine_rdma_recv_flag_buffer,
                               buffer.combine_rdma_send_buffer,
@@ -1816,7 +1820,7 @@ std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::functio
 
 torch::Tensor Buffer::get_next_low_latency_combine_buffer(int num_max_dispatch_tokens_per_rank, int hidden, int num_experts) const {
 #ifndef DISABLE_NVSHMEM
-    LowLatencyLayout layout(rdma_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts);
+    LowLatencyLayout layout(_disable_ll_layered, rdma_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts);
 
     auto buffer = layout.buffers[low_latency_buffer_idx];
     auto dtype = torch::kBFloat16;
@@ -1881,7 +1885,7 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
         .def("current_stream_wait", &deep_ep::EventHandle::current_stream_wait);
 
     pybind11::class_<deep_ep::Buffer>(m, "Buffer")
-        .def(pybind11::init<int, int, int64_t, int64_t, bool, bool, bool, bool>())
+        .def(pybind11::init<int, int, int64_t, int64_t, bool, bool, bool, bool, bool>())
         .def("is_available", &deep_ep::Buffer::is_available)
         .def("get_num_rdma_ranks", &deep_ep::Buffer::get_num_rdma_ranks)
         .def("get_rdma_rank", &deep_ep::Buffer::get_rdma_rank)
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 604f3d9c..090e5a4f 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -70,6 +70,7 @@ struct Buffer {
 
     // Shrink mode buffer
     bool enable_shrink = false;
+    bool _disable_ll_layered = false;
     int* mask_buffer_ptr = nullptr;
     int* sync_buffer_ptr = nullptr;
 
@@ -120,7 +121,8 @@ struct Buffer {
            bool low_latency_mode,
            bool explicitly_destroy,
            bool enable_shrink,
-           bool use_fabric);
+           bool use_fabric,
+           bool _disable_ll_layered);
 
     ~Buffer() noexcept(false);
 
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index 95639e8e..c43dd5ec 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -282,7 +282,8 @@ void clean_low_latency_buffer(int* clean_0,
                               int* sync_buffer,
                               cudaStream_t stream);
 
-void dispatch(void* packed_recv_x,
+void dispatch(bool dispatch_ll_dispatch_opt,
+              void* packed_recv_x,
               void* packed_recv_x_scales,
               int64_t* packed_recv_src_info,
               int64_t* packed_recv_layout_range,
@@ -312,7 +313,8 @@ void dispatch(void* packed_recv_x,
               cudaStream_t stream,
               int phases);
 
-void combine(void* combined_x,
+void combine(bool dispatch_ll_dispatch_opt,
+             void* combined_x,
              void* rdma_recv_x,
              int* rdma_recv_flag,
              void* rdma_send_x,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index 9215b1cc..86dfaad3 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -1,7 +1,10 @@
+#include <cstdint>
+
 #include "configs.cuh"
 #include "exception.cuh"
 #include "ibgda_device.cuh"
 #include "launch.cuh"
+#include "utils.cuh"
 
 namespace deep_ep {
 
@@ -127,7 +130,8 @@ void clean_low_latency_buffer(int* clean_0,
 }
 
 template <bool kUseFP8, bool kUseUE8M0, int kHidden>
-__global__ __launch_bounds__(1024, 1) void dispatch(void* packed_recv_x,
+__global__ __launch_bounds__(1024, 1) void dispatch(bool disable_ll_layered,
+                                                    void* packed_recv_x,
                                                     void* packed_recv_x_scales,
                                                     int64_t* packed_recv_src_info,
                                                     int64_t* packed_recv_layout_range,
@@ -164,6 +168,20 @@ __global__ __launch_bounds__(1024, 1) void dispatch(void* packed_recv_x,
     const auto sub_warp_id = warp_id % num_warps_per_group;
     const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
 
+    const auto num_nvl_ranks = NUM_MAX_NVL_PEERS;
+    const auto num_nodes = num_ranks / num_nvl_ranks;
+    int* data_ready_counter = reinterpret_cast<int*>(rdma_recv_count + num_experts);
+    int* next_clean_data_ready_counter = reinterpret_cast<int*>(next_clean + num_experts);
+    auto* data_ready_send_buffer =
+        reinterpret_cast<int*>(data_ready_counter) + num_nodes * num_max_dispatch_tokens_per_rank * num_nvl_ranks;
+    if (!disable_ll_layered) {
+        if (thread_id < num_nvl_ranks) {
+            st_na_global(reinterpret_cast<int*>(data_ready_send_buffer) + thread_id, 2);  // set to 2
+        }
+        __syncthreads();
+        EP_DEVICE_ASSERT(num_ranks % num_nvl_ranks == 0);
+    }
+
     // May extract UE8M0 from the scales
     using scale_t = std::conditional_t<kUseUE8M0, uint8_t, float>;
     using packed_t = std::conditional_t<kUseUE8M0, uint32_t, float>;
@@ -177,11 +195,20 @@ __global__ __launch_bounds__(1024, 1) void dispatch(void* packed_recv_x,
 
     // Message package: index at source (int), 3 reserved int fields, hidden data, FP8 scales
     // NOTES: currently we have 3 reserved int fields for future use
+    // old code, not open dispatch opt {
     using vec_t = std::conditional_t<kUseFP8, int2, int4>;
     const size_t num_bytes_per_msg = sizeof(int4) + (kUseFP8 ? (kHidden + num_scales * sizeof(float)) : (kHidden * sizeof(nv_bfloat16)));
     const size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
     EP_DEVICE_ASSERT(num_bytes_per_msg % sizeof(int4) == 0);
-
+    // } open dispatch opt {
+    const size_t num_bytes_per_meta = sizeof(int4);
+    const size_t num_bytes_per_data = (kUseFP8 ? (kHidden + num_scales * sizeof(float)) : (kHidden * sizeof(nv_bfloat16)));
+    const size_t num_bytes_per_msg_new = num_bytes_per_meta + num_bytes_per_data;
+    EP_DEVICE_ASSERT(num_bytes_per_msg_new % sizeof(int4) == 0);
+
+    void* rdma_recv_x_meta = rdma_recv_x;
+    void* rdma_recv_x_data = (void*)(uint64_t(rdma_recv_x) + num_experts * num_max_dispatch_tokens_per_rank * num_bytes_per_meta);
+    //}
     // Expert counts
     constexpr int kNumMaxWarpGroups = 32;
     __shared__ int shared_num_tokens_sent_per_expert[kNumMaxWarpGroups];
@@ -202,7 +229,10 @@ __global__ __launch_bounds__(1024, 1) void dispatch(void* packed_recv_x,
 
         for (int token_idx = sm_id; token_idx < num_tokens; token_idx += num_sms) {
             const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
-            const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * num_bytes_per_msg);
+            auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * num_bytes_per_msg);
+            if (!disable_ll_layered) {
+                rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * num_bytes_per_msg_new);
+            }
             const auto rdma_x_vec = reinterpret_cast<vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
             const auto rdma_x_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + hidden_bytes);
 
@@ -253,29 +283,112 @@ __global__ __launch_bounds__(1024, 1) void dispatch(void* packed_recv_x,
 
             // Issue IBGDA sends
             if (dst_expert_idx >= 0) {
+                int send_node_id = dst_expert_idx >= 0 ? dst_expert_idx / num_local_experts / num_nvl_ranks : -1;
                 int slot_idx = lane_id == 0 ? atomicAdd(atomic_counter_per_expert + dst_expert_idx, 1) : 0;
                 slot_idx = __shfl_sync(0xffffffff, slot_idx, 0);
                 const auto dst_rank = dst_expert_idx / num_local_experts;
                 const auto dst_expert_local_idx = dst_expert_idx % num_local_experts;
-                const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
-                const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
-                    dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_msg +
-                    rank * num_max_dispatch_tokens_per_rank * num_bytes_per_msg + slot_idx * num_bytes_per_msg;
-                const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
-                if (not is_rank_masked<true>(mask_buffer_ptr, dst_rank)) {
-                    if (dst_p2p_ptr == 0) {
-                        nvshmemi_ibgda_put_nbi_warp(dst_ptr, src_ptr, num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
-                    } else {
-                        // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
-                        const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
-                        const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
-                        UNROLLED_WARP_COPY(8, lane_id, num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+                auto real_write_dst_rank = dst_rank / num_nvl_ranks * num_nvl_ranks +
+                    rank % num_nvl_ranks;  // send data to same gpu_device_id_rank(same-rail rdma traffic)
+                auto real_dst_expert_id = real_write_dst_rank * num_local_experts + dst_expert_local_idx;
+                if (!disable_ll_layered) {
+                    if (not is_rank_masked<true>(mask_buffer_ptr, real_write_dst_rank)) {  // send token
+                        {                                                                  // avoid sending repeatedly to the same node
+                            EP_DEVICE_ASSERT(num_topk <= 32);
+                            auto tmp_dst_expert_id =
+                                lane_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + lane_id)) : -1;
+                            auto tmp_dst_node_id = tmp_dst_expert_id >= 0 ? tmp_dst_expert_id / num_local_experts / num_nvl_ranks : -1;
+                            #pragma unroll
+                            for (int i = 0; i < warp_id; ++i) {
+                                auto dst_node_id = __shfl_sync(0xffffffff, tmp_dst_node_id, i);  // broadcast
+                                if (dst_node_id == send_node_id) {                               // whether to send repeatedly
+                                    send_node_id = -1;
+                                    break;
+                                }
+                            }
+                        }
+
+                        if (send_node_id != -1) {  // send token
+                            const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx) + num_bytes_per_meta;
+                            const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x_data) +
+                                (rank / num_nvl_ranks) * num_max_dispatch_tokens_per_rank * num_bytes_per_data +
+                                token_idx * num_bytes_per_data;
+                            const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, real_write_dst_rank);
+                            if (dst_p2p_ptr == 0) {  // one token only send once to a node
+                                nvshmemi_ibgda_put_nbi_warp(
+                                    dst_ptr, src_ptr, num_bytes_per_data, real_write_dst_rank, dst_expert_local_idx, lane_id, slot_idx);
+                            } else {
+                                // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
+                                const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
+                                const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
+                                UNROLLED_WARP_COPY(
+                                    7, lane_id, num_bytes_per_data / sizeof(int4), dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+                            }
+                        }
+                        if (send_node_id != -1) {  // send data ready flag
+                            const auto src_ptr = reinterpret_cast<uint64_t>(data_ready_send_buffer);
+                            const auto data_ready_counter_ptr = reinterpret_cast<uint64_t>(data_ready_counter) +
+                                (rank / num_nvl_ranks) * num_max_dispatch_tokens_per_rank * num_nvl_ranks * sizeof(int) +
+                                token_idx * num_nvl_ranks * sizeof(int);
+                            const auto data_ready_counter_p2p_ptr = nvshmemi_get_p2p_ptr(data_ready_counter_ptr, rank, real_write_dst_rank);
+                            if (data_ready_counter_p2p_ptr == 0) {  // one token only send once to a node
+                                nvshmemi_ibgda_put_nbi_warp(data_ready_counter_ptr,
+                                                            uint64_t(src_ptr),
+                                                            num_nvl_ranks * sizeof(int),
+                                                            real_write_dst_rank,
+                                                            dst_expert_local_idx,
+                                                            lane_id,
+                                                            slot_idx + 1);
+                            } else {
+                                const auto* src_int_ptr = reinterpret_cast<const int*>(src_ptr);
+                                const auto* dst_int_ptr = reinterpret_cast<int*>(data_ready_counter_p2p_ptr);
+                                UNROLLED_WARP_COPY(1, lane_id, num_nvl_ranks, dst_int_ptr, src_int_ptr, ld_nc_global, st_na_global);
+                            }
+                        }
+                    }
+                    // send meta
+                    const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
+                    const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x_meta) +
+                        dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_meta +
+                        rank * num_max_dispatch_tokens_per_rank * num_bytes_per_meta + slot_idx * num_bytes_per_meta;
+                    const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+                    if (not is_rank_masked<true>(mask_buffer_ptr, dst_rank)) {
+                        if (dst_p2p_ptr == 0) {
+                            nvshmemi_ibgda_put_nbi_warp(
+                                dst_ptr, src_ptr, num_bytes_per_meta, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
+                        } else {
+                            // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
+                            const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
+                            const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
+                            UNROLLED_WARP_COPY(
+                                1, lane_id, num_bytes_per_meta / sizeof(int4), dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+                        }
+                    }
+                }
+                if (disable_ll_layered) {
+                    const auto src_ptr = reinterpret_cast<uint64_t>(rdma_x_src_idx);
+                    const auto dst_ptr = reinterpret_cast<uint64_t>(rdma_recv_x) +
+                        dst_expert_local_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_msg +
+                        rank * num_max_dispatch_tokens_per_rank * num_bytes_per_msg + slot_idx * num_bytes_per_msg;
+                    const auto dst_p2p_ptr = nvshmemi_get_p2p_ptr(dst_ptr, rank, dst_rank);
+                    if (not is_rank_masked<true>(mask_buffer_ptr, dst_rank)) {
+                        if (dst_p2p_ptr == 0) {
+                            nvshmemi_ibgda_put_nbi_warp(
+                                dst_ptr, src_ptr, num_bytes_per_msg, dst_rank, dst_expert_local_idx, lane_id, slot_idx);
+                        } else {
+                            // NOTES: only 2 load iterations for 7K hidden with 8 unrolls
+                            const auto* src_int4_ptr = reinterpret_cast<const int4*>(src_ptr);
+                            const auto* dst_int4_ptr = reinterpret_cast<int4*>(dst_p2p_ptr);
+                            UNROLLED_WARP_COPY(8, lane_id, num_int4_per_msg, dst_int4_ptr, src_int4_ptr, ld_nc_global, st_na_global);
+                        }
                     }
                 }
-
                 // Increase counter after finishing
                 __syncwarp();
                 lane_id == 0 ? atomic_add_release_global(atomic_finish_counter_per_expert + dst_expert_idx, 1) : 0;
+                if (!disable_ll_layered) {
+                    lane_id == 0 ? atomic_add_release_global(atomic_finish_counter_per_expert + real_dst_expert_id, 1) : 0;
+                }
             }
         }
     } else if (warp_id == num_warps - 1) {
@@ -283,21 +396,23 @@ __global__ __launch_bounds__(1024, 1) void dispatch(void* packed_recv_x,
         if (sm_id == 0) {
             // The first SM is also responsible for checking QPs
             EP_DEVICE_ASSERT(ibgda_get_state()->num_rc_per_pe >= num_local_experts);
+            if (disable_ll_layered) {
+                // The first SM is also responsible for cleaning the next buffer
+                #pragma unroll
+                for (int i = lane_id; i < num_next_clean_int; i += 32)
+                    next_clean[i] = 0;
 
-            // The first SM is also responsible for cleaning the next buffer
-            #pragma unroll
-            for (int i = lane_id; i < num_next_clean_int; i += 32)
-                next_clean[i] = 0;
-
-            // Notify before executing `int_p`
-            __syncwarp();
-            #pragma unroll
-            for (int i = lane_id; i < num_experts; i += 32)
-                atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
+                // Notify before executing `int_p`
+                __syncwarp();
+                #pragma unroll
+                for (int i = lane_id; i < num_experts; i += 32)
+                    atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
+            }
         }
 
         // This SM should be responsible for some destination experts, read `topk_idx` for them
         int expert_count[kNumMaxWarpGroups] = {0};
+        int waiting_flag[kNumMaxWarpGroups] = {0};
         const auto expert_begin_idx = sm_id * num_warp_groups;
         const auto expert_end_idx = min(expert_begin_idx + num_warp_groups, num_experts);
 
@@ -307,18 +422,61 @@ __global__ __launch_bounds__(1024, 1) void dispatch(void* packed_recv_x,
             auto idx = static_cast<int>(__ldg(topk_idx + i));
             if (idx >= expert_begin_idx and idx < expert_end_idx)
                 expert_count[idx - expert_begin_idx]++;
+            if (!disable_ll_layered) {  // only open ll dispatch opt, should do
+                if (idx < 0)
+                    continue;
+                const auto dst_rank = idx / num_local_experts;
+                const auto dst_expert_local_idx = idx % num_local_experts;
+                auto real_write_dst_rank = dst_rank / num_nvl_ranks * num_nvl_ranks + rank % num_nvl_ranks;
+                auto real_dst_expert_id = real_write_dst_rank * num_local_experts + dst_expert_local_idx;
+                if (real_dst_expert_id >= expert_begin_idx and real_dst_expert_id < expert_end_idx)
+                    waiting_flag[real_dst_expert_id - expert_begin_idx]++;
+            }
         }
 
         // Warp reduce
         #pragma unroll
         for (int i = expert_begin_idx; i < expert_end_idx; ++i) {
             auto sum = warp_reduce_sum(expert_count[i - expert_begin_idx]);
+            auto waiting_flag_sum = 0;
+            if (!disable_ll_layered) {  // only open ll dispatch opt, should do
+                waiting_flag_sum = warp_reduce_sum(waiting_flag[i - expert_begin_idx]);
+            }
             if (lane_id == 0) {
                 shared_num_tokens_sent_per_expert[i - expert_begin_idx] = sum;
-                atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG - sum);
+                atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG - waiting_flag_sum - sum);
+            }
+        }
+    }
+
+    if (!disable_ll_layered and sm_id == num_sms - 1) {  // only open ll dispatch opt, should do
+        // The first SM is also responsible for cleaning the next buffer
+        #pragma unroll
+        for (int i = thread_id; i < num_experts; i += blockDim.x)  // clean for combine
+            next_clean[i] = 0;
+        // clean data ready flag
+        #pragma unroll 8
+        for (int i = thread_id; i < num_max_dispatch_tokens_per_rank * num_ranks; i += blockDim.x) {
+            int token_idx = i / num_ranks;
+            int rank_id = i % num_ranks;
+            {
+                auto node_id = rank_id / num_nvl_ranks;
+                auto nvl_rank_id = rank_id % num_nvl_ranks;
+                auto* data_ready_flag_ptr = reinterpret_cast<int*>(next_clean_data_ready_counter) +
+                    node_id * num_max_dispatch_tokens_per_rank * num_nvl_ranks + token_idx * num_nvl_ranks + rank % num_nvl_ranks;
+                EP_DEVICE_ASSERT(data_ready_flag_ptr - next_clean_data_ready_counter <
+                                 num_max_dispatch_tokens_per_rank * num_nodes * num_nvl_ranks * sizeof(int));
+                const auto data_ready_p2p_src_ptr =
+                    nvshmemi_get_p2p_ptr(uint64_t(data_ready_flag_ptr), rank, rank / num_nvl_ranks * num_nvl_ranks + nvl_rank_id);
+                reinterpret_cast<int*>(data_ready_p2p_src_ptr)[0] = 0;
             }
         }
+        __syncthreads();
+        #pragma unroll
+        for (int i = thread_id; i < num_experts; i += blockDim.x)
+            atomic_add_release_global(atomic_finish_counter_per_expert + i, FINISHED_SUM_TAG);
     }
+
     __syncthreads();
 
     // Issue count sends
@@ -363,9 +521,17 @@ LOW_LATENCY_DISPATCH_RECV:
     if (responsible_expert_idx < num_experts) {
         const auto src_rank = responsible_expert_idx / num_local_experts;
         const auto local_expert_idx = responsible_expert_idx % num_local_experts;
-        const auto rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
-            local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_msg +
-            src_rank * num_max_dispatch_tokens_per_rank * num_bytes_per_msg;
+        uint8_t* rdma_recv_x_uint8 = nullptr;
+        if (disable_ll_layered) {
+            rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x) +
+                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_msg +
+                src_rank * num_max_dispatch_tokens_per_rank * num_bytes_per_msg;
+        }
+        if (!disable_ll_layered) {
+            rdma_recv_x_uint8 = static_cast<uint8_t*>(rdma_recv_x_meta) +
+                local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_bytes_per_meta +
+                src_rank * num_max_dispatch_tokens_per_rank * num_bytes_per_meta;
+        }
         const auto recv_x_int4 =
             static_cast<int4*>(packed_recv_x) + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * hidden_int4;
         const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
@@ -420,19 +586,60 @@ LOW_LATENCY_DISPATCH_RECV:
         asm volatile("bar.sync %0, %1;" ::"r"(warp_group_id + 2), "r"(num_warps_per_group * 32));
         num_recv_tokens = shared_num_recv_tokens[warp_group_id];
         recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
+        const auto real_read_src_rank = src_rank % num_nvl_ranks + rank / num_nvl_ranks * num_nvl_ranks;
 
         // Copy tokens
         EP_DEVICE_ASSERT(num_scales <= 64);
         for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
             // Copy source info
-            const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * num_bytes_per_msg);
-            if (lane_id == 0)
-                recv_src_info[recv_token_begin_idx + i] = pack2<int, int64_t>(ld_nc_global(src_src_idx), src_rank);
-            __syncwarp();
+            int4* src_data = nullptr;
+            if (!disable_ll_layered) {
+                const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * num_bytes_per_meta);
+                int src_token_idx = 0;
+                if (lane_id == 0) {
+                    src_token_idx = ld_nc_global(src_src_idx);
+                    recv_src_info[recv_token_begin_idx + i] = pack2<int, int64_t>(src_token_idx, src_rank);
+                }
+                src_token_idx = __shfl_sync(0xffffffff, src_token_idx, 0);
+                const auto data_ready_flag_src_ptr = reinterpret_cast<int*>(data_ready_counter) +
+                    (src_rank / num_nvl_ranks) * num_max_dispatch_tokens_per_rank * num_nvl_ranks + src_token_idx * num_nvl_ranks +
+                    rank % num_nvl_ranks;
+                const auto src_data_ready_flag_p2p_ptr =
+                    reinterpret_cast<int*>(nvshmemi_get_p2p_ptr(uint64_t(data_ready_flag_src_ptr), rank, real_read_src_rank));
+                if (lane_id == 0) {
+                    int tmp = 0;
+                    auto start_time = clock64();
+                    while (tmp != 2) {  // wait for data to be ready
+                        tmp = ld_acquire_sys_global(src_data_ready_flag_p2p_ptr);
+                        if (clock64() - start_time >= NUM_TIMEOUT_CYCLES) {
+                            printf(
+                                "DeepEP ll dispatch recv data timeout,src_rank:%d, dst_rank: %d, real_read_src_rank:%d,src_token_idx:%d "
+                                "dst RDMA lane: %d, num_recv_tokens: %d\n",
+                                src_rank,
+                                rank,
+                                real_read_src_rank,
+                                src_token_idx,
+                                lane_id,
+                                num_recv_tokens);
+                            trap();
+                        }
+                    }
+                }
+                __syncwarp();
+                const auto src_ptr = reinterpret_cast<uint64_t>(rdma_recv_x_data) +
+                    (src_rank / num_nvl_ranks) * num_max_dispatch_tokens_per_rank * num_bytes_per_data + src_token_idx * num_bytes_per_data;
+                src_data = reinterpret_cast<int4*>(nvshmemi_get_p2p_ptr(src_ptr, rank, real_read_src_rank));
+            }
+            if (disable_ll_layered) {
+                const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * num_bytes_per_msg);
+                if (lane_id == 0)
+                    recv_src_info[recv_token_begin_idx + i] = pack2<int, int64_t>(ld_nc_global(src_src_idx), src_rank);
+                __syncwarp();
+                src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
+            }
 
             // Copy data
             // NOTES: only 2 load iterations for 7K hidden with 7 unrolls
-            const auto src_data = reinterpret_cast<int4*>(reinterpret_cast<uint8_t*>(src_src_idx) + sizeof(int4));
             const auto dst_data = recv_x_int4 + (recv_token_begin_idx + i) * hidden_int4;
             UNROLLED_WARP_COPY(7, lane_id, hidden_int4, dst_data, src_data, ld_nc_global, st_na_global);
 
@@ -462,7 +669,8 @@ LOW_LATENCY_DISPATCH_RECV:
     }
 }
 
-void dispatch(void* packed_recv_x,
+void dispatch(bool disable_ll_layered,
+              void* packed_recv_x,
               void* packed_recv_x_scales,
               int64_t* packed_recv_src_info,
               int64_t* packed_recv_layout_range,
@@ -519,6 +727,7 @@ void dispatch(void* packed_recv_x,
             dispatch_func = dispatch<true, true, hidden>;    \
         LAUNCH_KERNEL(&cfg,                                  \
                       dispatch_func,                         \
+                      disable_ll_layered,                    \
                       packed_recv_x,                         \
                       packed_recv_x_scales,                  \
                       packed_recv_src_info,                  \
@@ -713,7 +922,8 @@ __forceinline__ __device__ void decode_and_accumulate(
 }
 
 template <bool kUseLogFMT, int kHidden, int kNumMaxTopk, int kNumMaxUnrolls>
-__global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
+__global__ __launch_bounds__(1024, 1) void combine(bool disable_ll_layered,
+                                                   void* combined_x,
                                                    void* rdma_recv_x,
                                                    int* rdma_recv_flag,
                                                    void* rdma_send_x,
@@ -755,6 +965,9 @@ __global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
     const auto sub_warp_id = warp_id % num_warps_per_group;
     const auto responsible_expert_idx = sm_id * num_warp_groups + warp_group_id;
 
+    int* next_clean_data_ready_counter = reinterpret_cast<int*>(next_clean + num_experts);
+    const auto num_nvl_ranks = NUM_MAX_NVL_PEERS;
+    const auto num_nodes = num_ranks / num_nvl_ranks;
     extern __shared__ __align__(1024) uint8_t smem_buffer[];
 
     // Data type staffs
@@ -787,16 +1000,45 @@ __global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
         goto LOW_LATENCY_COMBINE_RECV;
 
     // Clean up next buffer
-    if (sm_id == 0 and warp_group_id == 0 and sub_warp_id == 0) {
+    if (!disable_ll_layered and sm_id == num_sms - 1) {
         #pragma unroll
-        for (int i = lane_id; i < num_next_clean_int; i += 32)
+        for (int i = thread_id; i < num_experts; i += num_threads)
             next_clean[i] = 0;
 
+        // clean data ready flag
+        #pragma unroll 8
+        for (int i = thread_id; i < num_max_dispatch_tokens_per_rank * num_ranks; i += num_threads) {
+            int token_idx = i / num_ranks;
+            int rank_id = i % num_ranks;
+            {
+                auto node_id = rank_id / num_nvl_ranks;
+                auto nvl_rank_id = rank_id % num_nvl_ranks;
+                auto* data_ready_flag_ptr = reinterpret_cast<int*>(next_clean_data_ready_counter) +
+                    node_id * num_max_dispatch_tokens_per_rank * num_nvl_ranks + token_idx * num_nvl_ranks + rank % num_nvl_ranks;
+                EP_DEVICE_ASSERT(data_ready_flag_ptr - next_clean_data_ready_counter <
+                                 num_max_dispatch_tokens_per_rank * num_nodes * num_nvl_ranks * sizeof(int));
+                const auto data_ready_p2p_src_ptr =
+                    nvshmemi_get_p2p_ptr(uint64_t(data_ready_flag_ptr), rank, rank / num_nvl_ranks * num_nvl_ranks + nvl_rank_id);
+                reinterpret_cast<int*>(data_ready_p2p_src_ptr)[0] = 0;
+            }
+        }
         // Notify before executing `int_p`
-        __syncwarp();
-        if (lane_id == 0)
+        __syncthreads();
+        if (thread_id == 0)
             atomic_add_release_global(atomic_clean_flag, num_experts);
     }
+    if (disable_ll_layered) {
+        if (sm_id == 0 and warp_group_id == 0 and sub_warp_id == 0) {
+            #pragma unroll
+            for (int i = lane_id; i < num_next_clean_int; i += 32)
+                next_clean[i] = 0;
+
+            // Notify before executing `int_p`
+            __syncwarp();
+            if (lane_id == 0)
+                atomic_add_release_global(atomic_clean_flag, num_experts);
+        }
+    }
 
     __shared__ int shared_vaild_signal_sum, shared_local_expert_idx;
 
@@ -807,20 +1049,19 @@ __global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
             shared_local_expert_idx = 0;
             #pragma unroll
             for (int i = 1; i < num_local_experts; i++) {
-                shared_vaild_signal_prefix_sum[i] = shared_vaild_signal_prefix_sum[i-1] + 
-                                                    (packed_recv_count[i] == 0 ? 1 : ceil_div(packed_recv_count[i], block_m));
+                shared_vaild_signal_prefix_sum[i] =
+                    shared_vaild_signal_prefix_sum[i - 1] + (packed_recv_count[i] == 0 ? 1 : ceil_div(packed_recv_count[i], block_m));
             }
-            shared_vaild_signal_sum = shared_vaild_signal_prefix_sum[num_local_experts-1];
+            shared_vaild_signal_sum = shared_vaild_signal_prefix_sum[num_local_experts - 1];
         }
         __syncthreads();
     }
 
     // Issue IBGDA sends, non-overlap mode only loops once
     initial_idx = overlap ? sm_id : responsible_expert_idx;
-    loop_bound  = overlap ? shared_vaild_signal_sum : num_experts;
-    step_size   = overlap ? num_sms : num_experts;
+    loop_bound = overlap ? shared_vaild_signal_sum : num_experts;
+    step_size = overlap ? num_sms : num_experts;
     for (int vaild_signal_idx = initial_idx; vaild_signal_idx < loop_bound; vaild_signal_idx += step_size) {
-
         // Find the owning local_expert_idx by scanning the prefix-sum array
         if (overlap) {
             if (sub_warp_id == 0 and lane_id == 0) {
@@ -850,12 +1091,13 @@ __global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
         if (overlap) {
             num_tokens_per_expert = packed_recv_count[local_expert_idx];
             num_signal_per_expert = ceil_div(num_ranks * num_max_dispatch_tokens_per_rank, block_m);
-            local_expert_signal_idx = (local_expert_idx == 0) ? vaild_signal_idx : 
-                                      vaild_signal_idx - shared_vaild_signal_prefix_sum[local_expert_idx-1];
+            local_expert_signal_idx =
+                (local_expert_idx == 0) ? vaild_signal_idx : vaild_signal_idx - shared_vaild_signal_prefix_sum[local_expert_idx - 1];
             gemm_comp_signal = comp_signal + num_signal_per_expert * local_expert_idx + local_expert_signal_idx;
 
             if (sub_warp_id == 0 and lane_id == 0 and num_tokens_per_expert != 0) {
-                while (ld_acquire_global(gemm_comp_signal) != threshold);
+                while (ld_acquire_global(gemm_comp_signal) != threshold)
+                    ;
             }
             __syncthreads();
         }
@@ -893,7 +1135,8 @@ __global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
         // Issue IBGDA send
         if (overlap or (not is_rank_masked<true>(mask_buffer_ptr, dst_rank))) {
             auto token_start_idx = overlap ? local_expert_signal_idx * block_m : offset;
-            auto token_end_idx = overlap ? min((local_expert_signal_idx + 1) * block_m, num_tokens_per_expert) : (offset + num_tokens_to_send);
+            auto token_end_idx =
+                overlap ? min((local_expert_signal_idx + 1) * block_m, num_tokens_per_expert) : (offset + num_tokens_to_send);
             for (int token_idx = sub_warp_id + token_start_idx; token_idx < token_end_idx; token_idx += num_warps_per_group) {
                 const auto x_int4 = local_x + token_idx * hidden_bf16_int4;
                 const auto rdma_send_type_row = reinterpret_cast<int*>(rdma_send_x_vec + token_idx * num_bytes_per_slot);
@@ -977,7 +1220,7 @@ __global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
         }
 
         asm volatile("bar.sync %0, %1;" ::"r"(warp_group_id + 1), "r"(num_warps_per_group * 32));
-        
+
         auto send_finish_flag = [&](int dst_rank) {
             while (ld_acquire_global(atomic_clean_flag) == 0)
                 ;
@@ -992,7 +1235,7 @@ __global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
             }
             atomic_add_release_global(atomic_clean_flag, -1);
         };
-        
+
         if (overlap) {
             // Put the finishing flag for overlap mode
             bool put_finish_flag = false;
@@ -1014,8 +1257,7 @@ __global__ __launch_bounds__(1024, 1) void combine(void* combined_x,
                     atomic_finish_counter_per_expert[local_expert_idx] = 0;
             }
             __syncthreads();
-        }
-        else {
+        } else {
             // Put the finishing flag for non-overlap mode
             EP_DEVICE_ASSERT(num_warps_per_group > 1 and num_warp_groups < 16);
             if (sub_warp_id == 1 and lane_id == 0) {
@@ -1230,7 +1472,8 @@ LOW_LATENCY_COMBINE_RECV:
     }
 }
 
-void combine(void* combined_x,
+void combine(bool disable_ll_layered,
+             void* combined_x,
              void* rdma_recv_x,
              int* rdma_recv_flag,
              void* rdma_send_x,
@@ -1272,16 +1515,14 @@ void combine(void* combined_x,
         EP_HOST_ASSERT(num_warp_groups > 0 and num_warps_per_group > 0 and num_recv_per_sm >= 0 and block_m > 0 and threshold > 0);
 
         num_warps = num_warp_groups * num_warps_per_group;
-    }
-    else {
+    } else {
         num_warp_groups = ceil_div(num_experts, num_device_sms);
         num_warps_per_group = 32 / num_warp_groups;
         num_recv_per_sm = ceil_div(num_combined_tokens, num_device_sms);
         EP_HOST_ASSERT(num_warp_groups > 0 and num_warps_per_group > 0 and num_recv_per_sm >= 0);
 
         num_warps = num_warp_groups * num_warps_per_group;
-        num_sms =
-            max(ceil_div(num_experts, num_warp_groups), num_recv_per_sm == 0 ? 1 : ceil_div(num_combined_tokens, num_recv_per_sm));
+        num_sms = max(ceil_div(num_experts, num_warp_groups), num_recv_per_sm == 0 ? 1 : ceil_div(num_combined_tokens, num_recv_per_sm));
     }
 
     // Check workspace
@@ -1321,6 +1562,7 @@ void combine(void* combined_x,
         SET_SHARED_MEMORY_FOR_TMA(combine_func);                                                                                   \
         LAUNCH_KERNEL(&cfg,                                                                                                        \
                       combine_func,                                                                                                \
+                      disable_ll_layered,                                                                                          \
                       combined_x,                                                                                                  \
                       rdma_recv_x,                                                                                                 \
                       rdma_recv_flag,                                                                                              \
diff --git a/deep_ep/buffer.py b/deep_ep/buffer.py
index da17b806..8327abde 100644
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -89,8 +89,12 @@ def all_gather_object(obj):
         self.low_latency_mode = low_latency_mode
         self.explicitly_destroy = explicitly_destroy
         self.enable_shrink = enable_shrink
+        disable_ll_layered = Buffer.disable_ll_layered()
+        if not disable_ll_layered and enable_shrink:  # Currently, the layered algorithm for ll dispatch has been optimized, so the shrink mode is no longer supported.
+            print("DeepEP [ERROR] not support shrink, disable it", flush=True)
+            enable_shrink = False
         self.runtime = deep_ep_cpp.Buffer(self.rank, self.group_size, num_nvl_bytes, num_rdma_bytes, low_latency_mode, explicitly_destroy,
-                                          enable_shrink, use_fabric)
+                                          enable_shrink, use_fabric, disable_ll_layered)
 
         # Synchronize device IDs
         local_device_id = self.runtime.get_local_device_id()
@@ -135,6 +139,13 @@ def all_gather_object(obj):
         self.runtime.sync(device_ids, ipc_handles, root_unique_id)
         assert self.runtime.is_available()
 
+    @staticmethod
+    def disable_ll_layered() -> bool:
+        disable_ll_layered = False
+        if int(os.environ.get('DEEPEP_DISABLE_LL_DISPATCH_OPT', '0')) == 1:
+            disable_ll_layered = True
+        return disable_ll_layered
+
     def destroy(self):
         """
         Destroy the cpp runtime and release resources.
@@ -186,7 +197,8 @@ def get_low_latency_rdma_size_hint(num_max_dispatch_tokens_per_rank: int, hidden
         Returns:
             size: the RDMA buffer size recommended.
         """
-        return deep_ep_cpp.get_low_latency_rdma_size_hint(num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts)
+        return deep_ep_cpp.get_low_latency_rdma_size_hint(Buffer.disable_ll_layered(), num_max_dispatch_tokens_per_rank, hidden, num_ranks,
+                                                          num_experts)
 
     def get_comm_stream(self) -> torch.Stream:
         """
@@ -640,12 +652,12 @@ def low_latency_combine(self, x: torch.Tensor, topk_idx: torch.Tensor, topk_weig
             overlap: whether to overlap the down gemm with the combine send phase.
             packed_recv_count: a tensor shaped `[num_local_experts]` with type `torch.int`, indicating how many tokens each
                 expert receive.
-            comp_signal: `[num_local_experts * ceil_div(num_tokens * num_max_dispatch_tokens_per_rank, block_m)]` with `torch.int32`, 
-                each element indicates the processing progress of `block_m` tokens in DeepGEMM. 
-                Note that, the fixed-length tensor is used to support cuda graph, 
+            comp_signal: `[num_local_experts * ceil_div(num_tokens * num_max_dispatch_tokens_per_rank, block_m)]` with `torch.int32`,
+                each element indicates the processing progress of `block_m` tokens in DeepGEMM.
+                Note that, the fixed-length tensor is used to support cuda graph,
                 only the first `ceil_div(num_tokens * num_ranks, block_m)` elements of each local_expert are valid.
             block_m: set by DeepGEMM.
-            threshold: set by DeepGEMM. When a valid element in comp_signal reaches this threshold, it means that all the tokens 
+            threshold: set by DeepGEMM. When a valid element in comp_signal reaches this threshold, it means that all the tokens
                 corresponding to this element have been computed by DeepGEMM and can be sent.
             num_sms: the number of sms used by low_latency_combine send, only needs to be set when overlap is `True`.
             use_logfmt: whether to use an internal "LogFMT with dynamic per-64-channel cast" format (10 bits).
@@ -667,8 +679,8 @@ def low_latency_combine(self, x: torch.Tensor, topk_idx: torch.Tensor, topk_weig
         """
         src_info, layout_range, num_max_dispatch_tokens_per_rank, hidden, num_experts = handle
         assert self.nvshmem_qp_depth >= (num_max_dispatch_tokens_per_rank + 1) * 2
-        combined_x, event, hook = self.runtime.low_latency_combine(x, topk_idx, topk_weights, src_info, layout_range,
-                                                                   overlap, packed_recv_count, comp_signal, block_m, threshold, num_sms,
+        combined_x, event, hook = self.runtime.low_latency_combine(x, topk_idx, topk_weights, src_info, layout_range, overlap,
+                                                                   packed_recv_count, comp_signal, block_m, threshold, num_sms,
                                                                    combine_wait_recv_cost_stats, num_max_dispatch_tokens_per_rank,
                                                                    num_experts, use_logfmt, zero_copy, async_finish, return_recv_hook, out)
         tensors_to_record = (x, topk_idx, topk_weights, src_info, layout_range, combined_x)
diff --git a/tests/test_low_latency.py b/tests/test_low_latency.py
index 19634a94..24f5bec8 100644
--- a/tests/test_low_latency.py
+++ b/tests/test_low_latency.py
@@ -160,32 +160,32 @@ def test_main(num_tokens: int,
                                     comp_signal = torch.zeros(num_local_experts * total_num_per_expert, dtype=torch.int32, device='cuda')
                                     for i in range(num_local_experts):
                                         vaild_num = ceil_div(packed_recv_count[i], block_m)
-                                        comp_signal[i * total_num_per_expert : i * total_num_per_expert + vaild_num] = threshold
+                                        comp_signal[i * total_num_per_expert:i * total_num_per_expert + vaild_num] = threshold
                                     combined_x, event, hook = buffer.low_latency_combine(simulated_gemm_x,
-                                                                                        topk_idx,
-                                                                                        topk_weights,
-                                                                                        handle,
-                                                                                        overlap=True,
-                                                                                        packed_recv_count=packed_recv_count,
-                                                                                        comp_signal=comp_signal,
-                                                                                        block_m=block_m,
-                                                                                        threshold=threshold,
-                                                                                        num_sms=num_sms,
-                                                                                        use_logfmt=use_logfmt,
-                                                                                        async_finish=not return_recv_hook,
-                                                                                        zero_copy=zero_copy,
-                                                                                        return_recv_hook=return_recv_hook,
-                                                                                        out=out)
+                                                                                         topk_idx,
+                                                                                         topk_weights,
+                                                                                         handle,
+                                                                                         overlap=True,
+                                                                                         packed_recv_count=packed_recv_count,
+                                                                                         comp_signal=comp_signal,
+                                                                                         block_m=block_m,
+                                                                                         threshold=threshold,
+                                                                                         num_sms=num_sms,
+                                                                                         use_logfmt=use_logfmt,
+                                                                                         async_finish=not return_recv_hook,
+                                                                                         zero_copy=zero_copy,
+                                                                                         return_recv_hook=return_recv_hook,
+                                                                                         out=out)
                                 else:
                                     combined_x, event, hook = buffer.low_latency_combine(simulated_gemm_x,
-                                                                                        topk_idx,
-                                                                                        topk_weights,
-                                                                                        handle,
-                                                                                        use_logfmt=use_logfmt,
-                                                                                        async_finish=not return_recv_hook,
-                                                                                        zero_copy=zero_copy,
-                                                                                        return_recv_hook=return_recv_hook,
-                                                                                        out=out)
+                                                                                         topk_idx,
+                                                                                         topk_weights,
+                                                                                         handle,
+                                                                                         use_logfmt=use_logfmt,
+                                                                                         async_finish=not return_recv_hook,
+                                                                                         zero_copy=zero_copy,
+                                                                                         return_recv_hook=return_recv_hook,
+                                                                                         out=out)
                                 hook() if return_recv_hook else event.current_stream_wait()
                                 if shrink_test:
                                     query_mask_buffer_and_check("combine", buffer, mask_status, expected_masked_ranks)
@@ -197,10 +197,12 @@ def test_main(num_tokens: int,
                                         failed_topk_idx = torch.zeros_like(topk_idx, device='cuda', dtype=torch.bool)
                                         failed_topk_idx[valid_topk_idx] = fail_owner_mask.index_select(0, topk_idx[valid_topk_idx])
                                         topk_idx[failed_topk_idx] = -1
-                                    diff = calc_diff(current_x * topk_weights.masked_fill(topk_idx == -1, 0).sum(dim=1).view(-1, 1), combined_x)
+                                    diff = calc_diff(current_x * topk_weights.masked_fill(topk_idx == -1, 0).sum(dim=1).view(-1, 1),
+                                                     combined_x)
                                     assert torch.isnan(combined_x).sum().item() == 0
                                     if not round_scale:
-                                        assert diff < (9e-4 if dispatch_use_fp8 else 1e-5), f'Error: {diff=}, {dispatch_use_fp8=}, {zero_copy=}'
+                                        assert diff < (9e-4
+                                                       if dispatch_use_fp8 else 1e-5), f'Error: {diff=}, {dispatch_use_fp8=}, {zero_copy=}'
                                     hash_value ^= hash_tensor(combined_x)
 
                         # Clean buffer API