From 1425194c71a86920a6c7ca00d2bac5452a2122c0 Mon Sep 17 00:00:00 2001
From: yangxuan <xuan.yang@zilliz.com>
Date: Tue, 21 Oct 2025 12:12:00 +0800
Subject: [PATCH 1/4] feat(perf): optimize client-side performance with Cython
 and comprehensive benchmarking
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

This commit includes comprehensive benchmark suite to identify remaining bottlenecks

**New Benchmarks**
Created comprehensive benchmark suite under `tests/benchmark/`:
- **Access patterns**: 23 tests measuring real-world usage patterns
  - First-access (UI display), iterate-all (export), random-access (pagination)
- **Search benchmarks**: Various vector types, dimensions, output fields
- **Query benchmarks**: Scalars, JSON, all output types
- **Hybrid search**: Multiple requests, varying top-k

**Profiling Infrastructure**
- Mock framework for client-only testing (no server required)
- Integrated `pytest-memray` for memory profiling
- Added helper scripts:
  - `profile_cpu.sh`: CPU profiling with py-spy
  - `profile_memory.sh`: Memory profiling with pytest-memray

**Profiling Tools**
- `pytest-benchmark`: Timing measurements
- `py-spy`: CPU profiling and flamegraphs
- `memray`: Memory allocation tracking

**Key Discoveries**

1. **Lazy loading inefficiency** (CRITICAL)
   - Accessing first result materializes ALL results (+77% overhead)
   - Example: `result[0][0]` loads all 10,000 results
   - Impact: 423ms → 749ms for 10K results

2. **Vector materialization dominates** (HIGH PRIORITY)
   - 76% of memory usage (326 MiB of 431 MiB for 65K results)
   - 8x slower than scalars (337ms vs 42ms for 10K results)
   - Scales linearly with dimensions (128d: 8 MiB, 1536d: 68 MiB)

3. **Struct fields are slow** (MEDIUM PRIORITY)
   - 10x slower than scalars (435ms vs 42ms for 10K results)
   - Column-to-row conversion overhead
   - Linear O(n) scaling with high constant factor

4. **Scalars are efficient** (NO OPTIMIZATION NEEDED)
   - 64.6 MiB for 65K rows × 4 fields
   - ~1 KB per entity (acceptable dict overhead)

Signed-off-by: yangxuan <xuan.yang@zilliz.com>
---
 .gitignore                                    |   9 +
 pyproject.toml                                |  18 +
 tests/benchmark/README.md                     | 161 ++++
 tests/benchmark/__init__.py                   |   0
 tests/benchmark/conftest.py                   | 105 +++
 tests/benchmark/mock_responses.py             | 705 ++++++++++++++++++
 tests/benchmark/requirements.txt              |   4 +
 tests/benchmark/scripts/profile_cpu.sh        |  23 +
 tests/benchmark/scripts/profile_memory.sh     |  47 ++
 tests/benchmark/test_access_patterns_bench.py | 206 +++++
 tests/benchmark/test_hybrid_bench.py          |  86 +++
 tests/benchmark/test_query_bench.py           |  59 ++
 tests/benchmark/test_search_bench.py          | 443 +++++++++++
 13 files changed, 1866 insertions(+)
 create mode 100644 tests/benchmark/README.md
 create mode 100644 tests/benchmark/__init__.py
 create mode 100644 tests/benchmark/conftest.py
 create mode 100644 tests/benchmark/mock_responses.py
 create mode 100644 tests/benchmark/requirements.txt
 create mode 100755 tests/benchmark/scripts/profile_cpu.sh
 create mode 100755 tests/benchmark/scripts/profile_memory.sh
 create mode 100644 tests/benchmark/test_access_patterns_bench.py
 create mode 100644 tests/benchmark/test_hybrid_bench.py
 create mode 100644 tests/benchmark/test_query_bench.py
 create mode 100644 tests/benchmark/test_search_bench.py

diff --git a/.gitignore b/.gitignore
index 1ced343a5..eee414c86 100644
--- a/.gitignore
+++ b/.gitignore
@@ -43,3 +43,12 @@ uv.lock
 # AI rules
 WARP.md
 CLAUDE.md
+
+# perf
+*.svg
+**/.benchmarks/**
+*.html
+
+#cython
+*.so
+*.c
diff --git a/pyproject.toml b/pyproject.toml
index 83b9457b6..af9661f8a 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -5,6 +5,7 @@ requires = [
   "wheel",
   "gitpython",
   "setuptools_scm[toml]>=6.2",
+  "Cython>=3.0.0",
 ]
 build-backend = "setuptools.build_meta"
 
@@ -73,6 +74,8 @@ dev = [
     "pytest-cov>=5.0.0",
     "pytest-timeout>=1.3.4",
     "pytest-asyncio",
+    "pytest-benchmark[histogram]",
+    "Cython>=3.0.0",
     "ruff>=0.12.9,<1",
     "black",
     # develop bulk_writer
@@ -215,3 +218,18 @@ builtins-ignorelist = [
     "filter",
 ]
 builtins-allowed-modules = ["types"]
+
+[tool.cibuildwheel]
+build = ["cp38-*", "cp39-*", "cp310-*", "cp311-*", "cp312-*", "cp313-*"]
+skip = ["*-musllinux_*", "pp*"]
+test-requires = "pytest"
+test-command = "pytest {package}/tests -k 'not (test_hybrid_search or test_milvus_client)' -x --tb=short || true"
+
+[tool.cibuildwheel.linux]
+before-all = "yum install -y gcc || apt-get update && apt-get install -y gcc"
+
+[tool.cibuildwheel.macos]
+before-all = "brew install gcc || true"
+
+[tool.cibuildwheel.windows]
+before-build = "pip install Cython>=3.0.0"
diff --git a/tests/benchmark/README.md b/tests/benchmark/README.md
new file mode 100644
index 000000000..16b6a67ff
--- /dev/null
+++ b/tests/benchmark/README.md
@@ -0,0 +1,161 @@
+# pymilvus MilvusClient Benchmarking Suite
+
+This benchmark suite measures client-side performance of pymilvus MilvusClient API operations (search, query, hybrid search) without requiring a running Milvus server.
+
+## Overview
+
+We benchmark **client-side code only** by mocking gRPC calls:
+- ✅ Request preparation (parameter validation, serialization)
+- ✅ Response parsing (deserialization, type conversion)
+- ❌ Network I/O (excluded via mocking)
+- ❌ Server-side processing (excluded via mocking)
+
+## Directory Structure
+
+```
+tests/benchmark/
+├── README.md                # This file - complete guide
+├── conftest.py              # Mock gRPC stubs & shared fixtures
+├── mock_responses.py        # Fake protobuf response builders
+├── test_search_bench.py     # Search timing benchmarks
+├── test_query_bench.py      # Query timing benchmarks
+├── test_hybrid_bench.py     # Hybrid search timing benchmarks
+└── scripts/
+    ├── profile_cpu.sh       # CPU profiling wrapper
+    └── profile_memory.sh    # Memory profiling wrapper
+```
+
+### Installation
+
+```bash
+pip install -r requirements.txt
+```
+
+---
+
+## 1. Timing Benchmarks (pytest-benchmark)
+### Usage
+
+```bash
+# Run all benchmarks
+pytest tests/benchmark/ --benchmark-only
+
+# Run specific benchmark
+pytest tests/benchmark/test_search_bench.py::TestSearchBench::test_search_float32 --benchmark-only
+
+# Save baseline for comparison
+pytest tests/benchmark/ --benchmark-only --benchmark-save=baseline
+
+# Compare against baseline
+pytest tests/benchmark/ --benchmark-only --benchmark-compare=baseline
+
+# Generate histogram
+pytest tests/benchmark/ --benchmark-only --benchmark-histogram
+```
+
+## 2. CPU Profiling (py-spy)
+### Usage
+
+#### Option A: Profile entire benchmark run
+
+```bash
+# Generate flamegraph (SVG)
+py-spy record -o cpu_profile.svg --native -- pytest tests/benchmark/test_search_bench.py::TestSearchBench::test_search_float32 -v
+
+# Generate speedscope format (interactive viewer)
+py-spy record -o cpu_profile.speedscope.json -f speedscope -- pytest tests/benchmark/test_search_bench.py::TestSearchBench::test_search_float32 -v
+
+# View speedscope: Upload to https://www.speedscope.app/
+```
+
+#### Option B: Use helper script
+
+```bash
+./tests/benchmark/scripts/profile_cpu.sh test_search_bench.py::test_search_float32
+```
+
+#### Option C: Profile specific function
+
+```bash
+# Top functions by CPU time
+py-spy top -- python -m pytest tests/benchmark/test_search_bench.py::test_search_float32 -v
+```
+
+## 3. Memory Profiling (memray)
+
+### What it Measures
+- Memory allocation over time
+- Peak memory usage
+- Allocation flamegraphs
+- Memory leaks
+- Allocation call stacks
+
+### Usage
+
+#### Option A: Profile and generate reports
+
+```bash
+# Run with memray
+memray run -o search_bench.bin pytest tests/benchmark/test_search_bench.py::test_search_float32 -v
+
+# Generate flamegraph (HTML)
+memray flamegraph search_bench.bin
+
+# Generate table view (top allocators)
+memray table search_bench.bin
+
+# Generate tree view (call stack)
+memray tree search_bench.bin
+
+# Generate summary stats
+memray summary search_bench.bin
+```
+
+#### Option B: Live monitoring
+
+```bash
+# Real-time memory usage in terminal
+memray run --live pytest tests/benchmark/test_search_bench.py::test_search_float32 -v
+```
+
+#### Option C: Use helper script
+
+```bash
+./tests/benchmark/scripts/profile_memory.sh test_search_bench.py::test_search_float32
+```
+
+## 6. Complete Workflow
+
+```bash
+# Step 1: Install dependencies
+pip install -e ".[dev]"
+
+# Step 2: Run timing benchmarks (fast, ~minutes)
+pytest tests/benchmark/ --benchmark-only
+
+# Step 3: Identify slow tests from benchmark results
+
+# Step 4: CPU profile specific slow tests
+py-spy record -o cpu_slow_test.svg -- pytest tests/benchmark/test_search_bench.py::test_slow_one -v
+
+# Step 5: Memory profile tests with large results
+memray run -o mem_large.bin pytest tests/benchmark/test_search_bench.py::test_large_results -v
+memray flamegraph mem_large.bin
+
+# Step 6: Analyze results and fix bottlenecks
+
+# Step 7: Re-run benchmarks and compare with baseline
+pytest tests/benchmark/ --benchmark-only --benchmark-compare=baseline
+```
+
+## Expected Bottlenecks
+
+Based on code analysis, we expect to find:
+
+1. **Protobuf deserialization** - Large responses with many fields
+2. **Vector data conversion** - Bytes → numpy arrays
+3. **Type conversions** - Protobuf types → Python types
+4. **Field iteration** - Processing many output fields
+5. **Memory copies** - Unnecessary data duplication
+
+These benchmarks will help us validate and quantify these hypotheses.
diff --git a/tests/benchmark/__init__.py b/tests/benchmark/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tests/benchmark/conftest.py b/tests/benchmark/conftest.py
new file mode 100644
index 000000000..842eb5646
--- /dev/null
+++ b/tests/benchmark/conftest.py
@@ -0,0 +1,105 @@
+from unittest.mock import MagicMock, patch
+import pytest
+
+from pymilvus import MilvusClient
+from . import mock_responses
+from pymilvus.grpc_gen import common_pb2, milvus_pb2
+
+
+@pytest.fixture
+def mock_search_stub():
+    def _mock_search(request, timeout=None, metadata=None):
+        return mock_responses.create_search_results(
+            num_queries=1,
+            top_k=10,
+            output_fields=["id", "age", "score", "name"]
+        )
+    return _mock_search
+
+
+@pytest.fixture
+def mock_query_stub():
+    def _mock_query(request, timeout=None, metadata=None):
+        return mock_responses.create_query_results(
+            num_rows=100,
+            output_fields=["id", "age", "score", "name", "active", "metadata"]
+        )
+    return _mock_query
+
+
+@pytest.fixture
+def mocked_milvus_client(mock_search_stub, mock_query_stub):
+    with patch('grpc.insecure_channel') as mock_channel_func, \
+         patch('grpc.secure_channel') as mock_secure_channel_func, \
+         patch('grpc.channel_ready_future') as mock_ready_future, \
+         patch('pymilvus.grpc_gen.milvus_pb2_grpc.MilvusServiceStub') as mock_stub_class:
+        
+        mock_channel = MagicMock()
+        mock_channel_func.return_value = mock_channel
+        mock_secure_channel_func.return_value = mock_channel
+        
+        mock_future = MagicMock()
+        mock_future.result = MagicMock(return_value=None)
+        mock_ready_future.return_value = mock_future
+        
+        mock_stub = MagicMock()
+        
+        
+        mock_connect_response = milvus_pb2.ConnectResponse()
+        mock_connect_response.status.error_code = common_pb2.ErrorCode.Success
+        mock_connect_response.status.code = 0
+        mock_connect_response.identifier = 12345
+        mock_stub.Connect = MagicMock(return_value=mock_connect_response)
+        
+        mock_stub.Search = MagicMock(side_effect=mock_search_stub)
+        mock_stub.Query = MagicMock(side_effect=mock_query_stub)
+        mock_stub.HybridSearch = MagicMock(side_effect=mock_search_stub)
+        mock_stub.DescribeCollection = MagicMock(return_value=_create_describe_collection_response())
+        
+        mock_stub_class.return_value = mock_stub
+        
+        client = MilvusClient(uri="http://localhost:19530")
+        
+        yield client
+
+
+def _create_describe_collection_response():
+    from pymilvus.grpc_gen import milvus_pb2, schema_pb2, common_pb2
+    
+    response = milvus_pb2.DescribeCollectionResponse()
+    response.status.error_code = common_pb2.ErrorCode.Success
+    
+    schema = response.schema
+    schema.name = "test_collection"
+    
+    id_field = schema.fields.add()
+    id_field.fieldID = 1
+    id_field.name = "id"
+    id_field.data_type = schema_pb2.DataType.Int64
+    id_field.is_primary_key = True
+    
+    embedding_field = schema.fields.add()
+    embedding_field.fieldID = 2
+    embedding_field.name = "embedding"
+    embedding_field.data_type = schema_pb2.DataType.FloatVector
+    
+    dim_param = embedding_field.type_params.add()
+    dim_param.key = "dim"
+    dim_param.value = "128"
+    
+    age_field = schema.fields.add()
+    age_field.fieldID = 3
+    age_field.name = "age"
+    age_field.data_type = schema_pb2.DataType.Int32
+    
+    score_field = schema.fields.add()
+    score_field.fieldID = 4
+    score_field.name = "score"
+    score_field.data_type = schema_pb2.DataType.Float
+    
+    name_field = schema.fields.add()
+    name_field.fieldID = 5
+    name_field.name = "name"
+    name_field.data_type = schema_pb2.DataType.VarChar
+    
+    return response
diff --git a/tests/benchmark/mock_responses.py b/tests/benchmark/mock_responses.py
new file mode 100644
index 000000000..17a287418
--- /dev/null
+++ b/tests/benchmark/mock_responses.py
@@ -0,0 +1,705 @@
+import struct
+from typing import List, Optional
+
+from pymilvus.grpc_gen import common_pb2, milvus_pb2, schema_pb2
+
+
+def create_search_results(
+    num_queries: int,
+    top_k: int,
+    output_fields: Optional[List[str]] = None,
+    include_vectors: bool = False,
+    dim: int = 128
+) -> milvus_pb2.SearchResults:
+    response = milvus_pb2.SearchResults()
+    response.status.error_code = common_pb2.ErrorCode.Success
+
+    results = response.results
+    results.num_queries = num_queries
+    results.top_k = top_k
+
+    total_results = num_queries * top_k
+
+    results.ids.int_id.data.extend(list(range(total_results)))
+    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
+    results.topks.extend([top_k] * num_queries)
+
+    if output_fields:
+        results.output_fields.extend(output_fields)
+
+        for field_name in output_fields:
+            field_data = results.fields_data.add()
+            field_data.field_name = field_name
+
+            if field_name == "id":
+                field_data.type = schema_pb2.DataType.Int64
+                field_data.scalars.long_data.data.extend(list(range(total_results)))
+            elif field_name == "age":
+                field_data.type = schema_pb2.DataType.Int32
+                field_data.scalars.int_data.data.extend([25 + i % 50 for i in range(total_results)])
+            elif field_name == "score":
+                field_data.type = schema_pb2.DataType.Float
+                field_data.scalars.float_data.data.extend([0.5 + i * 0.01 for i in range(total_results)])
+            elif field_name == "name":
+                field_data.type = schema_pb2.DataType.VarChar
+                field_data.scalars.string_data.data.extend([f"name_{i}" for i in range(total_results)])
+            elif field_name == "embedding" and include_vectors:
+                field_data.type = schema_pb2.DataType.FloatVector
+                field_data.vectors.dim = dim
+                flat_vector = [float(j % 100) / 100.0 for _ in range(total_results) for j in range(dim)]
+                field_data.vectors.float_vector.data.extend(flat_vector)
+
+    return response
+
+
+def create_search_results_with_float16_vector(
+    num_queries: int,
+    top_k: int,
+    dim: int = 128,
+    output_fields: Optional[List[str]] = None
+) -> milvus_pb2.SearchResults:
+    response = milvus_pb2.SearchResults()
+    response.status.error_code = common_pb2.ErrorCode.Success
+
+    results = response.results
+    results.num_queries = num_queries
+    results.top_k = top_k
+
+    total_results = num_queries * top_k
+
+    results.ids.int_id.data.extend(list(range(total_results)))
+    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
+    results.topks.extend([top_k] * num_queries)
+
+    if output_fields:
+        results.output_fields.extend(output_fields)
+
+        for field_name in output_fields:
+            field_data = results.fields_data.add()
+            field_data.field_name = field_name
+
+            if field_name == "embedding":
+                field_data.type = schema_pb2.DataType.Float16Vector
+                field_data.vectors.dim = dim
+                field_data.vectors.float16_vector = b'\x00' * (total_results * dim * 2)
+            elif field_name == "id":
+                field_data.type = schema_pb2.DataType.Int64
+                field_data.scalars.long_data.data.extend(list(range(total_results)))
+
+    return response
+
+
+def create_search_results_with_bfloat16_vector(
+    num_queries: int,
+    top_k: int,
+    dim: int = 128,
+    output_fields: Optional[List[str]] = None
+) -> milvus_pb2.SearchResults:
+    response = milvus_pb2.SearchResults()
+    response.status.error_code = common_pb2.ErrorCode.Success
+
+    results = response.results
+    results.num_queries = num_queries
+    results.top_k = top_k
+
+    total_results = num_queries * top_k
+
+    results.ids.int_id.data.extend(list(range(total_results)))
+    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
+    results.topks.extend([top_k] * num_queries)
+
+    if output_fields:
+        results.output_fields.extend(output_fields)
+
+        for field_name in output_fields:
+            field_data = results.fields_data.add()
+            field_data.field_name = field_name
+
+            if field_name == "embedding":
+                field_data.type = schema_pb2.DataType.BFloat16Vector
+                field_data.vectors.dim = dim
+                field_data.vectors.bfloat16_vector = b'\x00' * (total_results * dim * 2)
+            elif field_name == "id":
+                field_data.type = schema_pb2.DataType.Int64
+                field_data.scalars.long_data.data.extend(list(range(total_results)))
+
+    return response
+
+
+def create_search_results_with_binary_vector(
+    num_queries: int,
+    top_k: int,
+    dim: int = 128,
+    output_fields: Optional[List[str]] = None
+) -> milvus_pb2.SearchResults:
+    response = milvus_pb2.SearchResults()
+    response.status.error_code = common_pb2.ErrorCode.Success
+
+    results = response.results
+    results.num_queries = num_queries
+    results.top_k = top_k
+
+    total_results = num_queries * top_k
+
+    results.ids.int_id.data.extend(list(range(total_results)))
+    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
+    results.topks.extend([top_k] * num_queries)
+
+    if output_fields:
+        results.output_fields.extend(output_fields)
+
+        for field_name in output_fields:
+            field_data = results.fields_data.add()
+            field_data.field_name = field_name
+
+            if field_name == "embedding":
+                field_data.type = schema_pb2.DataType.BinaryVector
+                field_data.vectors.dim = dim
+                field_data.vectors.binary_vector = b'\x00' * (total_results * dim // 8)
+            elif field_name == "id":
+                field_data.type = schema_pb2.DataType.Int64
+                field_data.scalars.long_data.data.extend(list(range(total_results)))
+
+    return response
+
+
+def create_search_results_with_int8_vector(
+    num_queries: int,
+    top_k: int,
+    dim: int = 128,
+    output_fields: Optional[List[str]] = None
+) -> milvus_pb2.SearchResults:
+    response = milvus_pb2.SearchResults()
+    response.status.error_code = common_pb2.ErrorCode.Success
+
+    results = response.results
+    results.num_queries = num_queries
+    results.top_k = top_k
+
+    total_results = num_queries * top_k
+
+    results.ids.int_id.data.extend(list(range(total_results)))
+    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
+    results.topks.extend([top_k] * num_queries)
+
+    if output_fields:
+        results.output_fields.extend(output_fields)
+
+        for field_name in output_fields:
+            field_data = results.fields_data.add()
+            field_data.field_name = field_name
+
+            if field_name == "embedding":
+                field_data.type = schema_pb2.DataType.Int8Vector
+                field_data.vectors.dim = dim
+                field_data.vectors.int8_vector = b'\x00' * (total_results * dim)
+            elif field_name == "id":
+                field_data.type = schema_pb2.DataType.Int64
+                field_data.scalars.long_data.data.extend(list(range(total_results)))
+
+    return response
+
+
+def create_search_results_with_sparse_vector(
+    num_queries: int,
+    top_k: int
+) -> milvus_pb2.SearchResults:
+    response = milvus_pb2.SearchResults()
+    response.status.error_code = common_pb2.ErrorCode.Success
+
+    results = response.results
+    results.num_queries = num_queries
+    results.top_k = top_k
+
+    total_results = num_queries * top_k
+
+    results.ids.int_id.data.extend(list(range(total_results)))
+    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
+    results.topks.extend([top_k] * num_queries)
+
+    field_data = results.fields_data.add()
+    field_data.field_name = "sparse_embedding"
+    field_data.type = schema_pb2.DataType.SparseFloatVector
+
+    for _ in range(total_results):
+        # Sparse format: index (uint32) + value (float32) pairs
+        sparse_bytes = struct.pack('<I', 10) + struct.pack('<f', 0.5)
+        field_data.vectors.sparse_float_vector.contents.append(sparse_bytes)
+    field_data.vectors.sparse_float_vector.dim = 1000
+
+    return response
+
+
+def create_search_results_with_varchar(
+    num_queries: int,
+    top_k: int,
+    varchar_length: int = 10,
+    output_fields: Optional[List[str]] = None
+) -> milvus_pb2.SearchResults:
+    response = milvus_pb2.SearchResults()
+    response.status.error_code = common_pb2.ErrorCode.Success
+
+    results = response.results
+    results.num_queries = num_queries
+    results.top_k = top_k
+
+    total_results = num_queries * top_k
+
+    results.ids.int_id.data.extend(list(range(total_results)))
+    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
+    results.topks.extend([top_k] * num_queries)
+
+    if output_fields:
+        results.output_fields.extend(output_fields)
+
+        for field_name in output_fields:
+            field_data = results.fields_data.add()
+            field_data.field_name = field_name
+
+            if field_name == "text":
+                field_data.type = schema_pb2.DataType.VarChar
+                field_data.scalars.string_data.data.extend(
+                    ['x' * varchar_length] * total_results
+                )
+            elif field_name == "id":
+                field_data.type = schema_pb2.DataType.Int64
+                field_data.scalars.long_data.data.extend(list(range(total_results)))
+
+    return response
+
+
+def create_search_results_with_json(
+    num_queries: int,
+    top_k: int,
+    json_size: str = "small",
+    output_fields: Optional[List[str]] = None
+) -> milvus_pb2.SearchResults:
+    response = milvus_pb2.SearchResults()
+    response.status.error_code = common_pb2.ErrorCode.Success
+
+    results = response.results
+    results.num_queries = num_queries
+    results.top_k = top_k
+
+    total_results = num_queries * top_k
+
+    results.ids.int_id.data.extend(list(range(total_results)))
+    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
+    results.topks.extend([top_k] * num_queries)
+
+    if json_size == "small":
+        json_data = b'{"key": "value"}'
+    elif json_size == "medium":
+        json_data = b'{"name": "test", "age": 25, "tags": ["a", "b", "c"], "active": true}'
+    elif json_size == "large":
+        json_data = b'{"name": "test", "description": "' + b'x' * 500 + b'", "metadata": {"field1": 1, "field2": 2}}'
+    else:  # huge ~64KB
+        payload = b'x' * 65536
+        json_data = b'{"blob": "' + payload + b'"}'
+
+    if output_fields:
+        results.output_fields.extend(output_fields)
+
+        for field_name in output_fields:
+            field_data = results.fields_data.add()
+            field_data.field_name = field_name
+
+            if field_name == "metadata":
+                field_data.type = schema_pb2.DataType.JSON
+                field_data.scalars.json_data.data.extend([json_data] * total_results)
+            elif field_name == "id":
+                field_data.type = schema_pb2.DataType.Int64
+                field_data.scalars.long_data.data.extend(list(range(total_results)))
+
+    return response
+
+
+def create_search_results_with_array(
+    num_queries: int,
+    top_k: int,
+    array_len: int = 5,
+    output_fields: Optional[List[str]] = None
+) -> milvus_pb2.SearchResults:
+    response = milvus_pb2.SearchResults()
+    response.status.error_code = common_pb2.ErrorCode.Success
+
+    results = response.results
+    results.num_queries = num_queries
+    results.top_k = top_k
+
+    total_results = num_queries * top_k
+
+    results.ids.int_id.data.extend(list(range(total_results)))
+    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
+    results.topks.extend([top_k] * num_queries)
+
+    if output_fields:
+        results.output_fields.extend(output_fields)
+
+        for field_name in output_fields:
+            field_data = results.fields_data.add()
+            field_data.field_name = field_name
+
+            if field_name == "tags":
+                field_data.type = schema_pb2.DataType.Array
+                field_data.scalars.array_data.element_type = schema_pb2.DataType.Int64
+                for _ in range(total_results):
+                    array_item = field_data.scalars.array_data.data.add()
+                    # Fill with zeros to avoid excessive memory overhead in test logic
+                    array_item.long_data.data.extend([0] * array_len)
+            elif field_name == "id":
+                field_data.type = schema_pb2.DataType.Int64
+                field_data.scalars.long_data.data.extend(list(range(total_results)))
+
+    return response
+
+
+def create_search_results_with_geojson(
+    num_queries: int,
+    top_k: int,
+    output_fields: Optional[List[str]] = None
+) -> milvus_pb2.SearchResults:
+    response = milvus_pb2.SearchResults()
+    response.status.error_code = common_pb2.ErrorCode.Success
+
+    results = response.results
+    results.num_queries = num_queries
+    results.top_k = top_k
+
+    total_results = num_queries * top_k
+
+    results.ids.int_id.data.extend(list(range(total_results)))
+    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
+    results.topks.extend([top_k] * num_queries)
+
+    if output_fields:
+        results.output_fields.extend(output_fields)
+
+        for field_name in output_fields:
+            field_data = results.fields_data.add()
+            field_data.field_name = field_name
+
+            if field_name == "location":
+                field_data.type = schema_pb2.DataType.Geometry
+                field_data.scalars.geometry_wkt_data.data.extend(
+                    ["POINT(0.0 0.0)"] * total_results
+                )
+            elif field_name == "id":
+                field_data.type = schema_pb2.DataType.Int64
+                field_data.scalars.long_data.data.extend(list(range(total_results)))
+
+    return response
+
+
+def create_query_results(
+    num_rows: int,
+    output_fields: Optional[List[str]] = None
+) -> milvus_pb2.QueryResults:
+    response = milvus_pb2.QueryResults()
+    response.status.error_code = common_pb2.ErrorCode.Success
+
+    if output_fields:
+        response.output_fields.extend(output_fields)
+
+        for field_name in output_fields:
+            field_data = response.fields_data.add()
+            field_data.field_name = field_name
+
+            if field_name == "id":
+                field_data.type = schema_pb2.DataType.Int64
+                field_data.scalars.long_data.data.extend(list(range(num_rows)))
+            elif field_name == "age":
+                field_data.type = schema_pb2.DataType.Int32
+                field_data.scalars.int_data.data.extend([25 + i % 50 for i in range(num_rows)])
+            elif field_name == "score":
+                field_data.type = schema_pb2.DataType.Float
+                field_data.scalars.float_data.data.extend([0.5 + i * 0.01 for i in range(num_rows)])
+            elif field_name == "name":
+                field_data.type = schema_pb2.DataType.VarChar
+                field_data.scalars.string_data.data.extend([f"name_{i}" for i in range(num_rows)])
+            elif field_name == "active":
+                field_data.type = schema_pb2.DataType.Bool
+                field_data.scalars.bool_data.data.extend([i % 2 == 0 for i in range(num_rows)])
+            elif field_name == "metadata":
+                field_data.type = schema_pb2.DataType.JSON
+                field_data.scalars.json_data.data.extend([b'{"key": "value"}'] * num_rows)
+
+    return response
+
+
+def create_hybrid_search_results(
+    num_requests: int = 2,
+    top_k: int = 10,
+    output_fields: Optional[List[str]] = None
+) -> milvus_pb2.SearchResults:
+    return create_search_results(
+        num_queries=1,
+        top_k=top_k,
+        output_fields=output_fields,
+        include_vectors=False
+    )
+
+
+def create_search_results_all_types(
+    num_queries: int = 1,
+    top_k: int = 10,
+    dim: int = 128
+) -> milvus_pb2.SearchResults:
+    response = milvus_pb2.SearchResults()
+    response.status.error_code = common_pb2.ErrorCode.Success
+
+    results = response.results
+    results.num_queries = num_queries
+    results.top_k = top_k
+
+    total_results = num_queries * top_k
+
+    results.ids.int_id.data.extend(list(range(total_results)))
+    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
+    results.topks.extend([top_k] * num_queries)
+
+    output_fields = [
+        "int8_field",
+        "int16_field",
+        "int32_field",
+        "int64_field",
+        "float_field",
+        "double_field",
+        "bool_field",
+        "varchar_field",
+        "json_field",
+        "array_field",
+        "geojson_field",
+        "struct_field",
+        "float_vector",
+        "float16_vector",
+        "bfloat16_vector",
+        "binary_vector",
+        "sparse_vector",
+        "int8_vector",
+    ]
+    results.output_fields.extend(output_fields)
+
+    # Int8 field
+    field_data = results.fields_data.add()
+    field_data.field_name = "int8_field"
+    field_data.type = schema_pb2.DataType.Int8
+    field_data.scalars.int_data.data.extend([i % 128 for i in range(total_results)])
+
+    # Int16 field
+    field_data = results.fields_data.add()
+    field_data.field_name = "int16_field"
+    field_data.type = schema_pb2.DataType.Int16
+    field_data.scalars.int_data.data.extend([i % 1000 for i in range(total_results)])
+
+    # Int32 field
+    field_data = results.fields_data.add()
+    field_data.field_name = "int32_field"
+    field_data.type = schema_pb2.DataType.Int32
+    field_data.scalars.int_data.data.extend(list(range(total_results)))
+
+    # Int64 field
+    field_data = results.fields_data.add()
+    field_data.field_name = "int64_field"
+    field_data.type = schema_pb2.DataType.Int64
+    field_data.scalars.long_data.data.extend([i * 1000 for i in range(total_results)])
+
+    # Float field
+    field_data = results.fields_data.add()
+    field_data.field_name = "float_field"
+    field_data.type = schema_pb2.DataType.Float
+    field_data.scalars.float_data.data.extend([0.5 + i * 0.01 for i in range(total_results)])
+
+    # Double field
+    field_data = results.fields_data.add()
+    field_data.field_name = "double_field"
+    field_data.type = schema_pb2.DataType.Double
+    field_data.scalars.double_data.data.extend([0.123456789 + i for i in range(total_results)])
+
+    # Bool field
+    field_data = results.fields_data.add()
+    field_data.field_name = "bool_field"
+    field_data.type = schema_pb2.DataType.Bool
+    field_data.scalars.bool_data.data.extend([i % 2 == 0 for i in range(total_results)])
+
+    # VarChar field
+    field_data = results.fields_data.add()
+    field_data.field_name = "varchar_field"
+    field_data.type = schema_pb2.DataType.VarChar
+    field_data.scalars.string_data.data.extend([f"text_{i}" for i in range(total_results)])
+
+    # JSON field
+    field_data = results.fields_data.add()
+    field_data.field_name = "json_field"
+    field_data.type = schema_pb2.DataType.JSON
+    field_data.scalars.json_data.data.extend([b'{"id": %d}' % i for i in range(total_results)])
+
+    # Array field
+    field_data = results.fields_data.add()
+    field_data.field_name = "array_field"
+    field_data.type = schema_pb2.DataType.Array
+    field_data.scalars.array_data.element_type = schema_pb2.DataType.Int64
+    for i in range(total_results):
+        array_item = field_data.scalars.array_data.data.add()
+        array_item.long_data.data.extend([i, i+1, i+2])
+
+    # GeoJSON field
+    field_data = results.fields_data.add()
+    field_data.field_name = "geojson_field"
+    field_data.type = schema_pb2.DataType.Geometry
+    field_data.scalars.geometry_wkt_data.data.extend(
+        [f"POINT({i}.0 {i}.0)" for i in range(total_results)]
+    )
+
+    # Float vector
+    field_data = results.fields_data.add()
+    field_data.field_name = "float_vector"
+    field_data.type = schema_pb2.DataType.FloatVector
+    field_data.vectors.dim = dim
+    flat_vector = [float(j % 100) / 100.0 for _ in range(total_results) for j in range(dim)]
+    field_data.vectors.float_vector.data.extend(flat_vector)
+
+    # Float16 vector
+    field_data = results.fields_data.add()
+    field_data.field_name = "float16_vector"
+    field_data.type = schema_pb2.DataType.Float16Vector
+    field_data.vectors.dim = dim
+    field_data.vectors.float16_vector = b'\x00' * (total_results * dim * 2)
+
+    # BFloat16 vector
+    field_data = results.fields_data.add()
+    field_data.field_name = "bfloat16_vector"
+    field_data.type = schema_pb2.DataType.BFloat16Vector
+    field_data.vectors.dim = dim
+    field_data.vectors.bfloat16_vector = b'\x00' * (total_results * dim * 2)
+
+    # Binary vector
+    field_data = results.fields_data.add()
+    field_data.field_name = "binary_vector"
+    field_data.type = schema_pb2.DataType.BinaryVector
+    field_data.vectors.dim = dim
+    field_data.vectors.binary_vector = b'\x00' * (total_results * dim // 8)
+
+    # Sparse vector
+    field_data = results.fields_data.add()
+    field_data.field_name = "sparse_vector"
+    field_data.type = schema_pb2.DataType.SparseFloatVector
+    for _ in range(total_results):
+        # Sparse format: index (uint32) + value (float32) pairs
+        # Create one sparse entry: index 10 with value 0.5
+        sparse_bytes = struct.pack('<I', 10) + struct.pack('<f', 0.5)
+        field_data.vectors.sparse_float_vector.contents.append(sparse_bytes)
+    field_data.vectors.sparse_float_vector.dim = 1000
+
+    # Int8 vector
+    field_data = results.fields_data.add()
+    field_data.field_name = "int8_vector"
+    field_data.type = schema_pb2.DataType.Int8Vector
+    field_data.vectors.dim = dim
+    field_data.vectors.int8_vector = b'\x00' * (total_results * dim)
+
+    # Struct field (stored as ARRAY_OF_STRUCT internally)
+    field_data = results.fields_data.add()
+    field_data.field_name = "struct_field"
+    field_data.type = schema_pb2.ArrayOfStruct
+
+    # Create sub-field for int data (ARRAY type)
+    sub_field_int = field_data.struct_arrays.fields.add()
+    sub_field_int.field_name = "sub_int"
+    sub_field_int.type = schema_pb2.Array
+    sub_field_int.scalars.array_data.element_type = schema_pb2.Int64
+    for i in range(total_results):
+        array_item = sub_field_int.scalars.array_data.data.add()
+        array_item.long_data.data.extend([i * 10, i * 10 + 1])
+
+    # Create sub-field for string data (ARRAY type)
+    sub_field_str = field_data.struct_arrays.fields.add()
+    sub_field_str.field_name = "sub_str"
+    sub_field_str.type = schema_pb2.Array
+    sub_field_str.scalars.array_data.element_type = schema_pb2.VarChar
+    for i in range(total_results):
+        array_item = sub_field_str.scalars.array_data.data.add()
+        array_item.string_data.data.extend([f"struct_{i}_0", f"struct_{i}_1"])
+
+    return response
+
+
+def create_query_results_all_types(
+    num_rows: int,
+    dim: int = 128
+) -> milvus_pb2.QueryResults:
+    response = milvus_pb2.QueryResults()
+    response.status.error_code = common_pb2.ErrorCode.Success
+
+    output_fields = [
+        "int8_field", "int16_field", "int32_field", "int64_field",
+        "float_field", "double_field", "bool_field", "varchar_field",
+        "json_field", "array_field", "geojson_field", "struct_field"
+    ]
+    response.output_fields.extend(output_fields)
+
+    # Copy all scalar field logic from search version
+    for field_name in output_fields:
+        field_data = response.fields_data.add()
+        field_data.field_name = field_name
+
+        if field_name == "int8_field":
+            field_data.type = schema_pb2.DataType.Int8
+            field_data.scalars.int_data.data.extend([i % 128 for i in range(num_rows)])
+        elif field_name == "int16_field":
+            field_data.type = schema_pb2.DataType.Int16
+            field_data.scalars.int_data.data.extend([i % 1000 for i in range(num_rows)])
+        elif field_name == "int32_field":
+            field_data.type = schema_pb2.DataType.Int32
+            field_data.scalars.int_data.data.extend(list(range(num_rows)))
+        elif field_name == "int64_field":
+            field_data.type = schema_pb2.DataType.Int64
+            field_data.scalars.long_data.data.extend([i * 1000 for i in range(num_rows)])
+        elif field_name == "float_field":
+            field_data.type = schema_pb2.DataType.Float
+            field_data.scalars.float_data.data.extend([0.5 + i * 0.01 for i in range(num_rows)])
+        elif field_name == "double_field":
+            field_data.type = schema_pb2.DataType.Double
+            field_data.scalars.double_data.data.extend([0.123456789 + i for i in range(num_rows)])
+        elif field_name == "bool_field":
+            field_data.type = schema_pb2.DataType.Bool
+            field_data.scalars.bool_data.data.extend([i % 2 == 0 for i in range(num_rows)])
+        elif field_name == "varchar_field":
+            field_data.type = schema_pb2.DataType.VarChar
+            field_data.scalars.string_data.data.extend([f"text_{i}" for i in range(num_rows)])
+        elif field_name == "json_field":
+            field_data.type = schema_pb2.DataType.JSON
+            field_data.scalars.json_data.data.extend([b'{"id": %d}' % i for i in range(num_rows)])
+        elif field_name == "array_field":
+            field_data.type = schema_pb2.DataType.Array
+            field_data.scalars.array_data.element_type = schema_pb2.DataType.Int64
+            for i in range(num_rows):
+                array_item = field_data.scalars.array_data.data.add()
+                array_item.long_data.data.extend([i, i+1, i+2])
+        elif field_name == "geojson_field":
+            field_data.type = schema_pb2.DataType.Geometry
+            field_data.scalars.geometry_wkt_data.data.extend(
+                [f"POINT({i}.0 {i}.0)" for i in range(num_rows)]
+            )
+        elif field_name == "struct_field":
+            field_data.type = schema_pb2.ArrayOfStruct
+
+            # Create sub-field for int data (ARRAY type)
+            sub_field_int = field_data.struct_arrays.fields.add()
+            sub_field_int.field_name = "sub_int"
+            sub_field_int.type = schema_pb2.Array
+            sub_field_int.scalars.array_data.element_type = schema_pb2.Int64
+            for i in range(num_rows):
+                array_item = sub_field_int.scalars.array_data.data.add()
+                array_item.long_data.data.extend([i * 10, i * 10 + 1])
+
+            # Create sub-field for string data (ARRAY type)
+            sub_field_str = field_data.struct_arrays.fields.add()
+            sub_field_str.field_name = "sub_str"
+            sub_field_str.type = schema_pb2.Array
+            sub_field_str.scalars.array_data.element_type = schema_pb2.VarChar
+            for i in range(num_rows):
+                array_item = sub_field_str.scalars.array_data.data.add()
+                array_item.string_data.data.extend([f"struct_{i}_0", f"struct_{i}_1"])
+
+    return response
diff --git a/tests/benchmark/requirements.txt b/tests/benchmark/requirements.txt
new file mode 100644
index 000000000..2d07aadd3
--- /dev/null
+++ b/tests/benchmark/requirements.txt
@@ -0,0 +1,4 @@
+py-spy # CPU profiling
+memray # Memory profiling
+line_profiler # line-by-line profing
+memory_profiler
diff --git a/tests/benchmark/scripts/profile_cpu.sh b/tests/benchmark/scripts/profile_cpu.sh
new file mode 100755
index 000000000..d82b1934c
--- /dev/null
+++ b/tests/benchmark/scripts/profile_cpu.sh
@@ -0,0 +1,23 @@
+#!/bin/bash
+
+if [ -z "$1" ]; then
+    echo "Usage: $0 <test_name>"
+    echo "Example: $0 test_search_bench.py::test_search_float32_basic_scalars"
+    exit 1
+fi
+
+TEST_NAME=$1
+OUTPUT_SVG="cpu_profile_$(echo $TEST_NAME | tr ':/' '__').svg"
+OUTPUT_SPEEDSCOPE="cpu_profile_$(echo $TEST_NAME | tr ':/' '__').speedscope.json"
+
+echo "Profiling $TEST_NAME..."
+echo "Output files: $OUTPUT_SVG, $OUTPUT_SPEEDSCOPE"
+
+py-spy record -o "$OUTPUT_SVG" --native -- pytest "tests/benchmark/$TEST_NAME" -v
+
+py-spy record -o "$OUTPUT_SPEEDSCOPE" -f speedscope -- pytest "tests/benchmark/$TEST_NAME" -v
+
+echo ""
+echo "Profiling complete!"
+echo "View SVG: open $OUTPUT_SVG"
+echo "View Speedscope: Upload $OUTPUT_SPEEDSCOPE to https://www.speedscope.app/"
diff --git a/tests/benchmark/scripts/profile_memory.sh b/tests/benchmark/scripts/profile_memory.sh
new file mode 100755
index 000000000..4b3c2c5dc
--- /dev/null
+++ b/tests/benchmark/scripts/profile_memory.sh
@@ -0,0 +1,47 @@
+#!/bin/bash
+# Memory profiling script using pytest-memray
+# This allows profiling existing benchmark tests without modification
+
+if [ -z "$1" ]; then
+    echo "Usage: $0 <test_pattern> [allocations_to_show]"
+    echo ""
+    echo "Examples:"
+    echo "  $0 test_search_bench.py::TestSearchBench::test_search_float32_varying_topk"
+    echo "  $0 'test_search_bench.py::TestSearchBench::test_search_float32_varying_topk[10000]'"
+    echo "  $0 test_access_patterns_bench.py 20"
+    echo ""
+    echo "Note: Use quotes for test names with brackets"
+    exit 1
+fi
+
+TEST_PATTERN=$1
+MOST_ALLOCS=${2:-10}
+OUTPUT_DIR=".memray_profiles"
+
+mkdir -p "$OUTPUT_DIR"
+
+echo "🔍 Memory profiling: $TEST_PATTERN"
+echo "📊 Showing top $MOST_ALLOCS allocators"
+echo "📁 Binary dumps: $OUTPUT_DIR"
+echo ""
+
+# Run with pytest-memray
+pytest "tests/benchmark/$TEST_PATTERN" \
+    --memray \
+    --memray-bin-path="$OUTPUT_DIR" \
+    --most-allocations="$MOST_ALLOCS" \
+    --stacks=10 \
+    -v
+
+echo ""
+echo "✅ Memory profiling complete!"
+echo ""
+echo "📊 Binary dumps saved to: $OUTPUT_DIR/"
+echo ""
+echo "🔥 Generate flamegraphs:"
+echo "  memray flamegraph $OUTPUT_DIR/memray-*.bin"
+echo ""
+echo "📋 Additional analysis:"
+echo "  memray table $OUTPUT_DIR/memray-*.bin    # Top allocators table"
+echo "  memray tree $OUTPUT_DIR/memray-*.bin     # Call stack tree"
+echo "  memray summary $OUTPUT_DIR/memray-*.bin  # Summary statistics"
diff --git a/tests/benchmark/test_access_patterns_bench.py b/tests/benchmark/test_access_patterns_bench.py
new file mode 100644
index 000000000..1cdbdf7e0
--- /dev/null
+++ b/tests/benchmark/test_access_patterns_bench.py
@@ -0,0 +1,206 @@
+from unittest.mock import MagicMock
+
+import pytest
+
+from . import mock_responses
+
+
+class TestAccessPatternsBench:
+    """Benchmark different access patterns for search results.
+    
+    Real-world usage varies:
+    - UI display: Access first page only
+    - Export/analysis: Iterate all results
+    - Pagination: Random access to specific pages
+    """
+
+    @pytest.mark.parametrize("top_k", [100, 1000, 10000, 65536])
+    def test_search_no_materialization(self, benchmark, mocked_milvus_client, top_k: int) -> None:
+        """Measure overhead of search without accessing results.
+        
+        This establishes baseline for result construction without materialization.
+        Lazy fields (vectors, JSON) are not parsed.
+        """
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_all_types(
+                num_queries=1,
+                top_k=top_k,
+                dim=128
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+        query_vectors = [[0.1] * 128]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=top_k,
+            output_fields=["*"]
+        )
+
+        assert len(result) == 1
+        assert len(result[0]) == top_k
+
+    @pytest.mark.parametrize("top_k", [100, 1000, 10000, 65536])
+    def test_search_access_first_only(self, benchmark, mocked_milvus_client, top_k: int) -> None:
+        """Measure cost of accessing only the first result.
+        
+        Simulates UI display of first page. Should materialize minimal data.
+        """
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_all_types(
+                num_queries=1,
+                top_k=top_k,
+                dim=128
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+        query_vectors = [[0.1] * 128]
+
+        def run_and_access_first():
+            result = mocked_milvus_client.search(
+                collection_name="test_collection",
+                data=query_vectors,
+                limit=top_k,
+                output_fields=["*"]
+            )
+            # Access first result - triggers materialization
+            first = result[0][0]
+            return first
+
+        first_result = benchmark(run_and_access_first)
+        assert first_result is not None
+
+    @pytest.mark.parametrize("top_k", [100, 1000, 10000, 65536])
+    def test_search_iterate_all(self, benchmark, mocked_milvus_client, top_k: int) -> None:
+        """Measure cost of iterating all results.
+        
+        Simulates export/analysis workload. Materializes all lazy fields.
+        """
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_all_types(
+                num_queries=1,
+                top_k=top_k,
+                dim=128
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+        query_vectors = [[0.1] * 128]
+
+        def run_and_iterate_all():
+            result = mocked_milvus_client.search(
+                collection_name="test_collection",
+                data=query_vectors,
+                limit=top_k,
+                output_fields=["*"]
+            )
+            # Iterate all - materializes everything
+            count = 0
+            for hits in result:
+                for hit in hits:
+                    count += 1
+            return count
+
+        count = benchmark(run_and_iterate_all)
+        assert count == top_k
+
+    @pytest.mark.parametrize("top_k", [1000, 10000, 65536])
+    def test_search_random_access_pattern(self, benchmark, mocked_milvus_client, top_k: int) -> None:
+        """Measure cost of random access to specific indices.
+        
+        Simulates pagination where user jumps to different pages.
+        """
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_all_types(
+                num_queries=1,
+                top_k=top_k,
+                dim=128
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+        query_vectors = [[0.1] * 128]
+
+        def run_and_random_access():
+            result = mocked_milvus_client.search(
+                collection_name="test_collection",
+                data=query_vectors,
+                limit=top_k,
+                output_fields=["*"]
+            )
+            # Access different pages (indices 0, 50, 25, 75)
+            page_indices = [0, 50, 25, 75]
+            accessed = []
+            for idx in page_indices:
+                if idx < len(result[0]):
+                    accessed.append(result[0][idx])
+            return accessed
+
+        accessed = benchmark(run_and_random_access)
+        assert len(accessed) > 0
+
+    @pytest.mark.parametrize("top_k", [100, 1000, 10000, 65536])
+    def test_search_materialize_scalars_only(self, benchmark, mocked_milvus_client, top_k: int) -> None:
+        """Measure iteration over scalar fields only (no vectors).
+        
+        Scalars are eagerly loaded, so this should be faster than all-field iteration.
+        """
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results(
+                num_queries=1,
+                top_k=top_k,
+                output_fields=["id", "age", "score", "name"]
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+        query_vectors = [[0.1] * 128]
+
+        def run_and_iterate_scalars():
+            result = mocked_milvus_client.search(
+                collection_name="test_collection",
+                data=query_vectors,
+                limit=top_k,
+                output_fields=["id", "age", "score", "name"]
+            )
+            count = 0
+            for hits in result:
+                for hit in hits:
+                    count += 1
+            return count
+
+        count = benchmark(run_and_iterate_scalars)
+        assert count == top_k
+
+    @pytest.mark.parametrize("top_k", [100, 1000, 10000, 65536])
+    def test_search_materialize_vectors_only(self, benchmark, mocked_milvus_client, top_k: int) -> None:
+        """Measure iteration with vector fields.
+        
+        Vectors are lazily loaded, should be slower than scalars.
+        """
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results(
+                num_queries=1,
+                top_k=top_k,
+                output_fields=["id", "embedding"],
+                include_vectors=True,
+                dim=128
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+        query_vectors = [[0.1] * 128]
+
+        def run_and_iterate_vectors():
+            result = mocked_milvus_client.search(
+                collection_name="test_collection",
+                data=query_vectors,
+                limit=top_k,
+                output_fields=["id", "embedding"]
+            )
+            count = 0
+            for hits in result:
+                for hit in hits:
+                    count += 1
+            return count
+
+        count = benchmark(run_and_iterate_vectors)
+        assert count == top_k
diff --git a/tests/benchmark/test_hybrid_bench.py b/tests/benchmark/test_hybrid_bench.py
new file mode 100644
index 000000000..daa47f724
--- /dev/null
+++ b/tests/benchmark/test_hybrid_bench.py
@@ -0,0 +1,86 @@
+from unittest.mock import MagicMock
+
+import pytest
+from pymilvus import AnnSearchRequest, WeightedRanker
+
+from . import mock_responses
+
+
+class TestHybridBench:
+    def test_hybrid_search_basic(self, benchmark, mocked_milvus_client) -> None:
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_hybrid_search_results(
+                num_requests=2,
+                top_k=10,
+                output_fields=["id", "score"]
+            )
+        mocked_milvus_client._get_connection()._stub.HybridSearch = MagicMock(side_effect=custom_search)
+
+        req1 = AnnSearchRequest([[0.1] * 128], "vector_field", {"metric_type": "L2"}, limit=10)
+        req2 = AnnSearchRequest([[0.2] * 128], "vector_field", {"metric_type": "L2"}, limit=10)
+        ranker = WeightedRanker(0.5, 0.5)
+
+        result = benchmark(
+            mocked_milvus_client.hybrid_search,
+            collection_name="test_collection",
+            reqs=[req1, req2],
+            ranker=ranker,
+            limit=10,
+            output_fields=["id", "score"]
+        )
+        assert len(result) == 1
+
+
+    @pytest.mark.parametrize("num_requests", [1, 10, 100, 1000, 10000])
+    def test_hybrid_search_multiple_requests(self, benchmark, mocked_milvus_client, num_requests: int) -> None:
+
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_hybrid_search_results(
+                num_requests=num_requests,
+                top_k=10,
+                output_fields=["id", "score"]
+            )
+        mocked_milvus_client._get_connection()._stub.HybridSearch = MagicMock(side_effect=custom_search)
+
+        reqs = [
+            AnnSearchRequest([[0.1] * 128], "vector_field", {"metric_type": "L2"}, limit=10)
+            for _ in range(num_requests)
+        ]
+        weights = [1.0 / num_requests] * num_requests
+        ranker = WeightedRanker(*weights)
+
+        result = benchmark(
+            mocked_milvus_client.hybrid_search,
+            collection_name="test_collection",
+            reqs=reqs,
+            ranker=ranker,
+            limit=10,
+            output_fields=["id", "score"]
+        )
+        assert len(result) == 1
+
+
+    @pytest.mark.parametrize("top_k", [1, 10, 100, 1000, 10000])
+    def test_hybrid_search_varying_topk(self, benchmark, mocked_milvus_client, top_k: int) -> None:
+
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_hybrid_search_results(
+                num_requests=2,
+                top_k=top_k,
+                output_fields=["id", "score"]
+            )
+        mocked_milvus_client._get_connection()._stub.HybridSearch = MagicMock(side_effect=custom_search)
+
+        req1 = AnnSearchRequest([[0.1] * 128], "vector_field", {"metric_type": "L2"}, limit=top_k)
+        req2 = AnnSearchRequest([[0.2] * 128], "vector_field", {"metric_type": "L2"}, limit=top_k)
+        ranker = WeightedRanker(0.5, 0.5)
+
+        result = benchmark(
+            mocked_milvus_client.hybrid_search,
+            collection_name="test_collection",
+            reqs=[req1, req2],
+            ranker=ranker,
+            limit=top_k,
+            output_fields=["id", "score"]
+        )
+        assert len(result) == 1
diff --git a/tests/benchmark/test_query_bench.py b/tests/benchmark/test_query_bench.py
new file mode 100644
index 000000000..e45ddec84
--- /dev/null
+++ b/tests/benchmark/test_query_bench.py
@@ -0,0 +1,59 @@
+from unittest.mock import MagicMock
+
+import pytest
+
+from . import mock_responses
+
+
+class TestQueryBench:
+    @pytest.mark.parametrize("num_rows", [1, 10, 100, 1000, 10000, 65536])
+    def test_query_basic_scalars(self, benchmark, mocked_milvus_client, num_rows: int) -> None:
+
+        def custom_query(request, timeout=None, metadata=None):
+            return mock_responses.create_query_results(
+                num_rows=num_rows,
+                output_fields=["id", "age", "score", "name"]
+            )
+        mocked_milvus_client._get_connection()._stub.Query = MagicMock(side_effect=custom_query)
+        result = benchmark(
+            mocked_milvus_client.query,
+            collection_name="test_collection",
+            filter="age > 25",
+            output_fields=["id", "age", "score", "name"]
+        )
+        assert len(result) == num_rows
+
+
+    @pytest.mark.parametrize("num_rows", [1, 100, 1000, 10000, 65536])
+    def test_query_with_json_field(self, benchmark, mocked_milvus_client, num_rows: int) -> None:
+
+        def custom_query(request, timeout=None, metadata=None):
+            return mock_responses.create_query_results(
+                num_rows=num_rows,
+                output_fields=["id", "metadata"]
+            )
+        mocked_milvus_client._get_connection()._stub.Query = MagicMock(side_effect=custom_query)
+        result = benchmark(
+            mocked_milvus_client.query,
+            collection_name="test_collection",
+            filter="id > 0",
+            output_fields=["id", "metadata"]
+        )
+        assert len(result) == num_rows
+
+
+    @pytest.mark.parametrize("num_rows", [1, 100, 1000, 10000, 65536])
+    def test_query_all_fields(self, benchmark, mocked_milvus_client, num_rows: int) -> None:
+        def custom_query(request, timeout=None, metadata=None):
+            return mock_responses.create_query_results(
+                num_rows=num_rows,
+                output_fields=["id", "age", "score", "name", "active", "metadata"]
+            )
+        mocked_milvus_client._get_connection()._stub.Query = MagicMock(side_effect=custom_query)
+        result = benchmark(
+            mocked_milvus_client.query,
+            collection_name="test_collection",
+            filter="id > 0",
+            output_fields=["*"]
+        )
+        assert len(result) == num_rows
diff --git a/tests/benchmark/test_search_bench.py b/tests/benchmark/test_search_bench.py
new file mode 100644
index 000000000..02ffbf08d
--- /dev/null
+++ b/tests/benchmark/test_search_bench.py
@@ -0,0 +1,443 @@
+from unittest.mock import MagicMock
+
+import pytest
+
+from . import mock_responses
+
+
+class TestSearchBench:
+    def test_search_float32_no_output_fields(self, benchmark, mocked_milvus_client):
+        query_vectors = [[0.1] * 128]
+
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results(
+                num_queries=len(query_vectors),
+                top_k=10
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10
+        )
+
+        assert len(result) == len(query_vectors)
+
+    def test_search_float32_basic_scalars(self, benchmark, mocked_milvus_client):
+        query_vectors = [[0.1] * 128]
+
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results(
+                num_queries=len(query_vectors),
+                top_k=10,
+                output_fields=["id", "age", "score", "name"]
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10,
+            output_fields=["id", "age", "score", "name"]
+        )
+
+        assert len(result) == len(query_vectors)
+        assert len(result[0]) == 10
+
+
+    @pytest.mark.parametrize("top_k", [10, 100, 1000, 10000, 65536])
+    def test_search_float32_varying_topk(self, benchmark, mocked_milvus_client, top_k):
+
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results(
+                num_queries=1,
+                top_k=top_k,
+                output_fields=["id", "age", "score"]
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        query_vectors = [[0.1] * 128]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=top_k,
+            output_fields=["id", "age", "score"]
+        )
+
+        assert len(result) == 1
+        assert len(result[0]) == top_k
+
+
+    @pytest.mark.parametrize("num_queries", [1, 10, 100, 1000, 10000])
+    def test_search_float32_varying_num_queries(self, benchmark, mocked_milvus_client, num_queries):
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results(
+                num_queries=num_queries,
+                top_k=10,
+                output_fields=["id", "score"]
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        query_vectors = [[0.1] * 128] * num_queries
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10,
+            output_fields=["id", "score"]
+        )
+
+        assert len(result) == num_queries
+
+
+    @pytest.mark.parametrize("dim", [128, 768, 1536])
+    def test_search_float32_varying_dimensions(self, benchmark, mocked_milvus_client, dim):
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results(
+                num_queries=1,
+                top_k=10,
+                output_fields=["id"],
+                include_vectors=True,
+                dim=dim
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        query_vectors = [[0.1] * dim]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10,
+            output_fields=["id", "embedding"]
+        )
+
+        assert len(result) == 1
+
+
+    def test_search_float16_vector(self, benchmark, mocked_milvus_client):
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_with_float16_vector(
+                num_queries=1,
+                top_k=10,
+                output_fields=["id", "embedding"]
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        query_vectors = [[0.1] * 128]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10,
+            output_fields=["id", "embedding"]
+        )
+
+        assert len(result) == 1
+
+
+    def test_search_bfloat16_vector(self, benchmark, mocked_milvus_client):
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_with_bfloat16_vector(
+                num_queries=1,
+                top_k=10,
+                output_fields=["id", "embedding"]
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        query_vectors = [[0.1] * 128]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10,
+            output_fields=["id", "embedding"]
+        )
+
+        assert len(result) == 1
+
+
+    def test_search_binary_vector(self, benchmark, mocked_milvus_client):
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_with_binary_vector(
+                num_queries=1,
+                top_k=10,
+                output_fields=["id", "embedding"]
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        query_vectors = [b'\x00' * 16]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10,
+            output_fields=["id", "embedding"]
+        )
+
+        assert len(result) == 1
+
+
+    def test_search_int8_vector(self, benchmark, mocked_milvus_client):
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_with_int8_vector(
+                num_queries=1,
+                top_k=10,
+                output_fields=["id", "embedding"]
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        query_vectors = [[0.1] * 128]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10,
+            output_fields=["id", "embedding"]
+        )
+
+        assert len(result) == 1
+
+
+    def test_search_sparse_vector(self, benchmark, mocked_milvus_client):
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_with_sparse_vector(
+                num_queries=1,
+                top_k=10
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        query_vectors = [{1: 0.5, 10: 0.3}]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10
+        )
+
+        assert len(result) == 1
+
+
+    def test_search_with_json_output(self, benchmark, mocked_milvus_client):
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_with_json(
+                num_queries=1,
+                top_k=10,
+                output_fields=["id", "metadata"]
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        query_vectors = [[0.1] * 128]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10,
+            output_fields=["id", "metadata"]
+        )
+
+        assert len(result) == 1
+
+
+    def test_search_with_array_output(self, benchmark, mocked_milvus_client):
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_with_array(
+                num_queries=1,
+                top_k=10,
+                output_fields=["id", "tags"]
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        query_vectors = [[0.1] * 128]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10,
+            output_fields=["id", "tags"]
+        )
+
+        assert len(result) == 1
+
+
+    def test_search_with_geojson_output(self, benchmark, mocked_milvus_client):
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_with_geojson(
+                num_queries=1,
+                top_k=10,
+                output_fields=["id", "location"]
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        query_vectors = [[0.1] * 128]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10,
+            output_fields=["id", "location"]
+        )
+
+        assert len(result) == 1
+
+
+    @pytest.mark.parametrize("varchar_length", [10, 100, 1000, 10000, 65536])
+    def test_search_with_varchar_sizes(self, benchmark, mocked_milvus_client, varchar_length):
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_with_varchar(
+                num_queries=1,
+                top_k=10,
+                varchar_length=varchar_length,
+                output_fields=["id", "text"]
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        query_vectors = [[0.1] * 128]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10,
+            output_fields=["id", "text"]
+        )
+
+        assert len(result) == 1
+
+
+    @pytest.mark.parametrize("json_size", ["small", "medium", "large", "huge"])
+    def test_search_with_json_sizes(self, benchmark, mocked_milvus_client, json_size):
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_with_json(
+                num_queries=1,
+                top_k=10,
+                json_size=json_size,
+                output_fields=["id", "metadata"]
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+
+        query_vectors = [[0.1] * 128]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10,
+            output_fields=["id", "metadata"]
+        )
+
+        assert len(result) == 1
+
+
+    @pytest.mark.parametrize("json_size", ["small", "medium", "large", "huge"])
+    def test_search_with_json_sizes_materialized(self, benchmark, mocked_milvus_client, json_size):
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_with_json(
+                num_queries=1,
+                top_k=10,
+                json_size=json_size,
+                output_fields=["id", "metadata"]
+            )
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+        query_vectors = [[0.1] * 128]
+        res = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=10,
+            output_fields=["id", "metadata"]
+        )
+        # Force materialization to include JSON parsing
+        res.materialize()
+
+
+    @pytest.mark.parametrize("top_k", [10, 100, 1000, 10000, 65536])
+    def test_search_struct_field(self, benchmark, mocked_milvus_client, top_k: int) -> None:
+        """Benchmark struct field (ArrayOfStruct) parsing.
+        
+        Struct fields require column-to-row conversion, which is complex.
+        This measures the overhead of struct field extraction.
+        """
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_all_types(
+                num_queries=1,
+                top_k=top_k,
+                dim=128
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+        query_vectors = [[0.1] * 128]
+
+        result = benchmark(
+            mocked_milvus_client.search,
+            collection_name="test_collection",
+            data=query_vectors,
+            limit=top_k,
+            output_fields=["id", "struct_field"]
+        )
+
+        assert len(result) == 1
+        assert len(result[0]) == top_k
+
+
+    @pytest.mark.parametrize("top_k", [10, 100, 1000, 10000, 65536])
+    def test_search_struct_field_materialized(self, benchmark, mocked_milvus_client, top_k: int) -> None:
+        """Benchmark struct field with forced materialization.
+        
+        Forces full struct field conversion by iterating results.
+        """
+        def custom_search(request, timeout=None, metadata=None):
+            return mock_responses.create_search_results_all_types(
+                num_queries=1,
+                top_k=top_k,
+                dim=128
+            )
+
+        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+        query_vectors = [[0.1] * 128]
+
+        def run_and_materialize():
+            result = mocked_milvus_client.search(
+                collection_name="test_collection",
+                data=query_vectors,
+                limit=top_k,
+                output_fields=["id", "struct_field"]
+            )
+            # Force materialization
+            count = 0
+            for hits in result:
+                for hit in hits:
+                    count += 1
+            return count
+
+        count = benchmark(run_and_materialize)
+        assert count == top_k

From a4ff2e4f6cbc364964c2543f90878f32728fb18c Mon Sep 17 00:00:00 2001
From: yangxuan <xuan.yang@zilliz.com>
Date: Thu, 4 Dec 2025 17:24:28 +0800
Subject: [PATCH 2/4] fix: tidy the code

Signed-off-by: yangxuan <xuan.yang@zilliz.com>
---
 tests/benchmark/README.md                     |   4 +-
 tests/benchmark/conftest.py                   | 130 ++-
 tests/benchmark/mock_responses.py             | 786 +++---------------
 tests/benchmark/test_access_patterns_bench.py | 206 -----
 tests/benchmark/test_hybrid_bench.py          |  86 --
 tests/benchmark/test_query_bench.py           |  59 --
 tests/benchmark/test_search_bench.py          | 396 +--------
 7 files changed, 203 insertions(+), 1464 deletions(-)
 delete mode 100644 tests/benchmark/test_access_patterns_bench.py
 delete mode 100644 tests/benchmark/test_hybrid_bench.py
 delete mode 100644 tests/benchmark/test_query_bench.py

diff --git a/tests/benchmark/README.md b/tests/benchmark/README.md
index 16b6a67ff..982db9e4f 100644
--- a/tests/benchmark/README.md
+++ b/tests/benchmark/README.md
@@ -18,8 +18,6 @@ tests/benchmark/
 ├── conftest.py              # Mock gRPC stubs & shared fixtures
 ├── mock_responses.py        # Fake protobuf response builders
 ├── test_search_bench.py     # Search timing benchmarks
-├── test_query_bench.py      # Query timing benchmarks
-├── test_hybrid_bench.py     # Hybrid search timing benchmarks
 └── scripts/
     ├── profile_cpu.sh       # CPU profiling wrapper
     └── profile_memory.sh    # Memory profiling wrapper
@@ -41,7 +39,7 @@ pip install -r requirements.txt
 pytest tests/benchmark/ --benchmark-only
 
 # Run specific benchmark
-pytest tests/benchmark/test_search_bench.py::TestSearchBench::test_search_float32 --benchmark-only
+pytest tests/benchmark/test_search_bench.py::TestSearchBench::test_search_float32_varying_output_fields --benchmark-only
 
 # Save baseline for comparison
 pytest tests/benchmark/ --benchmark-only --benchmark-save=baseline
diff --git a/tests/benchmark/conftest.py b/tests/benchmark/conftest.py
index 842eb5646..6ea1082ac 100644
--- a/tests/benchmark/conftest.py
+++ b/tests/benchmark/conftest.py
@@ -1,105 +1,85 @@
 from unittest.mock import MagicMock, patch
+
 import pytest
+from pymilvus import CollectionSchema, DataType, FieldSchema, MilvusClient, StructFieldSchema
+from pymilvus.grpc_gen import common_pb2, milvus_pb2, schema_pb2
 
-from pymilvus import MilvusClient
 from . import mock_responses
-from pymilvus.grpc_gen import common_pb2, milvus_pb2
 
 
-@pytest.fixture
-def mock_search_stub():
-    def _mock_search(request, timeout=None, metadata=None):
-        return mock_responses.create_search_results(
-            num_queries=1,
-            top_k=10,
-            output_fields=["id", "age", "score", "name"]
-        )
-    return _mock_search
+def setup_search_mock(client, mock_fn):
+    client._get_connection()._stub.Search = MagicMock(side_effect=mock_fn)
 
 
-@pytest.fixture
-def mock_query_stub():
-    def _mock_query(request, timeout=None, metadata=None):
-        return mock_responses.create_query_results(
-            num_rows=100,
-            output_fields=["id", "age", "score", "name", "active", "metadata"]
-        )
-    return _mock_query
+def setup_query_mock(client, mock_fn):
+    client._get_connection()._stub.Query = MagicMock(side_effect=mock_fn)
+
+
+def setup_hybrid_search_mock(client, mock_fn):
+    client._get_connection()._stub.HybridSearch = MagicMock(side_effect=mock_fn)
+
+
+def get_default_test_schema() -> CollectionSchema:
+    schema = MilvusClient.create_schema()
+    schema.add_field(field_name='id', datatype=DataType.INT64, is_primary=True)
+    schema.add_field(field_name='embedding', datatype=DataType.FLOAT_VECTOR, dim=128)
+    schema.add_field(field_name='name', datatype=DataType.VARCHAR, max_length=100)
+    schema.add_field(field_name='bool_field', datatype=DataType.BOOL)
+    schema.add_field(field_name='int8_field', datatype=DataType.INT8)
+    schema.add_field(field_name='int16_field', datatype=DataType.INT16)
+    schema.add_field(field_name='int32_field', datatype=DataType.INT32)
+    schema.add_field(field_name='age', datatype=DataType.INT32)
+    schema.add_field(field_name='float_field', datatype=DataType.FLOAT)
+    schema.add_field(field_name='score', datatype=DataType.FLOAT)
+    schema.add_field(field_name='double_field', datatype=DataType.DOUBLE)
+    schema.add_field(field_name='varchar_field', datatype=DataType.VARCHAR, max_length=100)
+    schema.add_field(field_name='json_field', datatype=DataType.JSON)
+    schema.add_field(field_name='array_field', datatype=DataType.ARRAY, element_type=DataType.INT64, max_capacity=10)
+    schema.add_field(field_name='geometry_field', datatype=DataType.GEOMETRY)
+    schema.add_field(field_name='timestamptz_field', datatype=DataType.TIMESTAMPTZ)
+    schema.add_field(field_name='binary_vector', datatype=DataType.BINARY_VECTOR, dim=128)
+    schema.add_field(field_name='float16_vector', datatype=DataType.FLOAT16_VECTOR, dim=128)
+    schema.add_field(field_name='bfloat16_vector', datatype=DataType.BFLOAT16_VECTOR, dim=128)
+    schema.add_field(field_name='sparse_vector', datatype=DataType.SPARSE_FLOAT_VECTOR)
+    schema.add_field(field_name='int8_vector', datatype=DataType.INT8_VECTOR, dim=128)
+
+    struct_schema = StructFieldSchema()
+    struct_schema.add_field('struct_int', DataType.INT32)
+    struct_schema.add_field('struct_str', DataType.VARCHAR, max_length=100)
+    schema.add_field(field_name='struct_array_field', datatype=DataType.ARRAY, element_type=DataType.STRUCT, struct_schema=struct_schema, max_capacity=10)
+    return schema
 
 
 @pytest.fixture
-def mocked_milvus_client(mock_search_stub, mock_query_stub):
+def mocked_milvus_client():
     with patch('grpc.insecure_channel') as mock_channel_func, \
          patch('grpc.secure_channel') as mock_secure_channel_func, \
          patch('grpc.channel_ready_future') as mock_ready_future, \
          patch('pymilvus.grpc_gen.milvus_pb2_grpc.MilvusServiceStub') as mock_stub_class:
-        
+
         mock_channel = MagicMock()
         mock_channel_func.return_value = mock_channel
         mock_secure_channel_func.return_value = mock_channel
-        
+
         mock_future = MagicMock()
         mock_future.result = MagicMock(return_value=None)
         mock_ready_future.return_value = mock_future
-        
+
         mock_stub = MagicMock()
-        
-        
+
+
         mock_connect_response = milvus_pb2.ConnectResponse()
         mock_connect_response.status.error_code = common_pb2.ErrorCode.Success
         mock_connect_response.status.code = 0
         mock_connect_response.identifier = 12345
         mock_stub.Connect = MagicMock(return_value=mock_connect_response)
-        
-        mock_stub.Search = MagicMock(side_effect=mock_search_stub)
-        mock_stub.Query = MagicMock(side_effect=mock_query_stub)
-        mock_stub.HybridSearch = MagicMock(side_effect=mock_search_stub)
-        mock_stub.DescribeCollection = MagicMock(return_value=_create_describe_collection_response())
-        
+
+        mock_stub.Search = MagicMock()
+        mock_stub.Query = MagicMock()
+        mock_stub.HybridSearch = MagicMock()
+
         mock_stub_class.return_value = mock_stub
-        
-        client = MilvusClient(uri="http://localhost:19530")
-        
-        yield client
 
+        client = MilvusClient()
 
-def _create_describe_collection_response():
-    from pymilvus.grpc_gen import milvus_pb2, schema_pb2, common_pb2
-    
-    response = milvus_pb2.DescribeCollectionResponse()
-    response.status.error_code = common_pb2.ErrorCode.Success
-    
-    schema = response.schema
-    schema.name = "test_collection"
-    
-    id_field = schema.fields.add()
-    id_field.fieldID = 1
-    id_field.name = "id"
-    id_field.data_type = schema_pb2.DataType.Int64
-    id_field.is_primary_key = True
-    
-    embedding_field = schema.fields.add()
-    embedding_field.fieldID = 2
-    embedding_field.name = "embedding"
-    embedding_field.data_type = schema_pb2.DataType.FloatVector
-    
-    dim_param = embedding_field.type_params.add()
-    dim_param.key = "dim"
-    dim_param.value = "128"
-    
-    age_field = schema.fields.add()
-    age_field.fieldID = 3
-    age_field.name = "age"
-    age_field.data_type = schema_pb2.DataType.Int32
-    
-    score_field = schema.fields.add()
-    score_field.fieldID = 4
-    score_field.name = "score"
-    score_field.data_type = schema_pb2.DataType.Float
-    
-    name_field = schema.fields.add()
-    name_field.fieldID = 5
-    name_field.name = "name"
-    name_field.data_type = schema_pb2.DataType.VarChar
-    
-    return response
+        yield client
diff --git a/tests/benchmark/mock_responses.py b/tests/benchmark/mock_responses.py
index 17a287418..fde244334 100644
--- a/tests/benchmark/mock_responses.py
+++ b/tests/benchmark/mock_responses.py
@@ -2,14 +2,15 @@
 from typing import List, Optional
 
 from pymilvus.grpc_gen import common_pb2, milvus_pb2, schema_pb2
+from pymilvus.orm.schema import CollectionSchema, FieldSchema
+from pymilvus.orm.types import DataType
 
 
-def create_search_results(
+def create_search_results_from_schema(
+    schema: CollectionSchema,
     num_queries: int,
     top_k: int,
     output_fields: Optional[List[str]] = None,
-    include_vectors: bool = False,
-    dim: int = 128
 ) -> milvus_pb2.SearchResults:
     response = milvus_pb2.SearchResults()
     response.status.error_code = common_pb2.ErrorCode.Success
@@ -19,687 +20,114 @@ def create_search_results(
     results.top_k = top_k
 
     total_results = num_queries * top_k
-
     results.ids.int_id.data.extend(list(range(total_results)))
     results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
     results.topks.extend([top_k] * num_queries)
 
-    if output_fields:
-        results.output_fields.extend(output_fields)
-
-        for field_name in output_fields:
-            field_data = results.fields_data.add()
-            field_data.field_name = field_name
-
-            if field_name == "id":
-                field_data.type = schema_pb2.DataType.Int64
-                field_data.scalars.long_data.data.extend(list(range(total_results)))
-            elif field_name == "age":
-                field_data.type = schema_pb2.DataType.Int32
-                field_data.scalars.int_data.data.extend([25 + i % 50 for i in range(total_results)])
-            elif field_name == "score":
-                field_data.type = schema_pb2.DataType.Float
-                field_data.scalars.float_data.data.extend([0.5 + i * 0.01 for i in range(total_results)])
-            elif field_name == "name":
-                field_data.type = schema_pb2.DataType.VarChar
-                field_data.scalars.string_data.data.extend([f"name_{i}" for i in range(total_results)])
-            elif field_name == "embedding" and include_vectors:
-                field_data.type = schema_pb2.DataType.FloatVector
-                field_data.vectors.dim = dim
-                flat_vector = [float(j % 100) / 100.0 for _ in range(total_results) for j in range(dim)]
-                field_data.vectors.float_vector.data.extend(flat_vector)
+    # Determine which fields to include
+    if output_fields is None or len(output_fields) == 0 or output_fields == ["*"]:
+        # Include all fields
+        fields_to_include = schema.fields
+    else:
+        # Filter fields based on output_fields
+        field_map = {f.name: f for f in schema.fields}
+        fields_to_include = [field_map[name] for name in output_fields if name in field_map]
+
+    # Generate field data based on CollectionSchema
+    for field in fields_to_include:
+        fd = results.fields_data.add()
+        fd.field_name = field.name
+        _fill_field_data(field, fd, total_results)
+        results.output_fields.append(field.name)
 
     return response
 
 
-def create_search_results_with_float16_vector(
-    num_queries: int,
-    top_k: int,
-    dim: int = 128,
-    output_fields: Optional[List[str]] = None
-) -> milvus_pb2.SearchResults:
-    response = milvus_pb2.SearchResults()
-    response.status.error_code = common_pb2.ErrorCode.Success
-
-    results = response.results
-    results.num_queries = num_queries
-    results.top_k = top_k
-
-    total_results = num_queries * top_k
-
-    results.ids.int_id.data.extend(list(range(total_results)))
-    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
-    results.topks.extend([top_k] * num_queries)
-
-    if output_fields:
-        results.output_fields.extend(output_fields)
-
-        for field_name in output_fields:
-            field_data = results.fields_data.add()
-            field_data.field_name = field_name
-
-            if field_name == "embedding":
-                field_data.type = schema_pb2.DataType.Float16Vector
-                field_data.vectors.dim = dim
-                field_data.vectors.float16_vector = b'\x00' * (total_results * dim * 2)
-            elif field_name == "id":
-                field_data.type = schema_pb2.DataType.Int64
-                field_data.scalars.long_data.data.extend(list(range(total_results)))
-
-    return response
-
-
-def create_search_results_with_bfloat16_vector(
-    num_queries: int,
-    top_k: int,
-    dim: int = 128,
-    output_fields: Optional[List[str]] = None
-) -> milvus_pb2.SearchResults:
-    response = milvus_pb2.SearchResults()
-    response.status.error_code = common_pb2.ErrorCode.Success
-
-    results = response.results
-    results.num_queries = num_queries
-    results.top_k = top_k
-
-    total_results = num_queries * top_k
-
-    results.ids.int_id.data.extend(list(range(total_results)))
-    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
-    results.topks.extend([top_k] * num_queries)
-
-    if output_fields:
-        results.output_fields.extend(output_fields)
-
-        for field_name in output_fields:
-            field_data = results.fields_data.add()
-            field_data.field_name = field_name
-
-            if field_name == "embedding":
-                field_data.type = schema_pb2.DataType.BFloat16Vector
-                field_data.vectors.dim = dim
-                field_data.vectors.bfloat16_vector = b'\x00' * (total_results * dim * 2)
-            elif field_name == "id":
-                field_data.type = schema_pb2.DataType.Int64
-                field_data.scalars.long_data.data.extend(list(range(total_results)))
-
-    return response
-
-
-def create_search_results_with_binary_vector(
-    num_queries: int,
-    top_k: int,
-    dim: int = 128,
-    output_fields: Optional[List[str]] = None
-) -> milvus_pb2.SearchResults:
-    response = milvus_pb2.SearchResults()
-    response.status.error_code = common_pb2.ErrorCode.Success
-
-    results = response.results
-    results.num_queries = num_queries
-    results.top_k = top_k
-
-    total_results = num_queries * top_k
-
-    results.ids.int_id.data.extend(list(range(total_results)))
-    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
-    results.topks.extend([top_k] * num_queries)
-
-    if output_fields:
-        results.output_fields.extend(output_fields)
-
-        for field_name in output_fields:
-            field_data = results.fields_data.add()
-            field_data.field_name = field_name
-
-            if field_name == "embedding":
-                field_data.type = schema_pb2.DataType.BinaryVector
-                field_data.vectors.dim = dim
-                field_data.vectors.binary_vector = b'\x00' * (total_results * dim // 8)
-            elif field_name == "id":
-                field_data.type = schema_pb2.DataType.Int64
-                field_data.scalars.long_data.data.extend(list(range(total_results)))
-
-    return response
-
-
-def create_search_results_with_int8_vector(
-    num_queries: int,
-    top_k: int,
-    dim: int = 128,
-    output_fields: Optional[List[str]] = None
-) -> milvus_pb2.SearchResults:
-    response = milvus_pb2.SearchResults()
-    response.status.error_code = common_pb2.ErrorCode.Success
-
-    results = response.results
-    results.num_queries = num_queries
-    results.top_k = top_k
-
-    total_results = num_queries * top_k
-
-    results.ids.int_id.data.extend(list(range(total_results)))
-    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
-    results.topks.extend([top_k] * num_queries)
-
-    if output_fields:
-        results.output_fields.extend(output_fields)
-
-        for field_name in output_fields:
-            field_data = results.fields_data.add()
-            field_data.field_name = field_name
-
-            if field_name == "embedding":
-                field_data.type = schema_pb2.DataType.Int8Vector
-                field_data.vectors.dim = dim
-                field_data.vectors.int8_vector = b'\x00' * (total_results * dim)
-            elif field_name == "id":
-                field_data.type = schema_pb2.DataType.Int64
-                field_data.scalars.long_data.data.extend(list(range(total_results)))
-
-    return response
-
-
-def create_search_results_with_sparse_vector(
-    num_queries: int,
-    top_k: int
-) -> milvus_pb2.SearchResults:
-    response = milvus_pb2.SearchResults()
-    response.status.error_code = common_pb2.ErrorCode.Success
-
-    results = response.results
-    results.num_queries = num_queries
-    results.top_k = top_k
-
-    total_results = num_queries * top_k
-
-    results.ids.int_id.data.extend(list(range(total_results)))
-    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
-    results.topks.extend([top_k] * num_queries)
-
-    field_data = results.fields_data.add()
-    field_data.field_name = "sparse_embedding"
-    field_data.type = schema_pb2.DataType.SparseFloatVector
-
-    for _ in range(total_results):
-        # Sparse format: index (uint32) + value (float32) pairs
-        sparse_bytes = struct.pack('<I', 10) + struct.pack('<f', 0.5)
-        field_data.vectors.sparse_float_vector.contents.append(sparse_bytes)
-    field_data.vectors.sparse_float_vector.dim = 1000
-
-    return response
-
-
-def create_search_results_with_varchar(
-    num_queries: int,
-    top_k: int,
-    varchar_length: int = 10,
-    output_fields: Optional[List[str]] = None
-) -> milvus_pb2.SearchResults:
-    response = milvus_pb2.SearchResults()
-    response.status.error_code = common_pb2.ErrorCode.Success
-
-    results = response.results
-    results.num_queries = num_queries
-    results.top_k = top_k
-
-    total_results = num_queries * top_k
-
-    results.ids.int_id.data.extend(list(range(total_results)))
-    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
-    results.topks.extend([top_k] * num_queries)
-
-    if output_fields:
-        results.output_fields.extend(output_fields)
-
-        for field_name in output_fields:
-            field_data = results.fields_data.add()
-            field_data.field_name = field_name
-
-            if field_name == "text":
-                field_data.type = schema_pb2.DataType.VarChar
-                field_data.scalars.string_data.data.extend(
-                    ['x' * varchar_length] * total_results
-                )
-            elif field_name == "id":
-                field_data.type = schema_pb2.DataType.Int64
-                field_data.scalars.long_data.data.extend(list(range(total_results)))
-
-    return response
-
-
-def create_search_results_with_json(
-    num_queries: int,
-    top_k: int,
-    json_size: str = "small",
-    output_fields: Optional[List[str]] = None
-) -> milvus_pb2.SearchResults:
-    response = milvus_pb2.SearchResults()
-    response.status.error_code = common_pb2.ErrorCode.Success
-
-    results = response.results
-    results.num_queries = num_queries
-    results.top_k = top_k
-
-    total_results = num_queries * top_k
-
-    results.ids.int_id.data.extend(list(range(total_results)))
-    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
-    results.topks.extend([top_k] * num_queries)
-
-    if json_size == "small":
-        json_data = b'{"key": "value"}'
-    elif json_size == "medium":
-        json_data = b'{"name": "test", "age": 25, "tags": ["a", "b", "c"], "active": true}'
-    elif json_size == "large":
-        json_data = b'{"name": "test", "description": "' + b'x' * 500 + b'", "metadata": {"field1": 1, "field2": 2}}'
-    else:  # huge ~64KB
-        payload = b'x' * 65536
-        json_data = b'{"blob": "' + payload + b'"}'
-
-    if output_fields:
-        results.output_fields.extend(output_fields)
-
-        for field_name in output_fields:
-            field_data = results.fields_data.add()
-            field_data.field_name = field_name
-
-            if field_name == "metadata":
-                field_data.type = schema_pb2.DataType.JSON
-                field_data.scalars.json_data.data.extend([json_data] * total_results)
-            elif field_name == "id":
-                field_data.type = schema_pb2.DataType.Int64
-                field_data.scalars.long_data.data.extend(list(range(total_results)))
-
-    return response
-
-
-def create_search_results_with_array(
-    num_queries: int,
-    top_k: int,
-    array_len: int = 5,
-    output_fields: Optional[List[str]] = None
-) -> milvus_pb2.SearchResults:
-    response = milvus_pb2.SearchResults()
-    response.status.error_code = common_pb2.ErrorCode.Success
-
-    results = response.results
-    results.num_queries = num_queries
-    results.top_k = top_k
-
-    total_results = num_queries * top_k
-
-    results.ids.int_id.data.extend(list(range(total_results)))
-    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
-    results.topks.extend([top_k] * num_queries)
-
-    if output_fields:
-        results.output_fields.extend(output_fields)
-
-        for field_name in output_fields:
-            field_data = results.fields_data.add()
-            field_data.field_name = field_name
-
-            if field_name == "tags":
-                field_data.type = schema_pb2.DataType.Array
-                field_data.scalars.array_data.element_type = schema_pb2.DataType.Int64
-                for _ in range(total_results):
-                    array_item = field_data.scalars.array_data.data.add()
-                    # Fill with zeros to avoid excessive memory overhead in test logic
-                    array_item.long_data.data.extend([0] * array_len)
-            elif field_name == "id":
-                field_data.type = schema_pb2.DataType.Int64
-                field_data.scalars.long_data.data.extend(list(range(total_results)))
-
-    return response
-
-
-def create_search_results_with_geojson(
-    num_queries: int,
-    top_k: int,
-    output_fields: Optional[List[str]] = None
-) -> milvus_pb2.SearchResults:
-    response = milvus_pb2.SearchResults()
-    response.status.error_code = common_pb2.ErrorCode.Success
-
-    results = response.results
-    results.num_queries = num_queries
-    results.top_k = top_k
-
-    total_results = num_queries * top_k
-
-    results.ids.int_id.data.extend(list(range(total_results)))
-    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
-    results.topks.extend([top_k] * num_queries)
-
-    if output_fields:
-        results.output_fields.extend(output_fields)
-
-        for field_name in output_fields:
-            field_data = results.fields_data.add()
-            field_data.field_name = field_name
-
-            if field_name == "location":
-                field_data.type = schema_pb2.DataType.Geometry
-                field_data.scalars.geometry_wkt_data.data.extend(
-                    ["POINT(0.0 0.0)"] * total_results
-                )
-            elif field_name == "id":
-                field_data.type = schema_pb2.DataType.Int64
-                field_data.scalars.long_data.data.extend(list(range(total_results)))
-
-    return response
-
-
-def create_query_results(
-    num_rows: int,
-    output_fields: Optional[List[str]] = None
-) -> milvus_pb2.QueryResults:
-    response = milvus_pb2.QueryResults()
-    response.status.error_code = common_pb2.ErrorCode.Success
-
-    if output_fields:
-        response.output_fields.extend(output_fields)
-
-        for field_name in output_fields:
-            field_data = response.fields_data.add()
-            field_data.field_name = field_name
-
-            if field_name == "id":
-                field_data.type = schema_pb2.DataType.Int64
-                field_data.scalars.long_data.data.extend(list(range(num_rows)))
-            elif field_name == "age":
-                field_data.type = schema_pb2.DataType.Int32
-                field_data.scalars.int_data.data.extend([25 + i % 50 for i in range(num_rows)])
-            elif field_name == "score":
-                field_data.type = schema_pb2.DataType.Float
-                field_data.scalars.float_data.data.extend([0.5 + i * 0.01 for i in range(num_rows)])
-            elif field_name == "name":
-                field_data.type = schema_pb2.DataType.VarChar
-                field_data.scalars.string_data.data.extend([f"name_{i}" for i in range(num_rows)])
-            elif field_name == "active":
-                field_data.type = schema_pb2.DataType.Bool
-                field_data.scalars.bool_data.data.extend([i % 2 == 0 for i in range(num_rows)])
-            elif field_name == "metadata":
-                field_data.type = schema_pb2.DataType.JSON
-                field_data.scalars.json_data.data.extend([b'{"key": "value"}'] * num_rows)
-
-    return response
-
-
-def create_hybrid_search_results(
-    num_requests: int = 2,
-    top_k: int = 10,
-    output_fields: Optional[List[str]] = None
-) -> milvus_pb2.SearchResults:
-    return create_search_results(
-        num_queries=1,
-        top_k=top_k,
-        output_fields=output_fields,
-        include_vectors=False
-    )
-
-
-def create_search_results_all_types(
-    num_queries: int = 1,
-    top_k: int = 10,
-    dim: int = 128
-) -> milvus_pb2.SearchResults:
-    response = milvus_pb2.SearchResults()
-    response.status.error_code = common_pb2.ErrorCode.Success
-
-    results = response.results
-    results.num_queries = num_queries
-    results.top_k = top_k
-
-    total_results = num_queries * top_k
-
-    results.ids.int_id.data.extend(list(range(total_results)))
-    results.scores.extend([0.9 - i * 0.01 for i in range(total_results)])
-    results.topks.extend([top_k] * num_queries)
-
-    output_fields = [
-        "int8_field",
-        "int16_field",
-        "int32_field",
-        "int64_field",
-        "float_field",
-        "double_field",
-        "bool_field",
-        "varchar_field",
-        "json_field",
-        "array_field",
-        "geojson_field",
-        "struct_field",
-        "float_vector",
-        "float16_vector",
-        "bfloat16_vector",
-        "binary_vector",
-        "sparse_vector",
-        "int8_vector",
-    ]
-    results.output_fields.extend(output_fields)
-
-    # Int8 field
-    field_data = results.fields_data.add()
-    field_data.field_name = "int8_field"
-    field_data.type = schema_pb2.DataType.Int8
-    field_data.scalars.int_data.data.extend([i % 128 for i in range(total_results)])
-
-    # Int16 field
-    field_data = results.fields_data.add()
-    field_data.field_name = "int16_field"
-    field_data.type = schema_pb2.DataType.Int16
-    field_data.scalars.int_data.data.extend([i % 1000 for i in range(total_results)])
-
-    # Int32 field
-    field_data = results.fields_data.add()
-    field_data.field_name = "int32_field"
-    field_data.type = schema_pb2.DataType.Int32
-    field_data.scalars.int_data.data.extend(list(range(total_results)))
-
-    # Int64 field
-    field_data = results.fields_data.add()
-    field_data.field_name = "int64_field"
-    field_data.type = schema_pb2.DataType.Int64
-    field_data.scalars.long_data.data.extend([i * 1000 for i in range(total_results)])
-
-    # Float field
-    field_data = results.fields_data.add()
-    field_data.field_name = "float_field"
-    field_data.type = schema_pb2.DataType.Float
-    field_data.scalars.float_data.data.extend([0.5 + i * 0.01 for i in range(total_results)])
-
-    # Double field
-    field_data = results.fields_data.add()
-    field_data.field_name = "double_field"
-    field_data.type = schema_pb2.DataType.Double
-    field_data.scalars.double_data.data.extend([0.123456789 + i for i in range(total_results)])
-
-    # Bool field
-    field_data = results.fields_data.add()
-    field_data.field_name = "bool_field"
-    field_data.type = schema_pb2.DataType.Bool
-    field_data.scalars.bool_data.data.extend([i % 2 == 0 for i in range(total_results)])
-
-    # VarChar field
-    field_data = results.fields_data.add()
-    field_data.field_name = "varchar_field"
-    field_data.type = schema_pb2.DataType.VarChar
-    field_data.scalars.string_data.data.extend([f"text_{i}" for i in range(total_results)])
-
-    # JSON field
-    field_data = results.fields_data.add()
-    field_data.field_name = "json_field"
-    field_data.type = schema_pb2.DataType.JSON
-    field_data.scalars.json_data.data.extend([b'{"id": %d}' % i for i in range(total_results)])
-
-    # Array field
-    field_data = results.fields_data.add()
-    field_data.field_name = "array_field"
-    field_data.type = schema_pb2.DataType.Array
-    field_data.scalars.array_data.element_type = schema_pb2.DataType.Int64
-    for i in range(total_results):
-        array_item = field_data.scalars.array_data.data.add()
-        array_item.long_data.data.extend([i, i+1, i+2])
-
-    # GeoJSON field
-    field_data = results.fields_data.add()
-    field_data.field_name = "geojson_field"
-    field_data.type = schema_pb2.DataType.Geometry
-    field_data.scalars.geometry_wkt_data.data.extend(
-        [f"POINT({i}.0 {i}.0)" for i in range(total_results)]
-    )
-
-    # Float vector
-    field_data = results.fields_data.add()
-    field_data.field_name = "float_vector"
-    field_data.type = schema_pb2.DataType.FloatVector
-    field_data.vectors.dim = dim
-    flat_vector = [float(j % 100) / 100.0 for _ in range(total_results) for j in range(dim)]
-    field_data.vectors.float_vector.data.extend(flat_vector)
-
-    # Float16 vector
-    field_data = results.fields_data.add()
-    field_data.field_name = "float16_vector"
-    field_data.type = schema_pb2.DataType.Float16Vector
-    field_data.vectors.dim = dim
-    field_data.vectors.float16_vector = b'\x00' * (total_results * dim * 2)
-
-    # BFloat16 vector
-    field_data = results.fields_data.add()
-    field_data.field_name = "bfloat16_vector"
-    field_data.type = schema_pb2.DataType.BFloat16Vector
-    field_data.vectors.dim = dim
-    field_data.vectors.bfloat16_vector = b'\x00' * (total_results * dim * 2)
-
-    # Binary vector
-    field_data = results.fields_data.add()
-    field_data.field_name = "binary_vector"
-    field_data.type = schema_pb2.DataType.BinaryVector
-    field_data.vectors.dim = dim
-    field_data.vectors.binary_vector = b'\x00' * (total_results * dim // 8)
-
-    # Sparse vector
-    field_data = results.fields_data.add()
-    field_data.field_name = "sparse_vector"
-    field_data.type = schema_pb2.DataType.SparseFloatVector
-    for _ in range(total_results):
-        # Sparse format: index (uint32) + value (float32) pairs
-        # Create one sparse entry: index 10 with value 0.5
-        sparse_bytes = struct.pack('<I', 10) + struct.pack('<f', 0.5)
-        field_data.vectors.sparse_float_vector.contents.append(sparse_bytes)
-    field_data.vectors.sparse_float_vector.dim = 1000
-
-    # Int8 vector
-    field_data = results.fields_data.add()
-    field_data.field_name = "int8_vector"
-    field_data.type = schema_pb2.DataType.Int8Vector
-    field_data.vectors.dim = dim
-    field_data.vectors.int8_vector = b'\x00' * (total_results * dim)
-
-    # Struct field (stored as ARRAY_OF_STRUCT internally)
-    field_data = results.fields_data.add()
-    field_data.field_name = "struct_field"
-    field_data.type = schema_pb2.ArrayOfStruct
-
-    # Create sub-field for int data (ARRAY type)
-    sub_field_int = field_data.struct_arrays.fields.add()
-    sub_field_int.field_name = "sub_int"
-    sub_field_int.type = schema_pb2.Array
-    sub_field_int.scalars.array_data.element_type = schema_pb2.Int64
-    for i in range(total_results):
-        array_item = sub_field_int.scalars.array_data.data.add()
-        array_item.long_data.data.extend([i * 10, i * 10 + 1])
-
-    # Create sub-field for string data (ARRAY type)
-    sub_field_str = field_data.struct_arrays.fields.add()
-    sub_field_str.field_name = "sub_str"
-    sub_field_str.type = schema_pb2.Array
-    sub_field_str.scalars.array_data.element_type = schema_pb2.VarChar
-    for i in range(total_results):
-        array_item = sub_field_str.scalars.array_data.data.add()
-        array_item.string_data.data.extend([f"struct_{i}_0", f"struct_{i}_1"])
-
-    return response
-
-
-def create_query_results_all_types(
-    num_rows: int,
-    dim: int = 128
-) -> milvus_pb2.QueryResults:
-    response = milvus_pb2.QueryResults()
-    response.status.error_code = common_pb2.ErrorCode.Success
-
-    output_fields = [
-        "int8_field", "int16_field", "int32_field", "int64_field",
-        "float_field", "double_field", "bool_field", "varchar_field",
-        "json_field", "array_field", "geojson_field", "struct_field"
-    ]
-    response.output_fields.extend(output_fields)
-
-    # Copy all scalar field logic from search version
-    for field_name in output_fields:
-        field_data = response.fields_data.add()
-        field_data.field_name = field_name
-
-        if field_name == "int8_field":
-            field_data.type = schema_pb2.DataType.Int8
-            field_data.scalars.int_data.data.extend([i % 128 for i in range(num_rows)])
-        elif field_name == "int16_field":
-            field_data.type = schema_pb2.DataType.Int16
-            field_data.scalars.int_data.data.extend([i % 1000 for i in range(num_rows)])
-        elif field_name == "int32_field":
-            field_data.type = schema_pb2.DataType.Int32
-            field_data.scalars.int_data.data.extend(list(range(num_rows)))
-        elif field_name == "int64_field":
-            field_data.type = schema_pb2.DataType.Int64
-            field_data.scalars.long_data.data.extend([i * 1000 for i in range(num_rows)])
-        elif field_name == "float_field":
-            field_data.type = schema_pb2.DataType.Float
-            field_data.scalars.float_data.data.extend([0.5 + i * 0.01 for i in range(num_rows)])
-        elif field_name == "double_field":
-            field_data.type = schema_pb2.DataType.Double
-            field_data.scalars.double_data.data.extend([0.123456789 + i for i in range(num_rows)])
-        elif field_name == "bool_field":
-            field_data.type = schema_pb2.DataType.Bool
-            field_data.scalars.bool_data.data.extend([i % 2 == 0 for i in range(num_rows)])
-        elif field_name == "varchar_field":
-            field_data.type = schema_pb2.DataType.VarChar
-            field_data.scalars.string_data.data.extend([f"text_{i}" for i in range(num_rows)])
-        elif field_name == "json_field":
-            field_data.type = schema_pb2.DataType.JSON
-            field_data.scalars.json_data.data.extend([b'{"id": %d}' % i for i in range(num_rows)])
-        elif field_name == "array_field":
-            field_data.type = schema_pb2.DataType.Array
-            field_data.scalars.array_data.element_type = schema_pb2.DataType.Int64
-            for i in range(num_rows):
-                array_item = field_data.scalars.array_data.data.add()
-                array_item.long_data.data.extend([i, i+1, i+2])
-        elif field_name == "geojson_field":
-            field_data.type = schema_pb2.DataType.Geometry
-            field_data.scalars.geometry_wkt_data.data.extend(
-                [f"POINT({i}.0 {i}.0)" for i in range(num_rows)]
-            )
-        elif field_name == "struct_field":
-            field_data.type = schema_pb2.ArrayOfStruct
-
-            # Create sub-field for int data (ARRAY type)
-            sub_field_int = field_data.struct_arrays.fields.add()
-            sub_field_int.field_name = "sub_int"
-            sub_field_int.type = schema_pb2.Array
-            sub_field_int.scalars.array_data.element_type = schema_pb2.Int64
-            for i in range(num_rows):
-                array_item = sub_field_int.scalars.array_data.data.add()
-                array_item.long_data.data.extend([i * 10, i * 10 + 1])
-
-            # Create sub-field for string data (ARRAY type)
-            sub_field_str = field_data.struct_arrays.fields.add()
-            sub_field_str.field_name = "sub_str"
-            sub_field_str.type = schema_pb2.Array
-            sub_field_str.scalars.array_data.element_type = schema_pb2.VarChar
-            for i in range(num_rows):
-                array_item = sub_field_str.scalars.array_data.data.add()
-                array_item.string_data.data.extend([f"struct_{i}_0", f"struct_{i}_1"])
-
-    return response
+def _fill_field_data(field: FieldSchema, dest, total_results: int) -> None:
+    name = field.name
+    dtype = field.dtype
+    params = field.params or {}
+    dim = params.get('dim', 128)
+    max_length = params.get('max_length', 100)
+
+    # Scalars
+    if dtype == DataType.INT8:
+        dest.type = schema_pb2.DataType.Int8
+        dest.scalars.int_data.data.extend([i % 128 for i in range(total_results)])
+    elif dtype == DataType.INT16:
+        dest.type = schema_pb2.DataType.Int16
+        dest.scalars.int_data.data.extend([i % 1000 for i in range(total_results)])
+    elif dtype == DataType.INT32:
+        dest.type = schema_pb2.DataType.Int32
+        dest.scalars.int_data.data.extend(list(range(total_results)))
+    elif dtype == DataType.INT64:
+        dest.type = schema_pb2.DataType.Int64
+        dest.scalars.long_data.data.extend(list(range(total_results)))
+    elif dtype == DataType.FLOAT:
+        dest.type = schema_pb2.DataType.Float
+        dest.scalars.float_data.data.extend([0.5 + i * 0.01 for i in range(total_results)])
+    elif dtype == DataType.DOUBLE:
+        dest.type = schema_pb2.DataType.Double
+        dest.scalars.double_data.data.extend([float(i) for i in range(total_results)])
+    elif dtype == DataType.BOOL:
+        dest.type = schema_pb2.DataType.Bool
+        dest.scalars.bool_data.data.extend([i % 2 == 0 for i in range(total_results)])
+    elif dtype == DataType.VARCHAR:
+        dest.type = schema_pb2.DataType.VarChar
+        data = []
+        for i in range(total_results):
+            base = f"{name}_{i}_"
+            padding = 'x' * max(0, max_length - len(base))
+            s = (base + padding)[:max_length]
+            data.append(s)
+        dest.scalars.string_data.data.extend(data)
+    elif dtype == DataType.TIMESTAMPTZ:
+        dest.type = schema_pb2.DataType.Timestamptz
+        dest.scalars.string_data.data.extend([f"2024-01-01T00:00:{i:02d}Z" for i in range(total_results)])
+    elif dtype == DataType.JSON:
+        dest.type = schema_pb2.DataType.JSON
+        data = []
+        for i in range(total_results):
+            base = b'{"i":%d,"d":"' % i
+            remaining = max(0, max_length - len(base) - 2)  # -2 for closing "}
+            padding = b'x' * remaining
+            json_bytes = (base + padding + b'"}')[:max_length]
+            data.append(json_bytes)
+        dest.scalars.json_data.data.extend(data)
+    elif dtype == DataType.GEOMETRY:
+        dest.type = schema_pb2.DataType.Geometry
+        dest.scalars.geometry_wkt_data.data.extend(["POINT(0 0)"] * total_results)
+    elif dtype == DataType.ARRAY:
+        dest.type = schema_pb2.DataType.Array
+        dest.scalars.array_data.element_type = schema_pb2.DataType.Int64
+        for i in range(total_results):
+            item = dest.scalars.array_data.data.add()
+            item.long_data.data.extend([i, i + 1, i + 2])
+    # Vectors
+    elif dtype == DataType.FLOAT_VECTOR:
+        dest.type = schema_pb2.DataType.FloatVector
+        dest.vectors.dim = dim
+        flat = [float(j % 100) / 100.0 for _ in range(total_results) for j in range(dim)]
+        dest.vectors.float_vector.data.extend(flat)
+    elif dtype == DataType.FLOAT16_VECTOR:
+        dest.type = schema_pb2.DataType.Float16Vector
+        dest.vectors.dim = dim
+        dest.vectors.float16_vector = b"\x00" * (total_results * dim * 2)
+    elif dtype == DataType.BFLOAT16_VECTOR:
+        dest.type = schema_pb2.DataType.BFloat16Vector
+        dest.vectors.dim = dim
+        dest.vectors.bfloat16_vector = b"\x00" * (total_results * dim * 2)
+    elif dtype == DataType.BINARY_VECTOR:
+        dest.type = schema_pb2.DataType.BinaryVector
+        dest.vectors.dim = dim
+        dest.vectors.binary_vector = b"\x00" * (total_results * dim // 8)
+    elif dtype == DataType.INT8_VECTOR:
+        dest.type = schema_pb2.DataType.Int8Vector
+        dest.vectors.dim = dim
+        dest.vectors.int8_vector = b"\x00" * (total_results * dim)
+    elif dtype == DataType.SPARSE_FLOAT_VECTOR:
+        dest.type = schema_pb2.DataType.SparseFloatVector
+        for _ in range(total_results):
+            sparse_bytes = struct.pack('<I', 10) + struct.pack('<f', 0.5)
+            dest.vectors.sparse_float_vector.contents.append(sparse_bytes)
+        dest.vectors.sparse_float_vector.dim = 1000
diff --git a/tests/benchmark/test_access_patterns_bench.py b/tests/benchmark/test_access_patterns_bench.py
deleted file mode 100644
index 1cdbdf7e0..000000000
--- a/tests/benchmark/test_access_patterns_bench.py
+++ /dev/null
@@ -1,206 +0,0 @@
-from unittest.mock import MagicMock
-
-import pytest
-
-from . import mock_responses
-
-
-class TestAccessPatternsBench:
-    """Benchmark different access patterns for search results.
-    
-    Real-world usage varies:
-    - UI display: Access first page only
-    - Export/analysis: Iterate all results
-    - Pagination: Random access to specific pages
-    """
-
-    @pytest.mark.parametrize("top_k", [100, 1000, 10000, 65536])
-    def test_search_no_materialization(self, benchmark, mocked_milvus_client, top_k: int) -> None:
-        """Measure overhead of search without accessing results.
-        
-        This establishes baseline for result construction without materialization.
-        Lazy fields (vectors, JSON) are not parsed.
-        """
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_all_types(
-                num_queries=1,
-                top_k=top_k,
-                dim=128
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-        query_vectors = [[0.1] * 128]
-
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=top_k,
-            output_fields=["*"]
-        )
-
-        assert len(result) == 1
-        assert len(result[0]) == top_k
-
-    @pytest.mark.parametrize("top_k", [100, 1000, 10000, 65536])
-    def test_search_access_first_only(self, benchmark, mocked_milvus_client, top_k: int) -> None:
-        """Measure cost of accessing only the first result.
-        
-        Simulates UI display of first page. Should materialize minimal data.
-        """
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_all_types(
-                num_queries=1,
-                top_k=top_k,
-                dim=128
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-        query_vectors = [[0.1] * 128]
-
-        def run_and_access_first():
-            result = mocked_milvus_client.search(
-                collection_name="test_collection",
-                data=query_vectors,
-                limit=top_k,
-                output_fields=["*"]
-            )
-            # Access first result - triggers materialization
-            first = result[0][0]
-            return first
-
-        first_result = benchmark(run_and_access_first)
-        assert first_result is not None
-
-    @pytest.mark.parametrize("top_k", [100, 1000, 10000, 65536])
-    def test_search_iterate_all(self, benchmark, mocked_milvus_client, top_k: int) -> None:
-        """Measure cost of iterating all results.
-        
-        Simulates export/analysis workload. Materializes all lazy fields.
-        """
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_all_types(
-                num_queries=1,
-                top_k=top_k,
-                dim=128
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-        query_vectors = [[0.1] * 128]
-
-        def run_and_iterate_all():
-            result = mocked_milvus_client.search(
-                collection_name="test_collection",
-                data=query_vectors,
-                limit=top_k,
-                output_fields=["*"]
-            )
-            # Iterate all - materializes everything
-            count = 0
-            for hits in result:
-                for hit in hits:
-                    count += 1
-            return count
-
-        count = benchmark(run_and_iterate_all)
-        assert count == top_k
-
-    @pytest.mark.parametrize("top_k", [1000, 10000, 65536])
-    def test_search_random_access_pattern(self, benchmark, mocked_milvus_client, top_k: int) -> None:
-        """Measure cost of random access to specific indices.
-        
-        Simulates pagination where user jumps to different pages.
-        """
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_all_types(
-                num_queries=1,
-                top_k=top_k,
-                dim=128
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-        query_vectors = [[0.1] * 128]
-
-        def run_and_random_access():
-            result = mocked_milvus_client.search(
-                collection_name="test_collection",
-                data=query_vectors,
-                limit=top_k,
-                output_fields=["*"]
-            )
-            # Access different pages (indices 0, 50, 25, 75)
-            page_indices = [0, 50, 25, 75]
-            accessed = []
-            for idx in page_indices:
-                if idx < len(result[0]):
-                    accessed.append(result[0][idx])
-            return accessed
-
-        accessed = benchmark(run_and_random_access)
-        assert len(accessed) > 0
-
-    @pytest.mark.parametrize("top_k", [100, 1000, 10000, 65536])
-    def test_search_materialize_scalars_only(self, benchmark, mocked_milvus_client, top_k: int) -> None:
-        """Measure iteration over scalar fields only (no vectors).
-        
-        Scalars are eagerly loaded, so this should be faster than all-field iteration.
-        """
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results(
-                num_queries=1,
-                top_k=top_k,
-                output_fields=["id", "age", "score", "name"]
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-        query_vectors = [[0.1] * 128]
-
-        def run_and_iterate_scalars():
-            result = mocked_milvus_client.search(
-                collection_name="test_collection",
-                data=query_vectors,
-                limit=top_k,
-                output_fields=["id", "age", "score", "name"]
-            )
-            count = 0
-            for hits in result:
-                for hit in hits:
-                    count += 1
-            return count
-
-        count = benchmark(run_and_iterate_scalars)
-        assert count == top_k
-
-    @pytest.mark.parametrize("top_k", [100, 1000, 10000, 65536])
-    def test_search_materialize_vectors_only(self, benchmark, mocked_milvus_client, top_k: int) -> None:
-        """Measure iteration with vector fields.
-        
-        Vectors are lazily loaded, should be slower than scalars.
-        """
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results(
-                num_queries=1,
-                top_k=top_k,
-                output_fields=["id", "embedding"],
-                include_vectors=True,
-                dim=128
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-        query_vectors = [[0.1] * 128]
-
-        def run_and_iterate_vectors():
-            result = mocked_milvus_client.search(
-                collection_name="test_collection",
-                data=query_vectors,
-                limit=top_k,
-                output_fields=["id", "embedding"]
-            )
-            count = 0
-            for hits in result:
-                for hit in hits:
-                    count += 1
-            return count
-
-        count = benchmark(run_and_iterate_vectors)
-        assert count == top_k
diff --git a/tests/benchmark/test_hybrid_bench.py b/tests/benchmark/test_hybrid_bench.py
deleted file mode 100644
index daa47f724..000000000
--- a/tests/benchmark/test_hybrid_bench.py
+++ /dev/null
@@ -1,86 +0,0 @@
-from unittest.mock import MagicMock
-
-import pytest
-from pymilvus import AnnSearchRequest, WeightedRanker
-
-from . import mock_responses
-
-
-class TestHybridBench:
-    def test_hybrid_search_basic(self, benchmark, mocked_milvus_client) -> None:
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_hybrid_search_results(
-                num_requests=2,
-                top_k=10,
-                output_fields=["id", "score"]
-            )
-        mocked_milvus_client._get_connection()._stub.HybridSearch = MagicMock(side_effect=custom_search)
-
-        req1 = AnnSearchRequest([[0.1] * 128], "vector_field", {"metric_type": "L2"}, limit=10)
-        req2 = AnnSearchRequest([[0.2] * 128], "vector_field", {"metric_type": "L2"}, limit=10)
-        ranker = WeightedRanker(0.5, 0.5)
-
-        result = benchmark(
-            mocked_milvus_client.hybrid_search,
-            collection_name="test_collection",
-            reqs=[req1, req2],
-            ranker=ranker,
-            limit=10,
-            output_fields=["id", "score"]
-        )
-        assert len(result) == 1
-
-
-    @pytest.mark.parametrize("num_requests", [1, 10, 100, 1000, 10000])
-    def test_hybrid_search_multiple_requests(self, benchmark, mocked_milvus_client, num_requests: int) -> None:
-
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_hybrid_search_results(
-                num_requests=num_requests,
-                top_k=10,
-                output_fields=["id", "score"]
-            )
-        mocked_milvus_client._get_connection()._stub.HybridSearch = MagicMock(side_effect=custom_search)
-
-        reqs = [
-            AnnSearchRequest([[0.1] * 128], "vector_field", {"metric_type": "L2"}, limit=10)
-            for _ in range(num_requests)
-        ]
-        weights = [1.0 / num_requests] * num_requests
-        ranker = WeightedRanker(*weights)
-
-        result = benchmark(
-            mocked_milvus_client.hybrid_search,
-            collection_name="test_collection",
-            reqs=reqs,
-            ranker=ranker,
-            limit=10,
-            output_fields=["id", "score"]
-        )
-        assert len(result) == 1
-
-
-    @pytest.mark.parametrize("top_k", [1, 10, 100, 1000, 10000])
-    def test_hybrid_search_varying_topk(self, benchmark, mocked_milvus_client, top_k: int) -> None:
-
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_hybrid_search_results(
-                num_requests=2,
-                top_k=top_k,
-                output_fields=["id", "score"]
-            )
-        mocked_milvus_client._get_connection()._stub.HybridSearch = MagicMock(side_effect=custom_search)
-
-        req1 = AnnSearchRequest([[0.1] * 128], "vector_field", {"metric_type": "L2"}, limit=top_k)
-        req2 = AnnSearchRequest([[0.2] * 128], "vector_field", {"metric_type": "L2"}, limit=top_k)
-        ranker = WeightedRanker(0.5, 0.5)
-
-        result = benchmark(
-            mocked_milvus_client.hybrid_search,
-            collection_name="test_collection",
-            reqs=[req1, req2],
-            ranker=ranker,
-            limit=top_k,
-            output_fields=["id", "score"]
-        )
-        assert len(result) == 1
diff --git a/tests/benchmark/test_query_bench.py b/tests/benchmark/test_query_bench.py
deleted file mode 100644
index e45ddec84..000000000
--- a/tests/benchmark/test_query_bench.py
+++ /dev/null
@@ -1,59 +0,0 @@
-from unittest.mock import MagicMock
-
-import pytest
-
-from . import mock_responses
-
-
-class TestQueryBench:
-    @pytest.mark.parametrize("num_rows", [1, 10, 100, 1000, 10000, 65536])
-    def test_query_basic_scalars(self, benchmark, mocked_milvus_client, num_rows: int) -> None:
-
-        def custom_query(request, timeout=None, metadata=None):
-            return mock_responses.create_query_results(
-                num_rows=num_rows,
-                output_fields=["id", "age", "score", "name"]
-            )
-        mocked_milvus_client._get_connection()._stub.Query = MagicMock(side_effect=custom_query)
-        result = benchmark(
-            mocked_milvus_client.query,
-            collection_name="test_collection",
-            filter="age > 25",
-            output_fields=["id", "age", "score", "name"]
-        )
-        assert len(result) == num_rows
-
-
-    @pytest.mark.parametrize("num_rows", [1, 100, 1000, 10000, 65536])
-    def test_query_with_json_field(self, benchmark, mocked_milvus_client, num_rows: int) -> None:
-
-        def custom_query(request, timeout=None, metadata=None):
-            return mock_responses.create_query_results(
-                num_rows=num_rows,
-                output_fields=["id", "metadata"]
-            )
-        mocked_milvus_client._get_connection()._stub.Query = MagicMock(side_effect=custom_query)
-        result = benchmark(
-            mocked_milvus_client.query,
-            collection_name="test_collection",
-            filter="id > 0",
-            output_fields=["id", "metadata"]
-        )
-        assert len(result) == num_rows
-
-
-    @pytest.mark.parametrize("num_rows", [1, 100, 1000, 10000, 65536])
-    def test_query_all_fields(self, benchmark, mocked_milvus_client, num_rows: int) -> None:
-        def custom_query(request, timeout=None, metadata=None):
-            return mock_responses.create_query_results(
-                num_rows=num_rows,
-                output_fields=["id", "age", "score", "name", "active", "metadata"]
-            )
-        mocked_milvus_client._get_connection()._stub.Query = MagicMock(side_effect=custom_query)
-        result = benchmark(
-            mocked_milvus_client.query,
-            collection_name="test_collection",
-            filter="id > 0",
-            output_fields=["*"]
-        )
-        assert len(result) == num_rows
diff --git a/tests/benchmark/test_search_bench.py b/tests/benchmark/test_search_bench.py
index 02ffbf08d..1a093d382 100644
--- a/tests/benchmark/test_search_bench.py
+++ b/tests/benchmark/test_search_bench.py
@@ -1,49 +1,40 @@
-from unittest.mock import MagicMock
-
 import pytest
 
 from . import mock_responses
+from .conftest import (
+    get_default_test_schema,
+    setup_search_mock,
+)
 
 
 class TestSearchBench:
-    def test_search_float32_no_output_fields(self, benchmark, mocked_milvus_client):
-        query_vectors = [[0.1] * 128]
-
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results(
-                num_queries=len(query_vectors),
-                top_k=10
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=10
-        )
-
-        assert len(result) == len(query_vectors)
-
-    def test_search_float32_basic_scalars(self, benchmark, mocked_milvus_client):
+    @pytest.mark.parametrize("output_fields", [
+        None,
+        ["id"],
+        ["id", "age"],
+        ["id", "age", "score"],
+        ["id", "age", "score", "name"]
+    ])
+    def test_search_float32_varying_output_fields(self, benchmark, mocked_milvus_client, output_fields):
+        schema = get_default_test_schema()
         query_vectors = [[0.1] * 128]
 
         def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results(
+            return mock_responses.create_search_results_from_schema(
+                schema=schema,
                 num_queries=len(query_vectors),
                 top_k=10,
-                output_fields=["id", "age", "score", "name"]
+                output_fields=output_fields
             )
 
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
+        setup_search_mock(mocked_milvus_client, custom_search)
 
         result = benchmark(
             mocked_milvus_client.search,
             collection_name="test_collection",
             data=query_vectors,
             limit=10,
-            output_fields=["id", "age", "score", "name"]
+            output_fields=output_fields
         )
 
         assert len(result) == len(query_vectors)
@@ -52,17 +43,18 @@ def custom_search(request, timeout=None, metadata=None):
 
     @pytest.mark.parametrize("top_k", [10, 100, 1000, 10000, 65536])
     def test_search_float32_varying_topk(self, benchmark, mocked_milvus_client, top_k):
+        schema = get_default_test_schema()
+        query_vectors = [[0.1] * 128]
 
         def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results(
+            return mock_responses.create_search_results_from_schema(
+                schema=schema,
                 num_queries=1,
                 top_k=top_k,
                 output_fields=["id", "age", "score"]
             )
 
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
-        query_vectors = [[0.1] * 128]
+        setup_search_mock(mocked_milvus_client, custom_search)
 
         result = benchmark(
             mocked_milvus_client.search,
@@ -78,16 +70,18 @@ def custom_search(request, timeout=None, metadata=None):
 
     @pytest.mark.parametrize("num_queries", [1, 10, 100, 1000, 10000])
     def test_search_float32_varying_num_queries(self, benchmark, mocked_milvus_client, num_queries):
+        schema = get_default_test_schema()
+        query_vectors = [[0.1] * 128] * num_queries
+
         def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results(
+            return mock_responses.create_search_results_from_schema(
+                schema=schema,
                 num_queries=num_queries,
                 top_k=10,
                 output_fields=["id", "score"]
             )
 
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
-        query_vectors = [[0.1] * 128] * num_queries
+        setup_search_mock(mocked_milvus_client, custom_search)
 
         result = benchmark(
             mocked_milvus_client.search,
@@ -100,344 +94,34 @@ def custom_search(request, timeout=None, metadata=None):
         assert len(result) == num_queries
 
 
-    @pytest.mark.parametrize("dim", [128, 768, 1536])
-    def test_search_float32_varying_dimensions(self, benchmark, mocked_milvus_client, dim):
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results(
-                num_queries=1,
-                top_k=10,
-                output_fields=["id"],
-                include_vectors=True,
-                dim=dim
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
-        query_vectors = [[0.1] * dim]
-
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=10,
-            output_fields=["id", "embedding"]
-        )
-
-        assert len(result) == 1
-
-
-    def test_search_float16_vector(self, benchmark, mocked_milvus_client):
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_with_float16_vector(
-                num_queries=1,
-                top_k=10,
-                output_fields=["id", "embedding"]
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
-        query_vectors = [[0.1] * 128]
-
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=10,
-            output_fields=["id", "embedding"]
-        )
-
-        assert len(result) == 1
-
-
-    def test_search_bfloat16_vector(self, benchmark, mocked_milvus_client):
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_with_bfloat16_vector(
-                num_queries=1,
-                top_k=10,
-                output_fields=["id", "embedding"]
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
-        query_vectors = [[0.1] * 128]
-
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=10,
-            output_fields=["id", "embedding"]
-        )
-
-        assert len(result) == 1
-
-
-    def test_search_binary_vector(self, benchmark, mocked_milvus_client):
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_with_binary_vector(
-                num_queries=1,
-                top_k=10,
-                output_fields=["id", "embedding"]
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
-        query_vectors = [b'\x00' * 16]
-
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=10,
-            output_fields=["id", "embedding"]
-        )
-
-        assert len(result) == 1
-
-
-    def test_search_int8_vector(self, benchmark, mocked_milvus_client):
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_with_int8_vector(
-                num_queries=1,
-                top_k=10,
-                output_fields=["id", "embedding"]
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
+    @pytest.mark.parametrize("top_k", [100, 1000, 10000, 65536])
+    def test_search_iterate_all(self, benchmark, mocked_milvus_client, top_k: int) -> None:
+        schema = get_default_test_schema()
         query_vectors = [[0.1] * 128]
 
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=10,
-            output_fields=["id", "embedding"]
-        )
-
-        assert len(result) == 1
-
-
-    def test_search_sparse_vector(self, benchmark, mocked_milvus_client):
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_with_sparse_vector(
-                num_queries=1,
-                top_k=10
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
-        query_vectors = [{1: 0.5, 10: 0.3}]
-
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=10
-        )
-
-        assert len(result) == 1
-
-
-    def test_search_with_json_output(self, benchmark, mocked_milvus_client):
         def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_with_json(
-                num_queries=1,
-                top_k=10,
-                output_fields=["id", "metadata"]
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
-        query_vectors = [[0.1] * 128]
-
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=10,
-            output_fields=["id", "metadata"]
-        )
-
-        assert len(result) == 1
-
-
-    def test_search_with_array_output(self, benchmark, mocked_milvus_client):
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_with_array(
-                num_queries=1,
-                top_k=10,
-                output_fields=["id", "tags"]
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
-        query_vectors = [[0.1] * 128]
-
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=10,
-            output_fields=["id", "tags"]
-        )
-
-        assert len(result) == 1
-
-
-    def test_search_with_geojson_output(self, benchmark, mocked_milvus_client):
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_with_geojson(
-                num_queries=1,
-                top_k=10,
-                output_fields=["id", "location"]
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
-        query_vectors = [[0.1] * 128]
-
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=10,
-            output_fields=["id", "location"]
-        )
-
-        assert len(result) == 1
-
-
-    @pytest.mark.parametrize("varchar_length", [10, 100, 1000, 10000, 65536])
-    def test_search_with_varchar_sizes(self, benchmark, mocked_milvus_client, varchar_length):
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_with_varchar(
-                num_queries=1,
-                top_k=10,
-                varchar_length=varchar_length,
-                output_fields=["id", "text"]
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
-        query_vectors = [[0.1] * 128]
-
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=10,
-            output_fields=["id", "text"]
-        )
-
-        assert len(result) == 1
-
-
-    @pytest.mark.parametrize("json_size", ["small", "medium", "large", "huge"])
-    def test_search_with_json_sizes(self, benchmark, mocked_milvus_client, json_size):
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_with_json(
-                num_queries=1,
-                top_k=10,
-                json_size=json_size,
-                output_fields=["id", "metadata"]
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-
-        query_vectors = [[0.1] * 128]
-
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=10,
-            output_fields=["id", "metadata"]
-        )
-
-        assert len(result) == 1
-
-
-    @pytest.mark.parametrize("json_size", ["small", "medium", "large", "huge"])
-    def test_search_with_json_sizes_materialized(self, benchmark, mocked_milvus_client, json_size):
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_with_json(
-                num_queries=1,
-                top_k=10,
-                json_size=json_size,
-                output_fields=["id", "metadata"]
-            )
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-        query_vectors = [[0.1] * 128]
-        res = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=10,
-            output_fields=["id", "metadata"]
-        )
-        # Force materialization to include JSON parsing
-        res.materialize()
-
-
-    @pytest.mark.parametrize("top_k", [10, 100, 1000, 10000, 65536])
-    def test_search_struct_field(self, benchmark, mocked_milvus_client, top_k: int) -> None:
-        """Benchmark struct field (ArrayOfStruct) parsing.
-        
-        Struct fields require column-to-row conversion, which is complex.
-        This measures the overhead of struct field extraction.
-        """
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_all_types(
-                num_queries=1,
-                top_k=top_k,
-                dim=128
-            )
-
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-        query_vectors = [[0.1] * 128]
-
-        result = benchmark(
-            mocked_milvus_client.search,
-            collection_name="test_collection",
-            data=query_vectors,
-            limit=top_k,
-            output_fields=["id", "struct_field"]
-        )
-
-        assert len(result) == 1
-        assert len(result[0]) == top_k
-
-
-    @pytest.mark.parametrize("top_k", [10, 100, 1000, 10000, 65536])
-    def test_search_struct_field_materialized(self, benchmark, mocked_milvus_client, top_k: int) -> None:
-        """Benchmark struct field with forced materialization.
-        
-        Forces full struct field conversion by iterating results.
-        """
-        def custom_search(request, timeout=None, metadata=None):
-            return mock_responses.create_search_results_all_types(
+            return mock_responses.create_search_results_from_schema(
+                schema=schema,
                 num_queries=1,
                 top_k=top_k,
-                dim=128
+                output_fields=["*"]
             )
 
-        mocked_milvus_client._get_connection()._stub.Search = MagicMock(side_effect=custom_search)
-        query_vectors = [[0.1] * 128]
+        setup_search_mock(mocked_milvus_client, custom_search)
 
-        def run_and_materialize():
+        def run_and_iterate_all():
             result = mocked_milvus_client.search(
                 collection_name="test_collection",
                 data=query_vectors,
                 limit=top_k,
-                output_fields=["id", "struct_field"]
+                output_fields=["*"]
             )
-            # Force materialization
+            # Iterate all - materializes everything
             count = 0
             for hits in result:
                 for hit in hits:
                     count += 1
             return count
 
-        count = benchmark(run_and_materialize)
+        count = benchmark(run_and_iterate_all)
         assert count == top_k

From f825b3399f7d9086fe392deb5be1664972bc9629 Mon Sep 17 00:00:00 2001
From: yangxuan <xuan.yang@zilliz.com>
Date: Fri, 5 Dec 2025 09:59:05 +0800
Subject: [PATCH 3/4] tidy code

Signed-off-by: yangxuan <xuan.yang@zilliz.com>
---
 pyproject.toml                   | 21 ++++-----------------
 tests/benchmark/README.md        |  2 +-
 tests/benchmark/requirements.txt |  4 ----
 3 files changed, 5 insertions(+), 22 deletions(-)
 delete mode 100644 tests/benchmark/requirements.txt

diff --git a/pyproject.toml b/pyproject.toml
index af9661f8a..0b1f45dbf 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -5,7 +5,6 @@ requires = [
   "wheel",
   "gitpython",
   "setuptools_scm[toml]>=6.2",
-  "Cython>=3.0.0",
 ]
 build-backend = "setuptools.build_meta"
 
@@ -74,7 +73,6 @@ dev = [
     "pytest-cov>=5.0.0",
     "pytest-timeout>=1.3.4",
     "pytest-asyncio",
-    "pytest-benchmark[histogram]",
     "Cython>=3.0.0",
     "ruff>=0.12.9,<1",
     "black",
@@ -85,6 +83,10 @@ dev = [
     "azure-storage-blob",
     "urllib3",
     "scipy",
+    # develop benchmark
+    "py-spy",
+    "memray",
+    "pytest-benchmark[histogram]",
 ]
 
 [tool.setuptools.dynamic]
@@ -218,18 +220,3 @@ builtins-ignorelist = [
     "filter",
 ]
 builtins-allowed-modules = ["types"]
-
-[tool.cibuildwheel]
-build = ["cp38-*", "cp39-*", "cp310-*", "cp311-*", "cp312-*", "cp313-*"]
-skip = ["*-musllinux_*", "pp*"]
-test-requires = "pytest"
-test-command = "pytest {package}/tests -k 'not (test_hybrid_search or test_milvus_client)' -x --tb=short || true"
-
-[tool.cibuildwheel.linux]
-before-all = "yum install -y gcc || apt-get update && apt-get install -y gcc"
-
-[tool.cibuildwheel.macos]
-before-all = "brew install gcc || true"
-
-[tool.cibuildwheel.windows]
-before-build = "pip install Cython>=3.0.0"
diff --git a/tests/benchmark/README.md b/tests/benchmark/README.md
index 982db9e4f..74bd345de 100644
--- a/tests/benchmark/README.md
+++ b/tests/benchmark/README.md
@@ -26,7 +26,7 @@ tests/benchmark/
 ### Installation
 
 ```bash
-pip install -r requirements.txt
+pip install -e ".[dev]"
 ```
 
 ---
diff --git a/tests/benchmark/requirements.txt b/tests/benchmark/requirements.txt
deleted file mode 100644
index 2d07aadd3..000000000
--- a/tests/benchmark/requirements.txt
+++ /dev/null
@@ -1,4 +0,0 @@
-py-spy # CPU profiling
-memray # Memory profiling
-line_profiler # line-by-line profing
-memory_profiler

From 67fc69f23983af92bdd3e08a01d2ac137ab7320f Mon Sep 17 00:00:00 2001
From: yangxuan <xuan.yang@zilliz.com>
Date: Fri, 5 Dec 2025 10:00:38 +0800
Subject: [PATCH 4/4] ok

Signed-off-by: yangxuan <xuan.yang@zilliz.com>
---
 tests/benchmark/conftest.py | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/tests/benchmark/conftest.py b/tests/benchmark/conftest.py
index 6ea1082ac..85328c390 100644
--- a/tests/benchmark/conftest.py
+++ b/tests/benchmark/conftest.py
@@ -65,15 +65,13 @@ def mocked_milvus_client():
         mock_future.result = MagicMock(return_value=None)
         mock_ready_future.return_value = mock_future
 
-        mock_stub = MagicMock()
-
-
         mock_connect_response = milvus_pb2.ConnectResponse()
         mock_connect_response.status.error_code = common_pb2.ErrorCode.Success
         mock_connect_response.status.code = 0
         mock_connect_response.identifier = 12345
-        mock_stub.Connect = MagicMock(return_value=mock_connect_response)
 
+        mock_stub = MagicMock()
+        mock_stub.Connect = MagicMock(return_value=mock_connect_response)
         mock_stub.Search = MagicMock()
         mock_stub.Query = MagicMock()
         mock_stub.HybridSearch = MagicMock()