Remove has_timing_data from DatasetMetadata

ajcasagrande · ajcasagrande · commit 7c41b50bde15 · 2025-11-25T11:48:36.000-08:00
diff --git a/src/aiperf/dataset/dataset_manager.py b/src/aiperf/dataset/dataset_manager.py
@@ -16,7 +16,7 @@
     ServiceType,
 )
 from aiperf.common.environment import Environment
-from aiperf.common.factories import ComposerFactory, ServiceFactory
+from aiperf.common.factories import ComposerFactory, EndpointFactory, ServiceFactory
 from aiperf.common.hooks import on_command, on_request
 from aiperf.common.messages import (
     ConversationRequestMessage,
@@ -35,7 +35,7 @@
     RequestInfo,
     SessionPayloads,
 )
-from aiperf.common.protocols import ServiceProtocol
+from aiperf.common.protocols import EndpointProtocol, ServiceProtocol
 from aiperf.common.tokenizer import Tokenizer
 from aiperf.dataset.loader import ShareGPTLoader
 
@@ -67,7 +67,6 @@ def __init__(
         self.dataset: dict[str, Conversation] = {}  # session ID -> Conversation mapping
         self.dataset_metadata: DatasetMetadata | None = None
         self._session_ids_cache: list[str] = []
-        self._has_timing_data: bool = False
         self.dataset_configured = asyncio.Event()
 
     @on_command(CommandType.PROFILE_CONFIGURE)
@@ -109,8 +108,6 @@ def _generate_input_payloads(
     ) -> InputsFile:
         """Generate input payloads from the dataset for use in the inputs.json file."""
         inputs = InputsFile()
-        from aiperf.common.factories import EndpointFactory
-        from aiperf.common.protocols import EndpointProtocol
 
         endpoint: EndpointProtocol = EndpointFactory.create_instance(
             model_endpoint.endpoint.type,
@@ -240,22 +237,13 @@ async def _configure_dataset(self) -> None:
         self._session_ids_cache = [
             conversation.session_id for conversation in conversations
         ]
-        # Check if all conversations have timing data (first turn must have a timestamp)
-        # Empty conversations list should be treated as having no timing data
-        # TODO: This is a temporary solution to check if the dataset has timing data (to be used with fixed schedule strategy)
-        self._has_timing_data = len(conversations) > 0 and all(
-            len(conversation.turns) > 0 and conversation.turns[0].timestamp is not None
-            for conversation in conversations
-        )
 
         self.dataset_metadata = DatasetMetadata(
             conversations=[conversation.metadata() for conversation in conversations],
             sampling_strategy=self.user_config.input.dataset_sampling_strategy,
-            has_timing_data=self._has_timing_data,
         )
         metadata = self.dataset_metadata
         self.info(
-            f"Dataset metadata: has timing data: {metadata.has_timing_data}, "
             f"sampling strategy: {metadata.sampling_strategy}, "
             f"unique conversations: {len(metadata.conversations)}, "
             f"unique turn count: {sum(len(conversation.turns) for conversation in metadata.conversations)}"
diff --git a/tests/unit/dataset/test_dataset_manager.py b/tests/unit/dataset/test_dataset_manager.py
@@ -44,7 +44,6 @@ async def test_dataset_configured_notification_for_multi_turn_conversations(
         - Include one ConversationMetadata per conversation (not one per turn)
         - Include the first_turn_timestamp and turn_delays for each conversation
         - Have the correct turn count for each conversation
-        - Mark has_timing_data as True
         """
         # Mock the tokenizer to avoid HTTP requests
         mock_tokenizer_from_pretrained.return_value = (
@@ -104,7 +103,6 @@ async def mock_publish(msg):
 
             # Verify dataset metadata structure
             assert len(metadata.conversations) == 2  # 2 conversations, not 5 turns
-            assert metadata.has_timing_data is True
 
             # Extract conversation metadata for easier testing
             conv_dict = {conv.conversation_id: conv for conv in metadata.conversations}
diff --git a/tests/unit/timing/conftest.py b/tests/unit/timing/conftest.py
@@ -299,7 +299,6 @@ def create_mock_dataset_metadata(
     return DatasetMetadata(
         conversations=conversations,
         sampling_strategy=sampling_strategy,
-        has_timing_data=has_timing_data,
     )
 
 
@@ -345,5 +344,4 @@ def create_mock_dataset_metadata_with_schedule(
     return DatasetMetadata(
         conversations=conversations,
         sampling_strategy=sampling_strategy,
-        has_timing_data=True,
     )
diff --git a/tests/unit/timing/test_dataset_metadata_flow.py b/tests/unit/timing/test_dataset_metadata_flow.py
@@ -21,7 +21,6 @@ def test_create_basic_metadata_without_timing_data(self):
         )
 
         assert len(metadata.conversations) == 3
-        assert metadata.has_timing_data is False
         assert metadata.sampling_strategy == DatasetSamplingStrategy.SEQUENTIAL
 
         # Verify all conversations are present
@@ -45,7 +44,6 @@ def test_create_metadata_with_timing_data(self):
         )
 
         assert len(metadata.conversations) == 2
-        assert metadata.has_timing_data is True
 
         # Find conversations by ID
         conv_dict = {conv.conversation_id: conv for conv in metadata.conversations}
@@ -81,7 +79,6 @@ def test_create_metadata_from_schedule(self):
         metadata = create_mock_dataset_metadata_with_schedule(schedule)
 
         assert len(metadata.conversations) == 3
-        assert metadata.has_timing_data is True
 
         # Find conversations by ID
         conv_dict = {conv.conversation_id: conv for conv in metadata.conversations}
@@ -111,7 +108,6 @@ def test_create_metadata_with_empty_conversation_list(self):
         )
 
         assert len(metadata.conversations) == 0
-        assert metadata.has_timing_data is False
 
 
 class TestConversationMetadataValidation:
@@ -186,12 +182,10 @@ def test_dataset_metadata_with_all_fields(self):
         metadata = DatasetMetadata(
             conversations=conversations,
             sampling_strategy=DatasetSamplingStrategy.RANDOM,
-            has_timing_data=True,
         )
 
         assert len(metadata.conversations) == 2
         assert metadata.sampling_strategy == DatasetSamplingStrategy.RANDOM
-        assert metadata.has_timing_data is True
 
     def test_dataset_metadata_default_values(self):
         """Test dataset metadata default values."""
@@ -200,14 +194,12 @@ def test_dataset_metadata_default_values(self):
         )
 
         assert len(metadata.conversations) == 0
-        assert metadata.has_timing_data is False
 
     def test_dataset_metadata_empty_conversations(self):
         """Test dataset metadata with empty conversations list."""
         metadata = DatasetMetadata(
             conversations=[],
             sampling_strategy=DatasetSamplingStrategy.SEQUENTIAL,
-            has_timing_data=False,
         )
 
         assert len(metadata.conversations) == 0
@@ -223,7 +215,6 @@ def test_create_mock_dataset_metadata_default_parameters(self):
         )
 
         assert len(metadata.conversations) == 2
-        assert metadata.has_timing_data is False
         assert metadata.sampling_strategy == DatasetSamplingStrategy.SEQUENTIAL
 
         for conv in metadata.conversations:
@@ -254,8 +245,6 @@ def test_create_mock_dataset_metadata_with_timing_data_complete(self):
             turn_counts=[3, 3],
         )
 
-        assert metadata.has_timing_data is True
-
         conv_dict = {conv.conversation_id: conv for conv in metadata.conversations}
 
         assert conv_dict["conv1"].turns[0].timestamp_ms == 0
@@ -270,7 +259,6 @@ def test_create_mock_dataset_metadata_with_schedule_simple(self):
         metadata = create_mock_dataset_metadata_with_schedule(schedule)
 
         assert len(metadata.conversations) == 3
-        assert metadata.has_timing_data is True
 
         conv_dict = {conv.conversation_id: conv for conv in metadata.conversations}
 
@@ -297,7 +285,6 @@ def test_create_mock_dataset_metadata_with_schedule_multi_turn(self):
         metadata = create_mock_dataset_metadata_with_schedule(schedule)
 
         assert len(metadata.conversations) == 2
-        assert metadata.has_timing_data is True
 
         conv_dict = {conv.conversation_id: conv for conv in metadata.conversations}
 
@@ -333,7 +320,6 @@ def test_create_mock_dataset_metadata_with_schedule_empty(self):
         metadata = create_mock_dataset_metadata_with_schedule([])
 
         assert len(metadata.conversations) == 0
-        assert metadata.has_timing_data is True
 
 
 class TestDatasetMetadataIntegration:

Original file line number	Diff line number	Diff line change
`@@ -299,7 +299,6 @@ def create_mock_dataset_metadata(`
`299`	`299`	`return DatasetMetadata(`
`300`	`300`	`conversations=conversations,`
`301`	`301`	`sampling_strategy=sampling_strategy,`
`302`		`- has_timing_data=has_timing_data,`
`303`	`302`	`)`
`304`	`303`
`305`	`304`
`@@ -345,5 +344,4 @@ def create_mock_dataset_metadata_with_schedule(`
`345`	`344`	`return DatasetMetadata(`
`346`	`345`	`conversations=conversations,`
`347`	`346`	`sampling_strategy=sampling_strategy,`
`348`		`- has_timing_data=True,`
`349`	`347`	`)`