暂存

yuhongxiao · yuhongxiao · commit 725ac1633b5d · 2025-09-28T15:24:29.000+08:00
diff --git a/src/zai/api_resource/audio/audio.py b/src/zai/api_resource/audio/audio.py
@@ -23,6 +23,8 @@
 from zai.types.sensitive_word_check import SensitiveWordCheckRequest
 
 from .transcriptions import Transcriptions
+from ...core import StreamResponse
+from ...types.audio import AudioSpeechChunk
 
 if TYPE_CHECKING:
 	from zai._client import ZaiClient
@@ -60,7 +62,7 @@ def speech(
 		speed: float | None = 1.0,
 		volume: float | None = 1.0,
 		stream: bool | None = False
-	) -> HttpxBinaryResponseContent:
+	) -> HttpxBinaryResponseContent | StreamResponse[AudioSpeechChunk]:
 		"""
 		Generate speech audio from text input
 
diff --git a/src/zai/types/audio/__init__.py b/src/zai/types/audio/__init__.py
@@ -1,5 +1,6 @@
 from .audio_customization_param import AudioCustomizationParam
+from .audio_speech_chunk import AudioSpeechChunk
 from .audio_speech_params import AudioSpeechParams
 from .transcriptions_create_param import TranscriptionsParam
 
-__all__ = ['AudioSpeechParams', 'AudioCustomizationParam', 'TranscriptionsParam']
+__all__ = ['AudioSpeechParams', 'AudioCustomizationParam', 'TranscriptionsParam', 'AudioSpeechChunk']
diff --git a/src/zai/types/audio/audio_speech_chunk.py b/src/zai/types/audio/audio_speech_chunk.py
@@ -0,0 +1,32 @@
+from typing import List, Optional, Dict, Any
+
+from ...core import BaseModel
+
+__all__ = [
+    "AudioSpeechChunk",
+    "AudioError",
+    "AudioSpeechChoice",
+    "AudioSpeechDelta"
+]
+
+
+class AudioSpeechDelta(BaseModel):
+    content: Optional[str] = None
+    role: Optional[str] = None
+
+
+class AudioSpeechChoice(BaseModel):
+    delta: AudioSpeechDelta
+    finish_reason: Optional[str] = None
+    index: int
+
+class AudioError(BaseModel):
+    code: Optional[str] = None
+    message: Optional[str] = None
+
+
+class AudioSpeechChunk(BaseModel):
+    choices: List[AudioSpeechChoice]
+    request_id: Optional[str] = None
+    created: Optional[int] = None
+    error: Optional[AudioError] = None
diff --git a/tests/integration_tests/test_audio.py b/tests/integration_tests/test_audio.py
@@ -1,14 +1,17 @@
+import base64
 import logging
 import logging.config
 from pathlib import Path
 
 import zai
 from zai import ZaiClient
 
+from src.zai import ZhipuAiClient
+
 
 def test_audio_speech(logging_conf):
 	logging.config.dictConfig(logging_conf)  # type: ignore
-	client = ZaiClient()  # Fill in your own API Key
+	client = ZhipuAiClient(base_url='https://open.bigmodel.cn/api/paas/v4', api_key='adf953faf621426da79103110eb41473.3FCVJZcTaq0Q7i3W')  # Fill in your own API Key
 	try:
 		speech_file_path = Path(__file__).parent / 'asr1.pcm'
 		response = client.audio.speech(
@@ -21,7 +24,15 @@ def test_audio_speech(logging_conf):
 			speed=1.0,
 			volume=1.0,
 		)
-		response.stream_to_file(speech_file_path)
+		with open("output.pcm", "wb") as f:
+			for item in response:
+				choice = item.choices[0]
+				index = choice.index
+				finish_reason = choice.finish_reason
+				audio_delta = choice.delta.content
+				if finish_reason is not None:
+					break
+				f.write(base64.b64decode(audio_delta))
 
 	except zai.core._errors.APIRequestFailedError as err:
 		print(err)