tts: use smaller audio chunk sizes

2025-04-16 11:35:36 -07:00
parent d05b2d0e8d
commit 6cea71270e
3 changed files with 7 additions and 7 deletions
--- a/src/pipecat/services/aws/tts.py
+++ b/src/pipecat/services/aws/tts.py
@@ -231,9 +231,9 @@ class PollyTTSService(TTSService):

            yield TTSStartedFrame()

-            chunk_size = 8192
-            for i in range(0, len(audio_data), chunk_size):
-                chunk = audio_data[i : i + chunk_size]
+            CHUNK_SIZE = 1024
+            for i in range(0, len(audio_data), CHUNK_SIZE):
+                chunk = audio_data[i : i + CHUNK_SIZE]
                if len(chunk) > 0:
                    await self.stop_ttfb_metrics()
                    frame = TTSAudioRawFrame(chunk, self.sample_rate, 1)
--- a/src/pipecat/services/elevenlabs/tts.py
+++ b/src/pipecat/services/elevenlabs/tts.py
@@ -550,7 +550,7 @@ class ElevenLabsHttpTTSService(TTSService):
        if self._settings["optimize_streaming_latency"] is not None:
            params["optimize_streaming_latency"] = self._settings["optimize_streaming_latency"]

-        logger.debug(f"ElevenLabs request - payload: {payload}, params: {params}")
+        logger.debug(f"{self} ElevenLabs request - payload: {payload}, params: {params}")

        try:
            await self.start_ttfb_metrics()
--- a/src/pipecat/services/google/tts.py
+++ b/src/pipecat/services/google/tts.py
@@ -346,9 +346,9 @@ class GoogleTTSService(TTSService):
            audio_content = response.audio_content[44:]

            # Read and yield audio data in chunks
-            chunk_size = 8192
-            for i in range(0, len(audio_content), chunk_size):
-                chunk = audio_content[i : i + chunk_size]
+            CHUNK_SIZE = 1024
+            for i in range(0, len(audio_content), CHUNK_SIZE):
+                chunk = audio_content[i : i + CHUNK_SIZE]
                if not chunk:
                    break
                await self.stop_ttfb_metrics()