Add deepfilternet

2026-05-27 16:37:14 +08:00
parent c4a53b5205
commit 673a54049a
6 changed files with 307 additions and 0 deletions
--- a/docs/deepfilternet.md
+++ b/docs/deepfilternet.md
@@ -0,0 +1,61 @@
 # DeepFilterNet Input Filter
 The engine can optionally run DeepFilterNet on inbound microphone audio before
 Pipecat VAD and STT. The integration uses DeepFilterNet's real-time `libDF` C
 API (`df_process_frame`) rather than the Python `df.enhance()` batch helper.
 ## Build DeepFilterNet
 From the DeepFilterNet checkout:
 ```bash
 cd /Users/wangx/Code/DeepFilterNet
 cargo build --release -p deep_filter --features capi
 ```
 Use the generated native library path as `audio_filter.lib_path`. On macOS this
 is usually:
 ```text
 /Users/wangx/Code/DeepFilterNet/target/release/libdf.dylib
 ```
 Use an ONNX tar.gz model as `audio_filter.model_path`, for example:
 ```text
 /Users/wangx/Code/DeepFilterNet/models/DeepFilterNet3_ll_onnx.tar.gz
 ```
 The low-latency model is preferred for a live voice endpoint.
 ## Install Optional Python Dependencies
 ```bash
 uv pip install -r requirements-deepfilternet.txt
 ```
 ## Enable
 ```json
 "audio_filter": {
  "enabled": true,
  "provider": "deepfilternet",
  "lib_path": "/Users/wangx/Code/DeepFilterNet/target/release/libdf.dylib",
  "model_path": "/Users/wangx/Code/DeepFilterNet/models/DeepFilterNet3_ll_onnx.tar.gz",
  "model_sample_rate_hz": 48000,
  "atten_lim_db": 100.0,
  "post_filter_beta": 0.0,
  "log_level": null
 }
 ```
 `model_sample_rate_hz` defaults to `48000`, matching the bundled DeepFilterNet
 models. The filter resamples from the engine sample rate to the model sample
 rate, processes hop-sized frames, then resamples back to the engine sample rate.
 You can also provide paths through environment variables:
 ```bash
 export DEEPFILTERNET_LIB_PATH=/Users/wangx/Code/DeepFilterNet/target/release/libdf.dylib
 export DEEPFILTERNET_MODEL_PATH=/Users/wangx/Code/DeepFilterNet/models/DeepFilterNet3_ll_onnx.tar.gz
 ```
--- a/engine/audio_filters.py
+++ b/engine/audio_filters.py
@@ -0,0 +1,32 @@
 from __future__ import annotations
 from pipecat.audio.filters.base_audio_filter import BaseAudioFilter
 from .config import AudioConfig, AudioFilterConfig
 def create_audio_input_filter(
    config: AudioFilterConfig,
    audio: AudioConfig,
 ) -> BaseAudioFilter | None:
    """Create the optional transport-level input audio filter."""
    if not config.enabled:
        return None
    if config.provider == "deepfilternet":
        from .deepfilternet_filter import DeepFilterNetAudioFilter
        return DeepFilterNetAudioFilter(
            lib_path=config.lib_path,
            model_path=config.model_path,
            model_sample_rate=config.model_sample_rate_hz,
            channels=audio.channels,
            atten_lim_db=config.atten_lim_db,
            post_filter_beta=config.post_filter_beta,
            log_level=config.log_level,
        )
    raise ValueError(
        f"Unsupported audio_filter provider {config.provider!r}; expected 'deepfilternet'"
    )
--- a/engine/config.py
+++ b/engine/config.py
@@ -28,6 +28,20 @@ class AudioConfig:
        return int(self.sample_rate_hz * self.frame_ms / 1000) * self.channels * 2
@dataclass(frozen=True)
 class AudioFilterConfig:
    """Optional input audio filter applied by the Pipecat transport before VAD/STT."""
    enabled: bool = False
    provider: str = "none"
    lib_path: str | None = None
    model_path: str | None = None
    model_sample_rate_hz: int = 48000
    atten_lim_db: float = 100.0
    post_filter_beta: float = 0.0
    log_level: str | None = None
@dataclass(frozen=True)
 class SessionConfig:
    inactivity_timeout_sec: int = 60
@@ -180,6 +194,7 @@ class ServicesConfig:
 class EngineConfig:
    server: ServerConfig = field(default_factory=ServerConfig)
    audio: AudioConfig = field(default_factory=AudioConfig)
    audio_filter: AudioFilterConfig = field(default_factory=AudioFilterConfig)
    session: SessionConfig = field(default_factory=SessionConfig)
    turn: TurnConfig = field(default_factory=TurnConfig)
    agent: AgentConfig = field(default_factory=AgentConfig)
@@ -223,6 +238,7 @@ def config_from_dict(data: dict) -> EngineConfig:
    return EngineConfig(
        server=ServerConfig(**_dict(data.get("server"))),
        audio=AudioConfig(**_dict(data.get("audio"))),
        audio_filter=AudioFilterConfig(**_normalize_audio_filter(_dict(data.get("audio_filter")))),
        session=SessionConfig(**_dict(data.get("session"))),
        turn=TurnConfig(
            vad=VADConfig(**vad),
@@ -255,6 +271,18 @@ def _dict(value: object) -> dict:
    return dict(value) if isinstance(value, dict) else {}
 def _normalize_audio_filter(value: dict) -> dict:
    if value.get("lib_path") == "":
        value["lib_path"] = None
    if value.get("model_path") == "":
        value["model_path"] = None
    if value.get("log_level") == "":
        value["log_level"] = None
    if "provider" in value:
        value["provider"] = str(value["provider"]).strip().lower()
    return value
 def _normalize_llm_provider(value: object) -> str:
    provider = str(value or LLMConfig().provider).strip().lower()
    normalized = _LLM_PROVIDER_ALIASES.get(provider)
--- a/engine/deepfilternet_filter.py
+++ b/engine/deepfilternet_filter.py
@@ -0,0 +1,182 @@
 from __future__ import annotations
 import ctypes
 import os
 from pathlib import Path
 import numpy as np
 from loguru import logger
 from pipecat.audio.filters.base_audio_filter import BaseAudioFilter
 from pipecat.audio.resamplers.soxr_stream_resampler import SOXRStreamAudioResampler
 from pipecat.frames.frames import FilterControlFrame, FilterEnableFrame
 class DeepFilterNetAudioFilter(BaseAudioFilter):
    """DeepFilterNet transport filter backed by libDF's real-time C API.
    The DeepFilterNet Python ``enhance`` helper is file/batch oriented. This
    filter uses ``df_process_frame`` instead, which keeps the model, STFT, and
    rolling lookahead state alive across hop-sized frames for one voice session.
    """
    def __init__(
        self,
        *,
        lib_path: str | None,
        model_path: str | None,
        model_sample_rate: int = 48000,
        channels: int = 1,
        atten_lim_db: float = 100.0,
        post_filter_beta: float = 0.0,
        log_level: str | None = None,
    ) -> None:
        self._lib_path = lib_path or os.environ.get("DEEPFILTERNET_LIB_PATH")
        self._model_path = model_path or os.environ.get("DEEPFILTERNET_MODEL_PATH")
        self._model_sample_rate = model_sample_rate
        self._channels = channels
        self._atten_lim_db = atten_lim_db
        self._post_filter_beta = post_filter_beta
        self._log_level = log_level
        self._filtering = True
        self._sample_rate = 0
        self._lib = None
        self._state = None
        self._frame_length = 0
        self._input_resampler = SOXRStreamAudioResampler()
        self._output_resampler = SOXRStreamAudioResampler()
        self._pending_model_bytes = bytearray()
    async def start(self, sample_rate: int) -> None:
        if self._channels != 1:
            raise ValueError("DeepFilterNet audio filter currently supports mono PCM only")
        self._sample_rate = sample_rate
        self._pending_model_bytes.clear()
        self._lib = self._load_library()
        self._state = self._create_state()
        self._frame_length = int(self._lib.df_get_frame_length(self._state))
        if self._frame_length <= 0:
            raise RuntimeError("DeepFilterNet returned an invalid frame length")
        if self._post_filter_beta > 0:
            self._lib.df_set_post_filter_beta(self._state, ctypes.c_float(self._post_filter_beta))
        logger.info(
            "DeepFilterNet audio filter enabled "
            f"sample_rate={sample_rate} model_sample_rate={self._model_sample_rate} "
            f"frame_length={self._frame_length}"
        )
    async def stop(self) -> None:
        if self._lib and self._state:
            self._lib.df_free(self._state)
        self._lib = None
        self._state = None
        self._frame_length = 0
        self._pending_model_bytes.clear()
    async def process_frame(self, frame: FilterControlFrame) -> None:
        if isinstance(frame, FilterEnableFrame):
            self._filtering = frame.enable
    async def filter(self, audio: bytes) -> bytes:
        if not self._filtering or not self._lib or not self._state:
            return audio
        if not audio:
            return b""
        model_rate_audio = await self._input_resampler.resample(
            audio,
            self._sample_rate,
            self._model_sample_rate,
        )
        self._pending_model_bytes.extend(model_rate_audio)
        frame_bytes = self._frame_length * 2
        processed_chunks: list[bytes] = []
        while len(self._pending_model_bytes) >= frame_bytes:
            chunk = bytes(self._pending_model_bytes[:frame_bytes])
            del self._pending_model_bytes[:frame_bytes]
            processed_chunks.append(self._process_model_frame(chunk))
        if not processed_chunks:
            return b""
        processed_audio = b"".join(processed_chunks)
        return await self._output_resampler.resample(
            processed_audio,
            self._model_sample_rate,
            self._sample_rate,
        )
    def _load_library(self):
        if not self._lib_path:
            raise RuntimeError(
                "DeepFilterNet audio filter requires audio_filter.lib_path "
                "or DEEPFILTERNET_LIB_PATH"
            )
        lib_path = Path(self._lib_path).expanduser()
        if not lib_path.exists():
            raise FileNotFoundError(f"DeepFilterNet library not found: {lib_path}")
        lib = ctypes.CDLL(str(lib_path))
        lib.df_create.argtypes = [ctypes.c_char_p, ctypes.c_float, ctypes.c_char_p]
        lib.df_create.restype = ctypes.c_void_p
        lib.df_get_frame_length.argtypes = [ctypes.c_void_p]
        lib.df_get_frame_length.restype = ctypes.c_size_t
        lib.df_set_post_filter_beta.argtypes = [ctypes.c_void_p, ctypes.c_float]
        lib.df_set_post_filter_beta.restype = None
        lib.df_process_frame.argtypes = [
            ctypes.c_void_p,
            ctypes.POINTER(ctypes.c_float),
            ctypes.POINTER(ctypes.c_float),
        ]
        lib.df_process_frame.restype = ctypes.c_float
        lib.df_free.argtypes = [ctypes.c_void_p]
        lib.df_free.restype = None
        return lib
    def _create_state(self):
        if not self._model_path:
            raise RuntimeError(
                "DeepFilterNet audio filter requires audio_filter.model_path "
                "or DEEPFILTERNET_MODEL_PATH"
            )
        model_path = Path(self._model_path).expanduser()
        if not model_path.exists():
            raise FileNotFoundError(f"DeepFilterNet model not found: {model_path}")
        log_level = self._log_level.encode("utf-8") if self._log_level else None
        state = self._lib.df_create(
            str(model_path).encode("utf-8"),
            ctypes.c_float(self._atten_lim_db),
            log_level,
        )
        if not state:
            raise RuntimeError("DeepFilterNet failed to create model state")
        return state
    def _process_model_frame(self, pcm16_audio: bytes) -> bytes:
        input_f32 = _pcm16_to_float32(pcm16_audio)
        output_f32 = np.zeros(self._frame_length, dtype=np.float32)
        self._lib.df_process_frame(
            self._state,
            input_f32.ctypes.data_as(ctypes.POINTER(ctypes.c_float)),
            output_f32.ctypes.data_as(ctypes.POINTER(ctypes.c_float)),
        )
        return _float32_to_pcm16(output_f32)
 def _pcm16_to_float32(audio: bytes) -> np.ndarray:
    return (np.frombuffer(audio, dtype=np.int16).astype(np.float32) / 32768.0).copy()
 def _float32_to_pcm16(audio: np.ndarray) -> bytes:
    clipped = np.clip(audio, -1.0, 1.0)
    return (clipped * 32767.0).astype(np.int16).tobytes()
--- a/engine/pipeline.py
+++ b/engine/pipeline.py
@@ -32,6 +32,7 @@ from pipecat.turns.user_stop.speech_timeout_user_turn_stop_strategy import (
 )
 from pipecat.turns.user_turn_strategies import UserTurnStrategies
 from .audio_filters import create_audio_input_filter
 from .config import EngineConfig
 from .context_sync import AssistantContextSyncProcessor
 from .fastgpt_llm import FastGPTLLMService
@@ -80,6 +81,7 @@ async def run_pipeline_with_serializer(
            audio_out_sample_rate=config.audio.sample_rate_hz,
            audio_in_channels=config.audio.channels,
            audio_out_channels=config.audio.channels,
            audio_in_filter=create_audio_input_filter(config.audio_filter, config.audio),
            serializer=serializer,
            session_timeout=None,
        ),
--- a/requirements-deepfilternet.txt
+++ b/requirements-deepfilternet.txt
@@ -0,0 +1,2 @@
 numpy>=1.26
 soxr>=0.5