livekit · davidzhao · Apr 5, 2026 · Apr 4, 2026
diff --git a/.github/next-release/changeset-service-tier-response.md b/.github/next-release/changeset-service-tier-response.md
@@ -0,0 +1,6 @@
+---
+"livekit-agents": patch
+"livekit-plugins-openai": patch
+---
+
+Expose service_tier in CompletionUsage from OpenAI Responses API and Chat Completions
diff --git a/livekit-agents/livekit/agents/inference/llm.py b/livekit-agents/livekit/agents/inference/llm.py
@@ -375,6 +375,7 @@ async def _run(self) -> None:
                                 prompt_tokens=chunk.usage.prompt_tokens,
                                 prompt_cached_tokens=cached_tokens or 0,
                                 total_tokens=chunk.usage.total_tokens,
+                                service_tier=getattr(chunk, "service_tier", None),
                             ),
                         )
                         self._event_ch.send_nowait(usage_chunk)

diff --git a/livekit-agents/livekit/agents/llm/llm.py b/livekit-agents/livekit/agents/llm/llm.py
@@ -45,6 +45,9 @@ class CompletionUsage(BaseModel):
     """The number of tokens read from the cache."""
     total_tokens: int
     """The total number of tokens used (completion + prompt tokens)."""
+    service_tier: str | None = None
+    """The service tier used for processing the request (e.g. 'default', 'priority', 'flex').
+    Returned by providers that support tiered processing (e.g. OpenAI)."""
 
 
 class FunctionToolCall(BaseModel):

diff --git a/livekit-plugins/livekit-plugins-openai/livekit/plugins/openai/responses/llm.py b/livekit-plugins/livekit-plugins-openai/livekit/plugins/openai/responses/llm.py
@@ -521,6 +521,7 @@ def _handle_response_completed(self, event: ResponseCompletedEvent) -> llm.ChatC
                     if usage.input_tokens_details
                     else 0,
                     total_tokens=usage.total_tokens,
+                    service_tier=getattr(event.response, "service_tier", None),
                 ),
             )
         return chunk