Build software better, together

comet-ml / opik

Debug, evaluate, and monitor your LLM applications, RAG systems, and agentic workflows with comprehensive tracing, automated evaluations, and production-ready dashboards.

open-source playground evaluation openai hacktoberfest llm prompt-engineering hacktoberfest2025 langchain llmops llama-index llm-evaluation llm-observability

Updated Feb 12, 2026
Python

pydantic / logfire

Sponsor

Star

AI observability platform for production LLM and agent systems.

python ai metrics logging trace openai observability pydantic fastapi opentelemetry ai-tools ai-observability evals llm-observability pydantic-ai agent-observability

Updated Feb 12, 2026
Python

JudgmentLabs / judgeval

Star

The open source post-building layer for agents. Our environment data and evals power agent post-training (RL, SFT) and monitoring.

agent open-source reinforcement-learning openai rl agents llm prompt-engineering langchain llama-index llm-evaluation langgraph llm-observability agentic-ai grpo

Updated Feb 11, 2026
Python

A powerful AI observability framework that provides comprehensive insights into agent interactions across platforms, enabling developers to monitor, analyze, and optimize AI-driven applications with minimal integration effort.

agent security machine-learning ai monitoring cybersecurity observability large-language-models llm agentic llm-tools llm-framework llm-observability agentic-ai

Updated May 14, 2025
Python

radicalbit / radicalbit-ai-monitoring

Star

A comprehensive solution for monitoring your AI models in production

data-science machine-learning ai monitoring artificial-intelligence observability machine-learning-engineering data-drift ai-monitoring ml-observability ai-observability llm-observability

Updated Dec 16, 2025
Python

myscale / myscale-telemetry

Star

Open-source observability for your LLM application.

python monitoring callback langchain llm-observability

Updated Jan 2, 2025
Python

AndrMoura / streamlit-chatbot-analytics

Star

Streamlit-based chatbot leveraging Ollama via LangChain and PostHog-LLM for advanced logging and monitoring

analytics chatbot chatbots chatbot-application streamlit llm langchain ollama llm-ops llama3 llm-observability

Updated May 8, 2024
Python

matdev83 / llm-accounting

Star

A Python package for tracking and analyzing LLM usage across different models and applications. It is primarily designed as a library for integration into development process of LLM-based agentic workflow tooling, providing robust tracking capabilities.

mlops mlops-workflow llms llm-ops llm-observability agentic-workflow agentic-ai agentic-ai-development

Updated Jul 7, 2025
Python

sitta07 / RAGScope

Star

A lightweight observability tool for visualizing and comparing RAG retrieval strategies. Features real-time embedding visualization and side-by-side performance metrics.

reranking rag vector-search hybrid-search ai-evaluation llm langchain chromadb retrieval-augmented-generation llama3 llm-observability

Updated Feb 12, 2026
Python

Padraigobrien08 / rag-eval-observe

Star

RAG Eval Observability is a production-ready, open-source platform for building, evaluating, and monitoring Retrieval-Augmented Generation (RAG) systems. It pairs a ChatGPT-style UI with a robust backend for document ingestion, multiple retrieval strategies, offline evaluation, and real-time observability, along with backend CI/CD deployed on Azure

python nlp information-retrieval typescript ai semantic-search observability evaluation-framework reranking rag fastapi vector-search hybrid-search llm retrieval-augmented-generation rag-evaluation llm-observability

Updated Dec 17, 2025
Python

Artificia11nte11igence / Catalyst

Star

Python SDK for Agent AI Observability, Monitoring and Evaluation Framework. Includes features like AI Agent, LLM and tools tracing, debugging multi-agentic system, self-hosted dashboards and advanced analytics with timeline and execution graph view.

open-source sandbox self-hosted artificial-intelligence evaluation-metrics llmops llm-evaluation llm-observability agentic-ai llm-analytics

Updated Feb 19, 2025
Python

235471 / rag-evaluation-contracts-ragas

Star

A practical and critical evaluation of Retrieval-Augmented Generation (RAG) systems on legal/insurance documents using RAGAS. This project analyzes metric failures, false negatives, retrieval pitfalls, and proposes a more realistic composite evaluation score.

python nlp ai insurance semantic-search pinecone legal-documents rag streamlit supabase pgvector retrieval-augmented-generation vector-databases llm-evaluation llm-observability rags-evaluation rags-metrics

Updated Feb 3, 2026
Python

ahmedshahriar / llm-eval-question-taxonomy-verbal-design-protocols

Star

Reproducibility code for “Evaluating the Performance of Large Language Models in Taxonomic Classification of Questions in Verbal Protocols of Design” (AI EDAM submission; under review). [WIP]

python work-in-progress taxonomic-classification opik comet-ml design-research protocol-analysis openai-api llm llm-observability anthropic-api context-engineering

Updated Jan 16, 2026
Python

Tarunjit45 / tokenlens

Star

Token cost is a design problem, not a billing problem. Most LLM cost overruns come from architectural waste, not model pricing. This tool is a token waste profiler that helps you understand where your tokens are going and which ones are useless.

python nlp open-source developer-tools nlp-machine-learning cost-optimization mlops ai-systems model-efficiency llm llm-observability ai-infrastructure llm-cost token-optimization llm-profiling

Updated Jan 18, 2026
Python

Arnav-Ajay / llm-observability-logs

Star

Decision-level observability for LLM pipelines, making system behavior explainable even when no outputs exist.

evaluation system-design ml-infrastructure ai-systems failure-analysis llm-observability ai-architecture rag-systems agentic-systems ai-debugging decision-tracing

Updated Feb 3, 2026
Python

andlogreg / mealie-rag

Star

Chat with your recipes! A production-oriented RAG implementation for Mealie. Engineering sandbox exploring retrieval strategies, end-to-end LLM observability with Langfuse, and modern Python engineering standards.

python personal-assistant rag mlops generative-ai llm-observability

Updated Feb 6, 2026
Python

azzan1235 / agentic_rag_system

Star

🔍 Enhance retrieval with the Agentic RAG System, featuring intelligent query routing, self-correcting retrieval, and real-time streaming responses.

python search java playground question-answering huggingface workflow-orchestration ai-agent large-language-models hacktoberfest2025 llmops llm-agent llm-evaluation llm-observability agentic-ai

Updated Feb 12, 2026
Python

rbalachandar / contexo

Star

LLM Context Manager

python memory openai graphdb semantic-search rag ai-agent llm context-management llm-observability agentic-ai context-engineering

Updated Feb 7, 2026
Python

Vibhuarvind / Multi_AI_Agent_Medical_Assistant

Star

An AI-powered multi-agent system that demonstrates clinical triage, OTC medication recommendations, and e-pharmacy integration for respiratory conditions. Built with modular agents that collaborate to provide safe, intelligent healthcare assistance.

state-management production-ready multi-agent-systems fastapi guardrails langchain healthcare-assistant aiagent langgraph llm-observability llm-orchestration agentic-ai tool-calling cursor-ai agent-to-agent antigravity-ide

Updated Dec 8, 2025
Python

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

llm-observability

Here are 19 public repositories matching this topic...

comet-ml / opik

pydantic / logfire

JudgmentLabs / judgeval

cyberark / agentwatch

radicalbit / radicalbit-ai-monitoring

myscale / myscale-telemetry

AndrMoura / streamlit-chatbot-analytics

matdev83 / llm-accounting

sitta07 / RAGScope

Padraigobrien08 / rag-eval-observe

Artificia11nte11igence / Catalyst

235471 / rag-evaluation-contracts-ragas

ahmedshahriar / llm-eval-question-taxonomy-verbal-design-protocols

Tarunjit45 / tokenlens

Arnav-Ajay / llm-observability-logs

andlogreg / mealie-rag

azzan1235 / agentic_rag_system

rbalachandar / contexo

Vibhuarvind / Multi_AI_Agent_Medical_Assistant

Improve this page

Add this topic to your repo