LangWatch
免费
LangWatch 是面向 AI Agent 与 LLM 应用的 AI模型训练 质量平台,覆盖 agent simulations、离线/实时评测、OpenTelemetry 原生可观测、Prompt 管理、DSPy 优化、用户反馈与自托管/混合部署。
LangWatch 工具正文
LangWatch 的核心参数与统计
LangWatch 的产品页将其定位为 AI agent testing、LLM evaluation 与 LLM observability 平台,核心任务是让团队在开发阶段和生产阶段都能看到 Agent、Prompt、模型与工具调用的行为证据。它不是基础模型供应商,也不是普通聊天机器人,而是把测试、追踪、评测、反馈和优化放在同一个质量闭环里。
| 项目 | 公开信息 |
|---|---|
| 产品名称 | LangWatch |
| 官方入口 | langwatch.ai |
| 文档入口 | docs.langwatch.ai |
| 应用入口 | app.langwatch.ai |
| GitHub 仓库 | langwatch/langwatch |
| 官方定位 | AI Agent 测试、LLM 评测、LLM 可观测平台 |
| 开源许可证 | Apache-2.0 |
| 主要语言 | TypeScript;同时维护 Python SDK 与 TypeScript SDK |
| 社区规模 | GitHub 约 3.3k stars、约 323 forks,仓库创建于 2023-09-09 |
| 部署形态 | Cloud、自托管、混合部署、企业 on-prem |
| 核心能力 | Agent simulations、offline/real-time evaluations、observability、prompt management、analytics、human feedback、DSPy optimization |
| 数据与合规 | Cloud 数据区域以 EU 为主;定价页列出 GDPR、ISO27001 Reports、企业安全材料与合规评审支持 |
定位边界:LangWatch 的价值在“质量与运行证据”,不是替代业务应用本身。它适合连接已有 LLM 应用、RAG、客服 Agent、工具调用链和提示词版本,把“改动是否变好”从主观感受变成可追踪的实验、评测和生产监控结果。
LangWatch 的用户与市场认可
开源社区信号:官方 GitHub 仓库描述为 “The platform for LLM evaluations and AI agent testing”,许可证为 Apache-2.0,主题标签覆盖 evaluation、observability、llm-ops、prompt-engineering、DSPy、datasets 等方向。约 3.3k stars 与持续发布的 SDK/Skills 版本说明 LangWatch 已经具备可见的开发者采用基础,而不是只停留在闭源演示站。
企业与团队信号:官网和定价页把产品明确卖给“正在发布复杂 AI Agent 的团队”,并在页面中展示 Adesso 等客户引语,强调安全、可追踪、可优化的 GenAI 交付。定价页还提供 Enterprise / Regulated 档位,包含 custom SSO/RBAC、audit logs、SLA、ISO27001 reports、DPA、云市场账单等能力,说明其商业重心并不只在个人开发者试用。
生态位置:LangWatch 与传统 APM 的区别在于它面向 LLM 和 Agent 语义:不仅看请求是否成功,还看回答质量、幻觉、用户反馈、场景模拟、Prompt 改动和模型行为。与只做日志查看的轻量工具相比,它更强调“上线前模拟 + 上线后实时评测”的连续质量工程。
LangWatch 的成本优势:用免费开发层和低事件单价降低试点门槛
LangWatch 的定价结构围绕 seat 与 event 展开。这里的 event 指 Cloud 计费周期内摄入的事件,定价页说明 billable event 可以是 trace 中的 span,也可以是用于测试 AI Agent 的 scenario run。这个口径适合把 Agent 调试、生产追踪和测试运行纳入同一套用量模型。
| 成本层级 | 当前公开结构 | 成本含义 |
|---|---|---|
| C端/个人 | Developer 计划免费,无需信用卡;包含 50,000 events/月、14 天数据访问、2 users、3 scenarios、3 simulations 与 3 custom evaluations | 个人开发者可以先验证 tracing、评测与模拟,不必先进入企业采购流程 |
| 开发者/API | Growth 计划从 €59/month 起,按 core-seat/month 计费;含 200,000 events,超额 €0,00005/event;含 30 天数据留存,额外留存 €3/GB | 适合小团队把测试和生产监控拉到同一平台,成本随席位和事件增长 |
| 企业/私有化 | Enterprise / Regulated 为定制价格,支持 hybrid、self-hosted、on-prem、自定义留存、SSO/RBAC、审计日志、SLA 与安全材料 | 显性费用需要商务确认,隐性成本主要来自部署、合规评审、升级和内部平台运维 |
成本结构判断:对早期团队,Developer 免费层可以覆盖最小试点;对已经有生产流量的团队,真实成本取决于 trace 粒度、scenario run 频率、保留周期和核心协作席位数量。对数据敏感行业,自托管或混合部署能降低数据外流顾虑,但会把一部分成本转移到基础设施和运维流程。
LangWatch 的主要功能
- AI Agent Simulations:用模拟用户和场景测试复杂 Agent 行为,帮助团队在上线前发现多轮对话、工具调用、目标偏移和边界条件问题。机制是把单次 Prompt 测试扩展为完整场景运行;效果是减少只靠人工点测带来的漏检。
- Offline 与 real-time evaluations:开发阶段可比较 Prompt、模型和工具策略,生产阶段可对真实输入输出做持续评测。适用于幻觉、相关性、安全性、任务成功率、用户满意度等质量指标。
- OpenTelemetry 原生可观测:产品页强调 OpenTelemetry native integration,文档页也将 tracing 作为集成主线。机制上,团队可以用更标准的 trace/span 数据结构接入 LLM 调用链;效果是降低后续迁移和多系统观测的锁定风险。
- Prompt Management 与实验追踪:官网强调可以跟踪 prompt、model 或 agent 变更,并保留清晰 audit trails。适合多人协作下控制 prompt 版本、灰度发布和回归风险。
- Human-in-the-loop 与用户反馈:官方产品视觉展示了 Inbox、Annotations、Notes、Alignment 与 Labels 字段,说明 LangWatch 支持把人类标注、专家审核和质量标签纳入评测闭环。
- DSPy Optimization:定价页和官网都把 DSPy optimization 作为重要能力,适合希望系统化优化 prompts、模型和 pipelines 的团队,而不是只手工改提示词。
验收重点:评估 LangWatch 时不宜只看仪表盘是否漂亮,更应验证 trace 是否完整、评测指标是否贴合业务目标、scenario run 是否覆盖关键失败路径,以及业务专家是否能参与反馈与审核。
LangWatch 的模型与版本演进
LangWatch 是持续迭代的云端与开源平台,没有单一“产品大版本号”作为全部能力的唯一锚点。公开版本脉络更适合按仓库、SDK 和平台里程碑理解。
开源仓库与平台主线
- 2023-09-09 / 开源仓库创建:GitHub API 显示
langwatch/langwatch仓库创建于 2023-09-09,标志 LangWatch 开源平台主线开始沉淀。 - 2026-06 / 文档平台当前定位:官方文档标题将 LangWatch 描述为完整 LLMOps 平台,覆盖 observability、evaluations 与 agent simulations,并强调开源平台和 3k+ GitHub stars。
- 2026-06-19 / SDK 与 Skills 高频发布:GitHub Releases 显示 TypeScript SDK v0.33.2、Skills v0.6.1 等版本在 2026-06-19 发布,说明项目仍处于活跃维护节奏。
SDK 与工作流版本
| 版本节点 | 发布日期 | 说明 |
|---|---|---|
| TypeScript SDK v0.33.2 | 2026-06-19 | 最新公开 TypeScript SDK release,服务 Node/TypeScript 工程接入 |
| LangWatch Skills v0.6.1 | 2026-06-19 | 面向 AI coding assistant 的 Skills 工作流,用自然语言快速建立 evals、scenario tests 与 tracing |
| Python SDK v0.26.0 | 2026-06-12 | 面向 Python LLM/Agent 应用的接入版本 |
| TypeScript SDK v0.33.0 | 2026-06-11 | TypeScript SDK 0.33 主线节点 |
版本含义:这条演进线说明 LangWatch 的重点不是单次大版本发布,而是围绕接入层、场景测试和评测工作流持续扩展。对团队落地而言,SDK 更新频率和文档覆盖比传统版本号更能反映维护状态。
LangWatch 的技术优势
OpenTelemetry 标准路线:LLM 可观测如果只使用厂商私有事件格式,短期接入快,长期会增加迁移和数据联通成本。LangWatch 强调 OpenTelemetry native,机制上把 Agent 与 LLM 调用映射到 trace/span 结构;效果是更容易与既有后端观测、日志、告警和数据管线共存;适用场景是已有微服务或平台工程基础的团队。
上线前后同一套质量闭环:传统测试常停在离线样本集,生产监控又只看错误率和延迟。LangWatch 把 offline evaluation、real-time monitoring、scenario simulation 与 human feedback 放在同一平台;机制上,评测标准可以在开发和生产之间复用;效果是降低“测试环境通过、真实用户失败”的断层。
面向 Agent 的场景模拟:复杂 Agent 的失败往往来自多轮上下文、工具顺序、用户意图漂移和边界条件。LangWatch 的 Agent Simulations 让团队测试“完整行为”而不是单条输出;适用场景包括客服 Agent、销售/运营 Agent、RAG 助手和多工具自动化流程。
开发者与领域专家协作:产品界面中的 annotation、labels、alignment 与 notes 说明 LangWatch 不只服务工程日志,还把业务专家的评审结果结构化。机制上,专家反馈能转为评测数据和质量标签;效果是让“答案是否可接受”不再只由工程师凭感觉判断。
LangWatch 的如何使用
LangWatch 的最小使用路径可以从 Cloud 或本地开源部署开始。官网定价页说明 Developer 计划可免费开始,文档横幅也提示可以通过 LangWatch Skills 快速建立 evals、scenario tests 与 tracing。
- 在 app.langwatch.ai 创建工作区,或按 self-hosting 文档 在本地/自有环境部署。
- 为项目创建 API Key,并按应用栈选择 Python SDK、TypeScript SDK 或 OpenTelemetry 方式接入。
- 在 LLM/Agent 调用链中记录 traces、spans、输入、输出、工具调用和关键元数据。
- 为核心任务建立 evaluations,例如幻觉、相关性、格式合规、任务成功率、品牌语气或人工审核标签。
- 用 scenario simulations 覆盖关键业务路径,再把生产中的真实 traces 反馈到数据集和回归测试中。
- 结合 Prompt Management 与 DSPy Optimization 对比不同 prompt、模型和参数设置,逐步形成可复用的发布门槛。
接入边界:如果团队还没有明确的业务成功指标,LangWatch 只能记录更多数据,不能自动定义“什么是好答案”。上线前应先把任务目标、失败类型、人工审核标准和数据保留策略整理清楚。
LangWatch 的产品定价
LangWatch 定价页提供 Cloud 与 Self-Managed 两条路径。Cloud 适合快速试点和托管使用,Self-Managed/Enterprise 适合数据治理、合规和高容量场景。
| 计划 | 公开价格/口径 | 主要包含 |
|---|---|---|
| Developer | Free | 50,000 events/月、14 天数据访问、2 users、3 scenarios、3 simulations、3 custom evaluations、GitHub/Discord 社区支持 |
| Growth | 从 €59/month 起,按 core-seat/month;含 200,000 events,超额 €0,00005/event | Developer 全部能力、30 天数据留存、额外留存 €3/GB、无限 lite-users、无限 eval scores/simulations/prompts、私有 Slack/Teams 支持 |
| Enterprise / Regulated | Custom,需商务确认 | Hybrid/self-hosted/on-prem、自定义留存、SSO/RBAC、audit logs、SLA、ISO27001 reports、DPA、Forward Deployed Engineer、云市场账单 |
定价页还列出 Cloud 数据区域为 EU,Enterprise 可覆盖 EU/US/CA/APAC 等区域需求;支付方式从信用卡扩展到发票和 AWS、Google、Azure Marketplace。最终价格、区域、合约条款和数据保留仍应以官方实时页面和商务合同为准。
LangWatch 的应用场景
- 客服与支持 Agent 质量控制:将真实客服对话、模拟用户和人工标注结合,持续评估回答准确性、品牌语气、升级转人工条件和幻觉风险。验收重点是坏例召回率、人工审核一致性和回归测试覆盖率。
- RAG 与知识助手监控:记录检索上下文、回答、用户反馈和评测分数,用于发现检索缺失、引用错误和回答不相关问题。验收重点是检索相关性、答案可追溯性和低分样本回流速度。
- Prompt 与模型变更发布:在切换 Prompt、模型或参数前运行离线评测和 scenario simulations,再用生产监控观察真实影响。验收重点是版本对比、失败用例是否可复现、灰度发布后的质量波动。
- 受监管企业的 AI 审计:利用自托管/混合部署、审计日志、RBAC、DPA 和安全材料满足内部审查。验收重点是数据边界、权限模型、日志保留和合规团队可读性。
- AI 产品团队的反馈闭环:让产品经理、领域专家和工程师在同一套 annotation、labels、evaluations 中协作,把用户反馈变成下一轮数据集和评测规则。
LangWatch 的适用人群
- AI 应用工程师:需要追踪 LLM 调用链、调试 Agent 工具调用、比较 Prompt/模型变更,并把测试接入 CI/CD 或发布流程。
- 产品经理与领域专家:需要参与审核模型输出、定义质量标准、标注坏例和追踪生产反馈,而不是只依赖工程日志。
- 平台工程/LLMOps 团队:需要为多个业务线统一提供 tracing、evaluation、prompt management、权限、数据保留和部署策略。
- 合规与安全团队:关注数据区域、自托管、混合部署、ISO27001 材料、审计日志、DPA 和供应商评审流程。
不适配边界也要明确:只有少量原型调用、没有稳定用户路径、没有评测样本、没有人工质量标准的团队,短期可能不需要完整 LangWatch 平台;只想要基础 token 成本统计的团队,也可能用更轻量的网关或日志工具完成。
LangWatch 的总结与展望
LangWatch 的核心竞争力在于把 AI Agent 测试、LLM 评测、生产可观测、Prompt 管理、用户反馈和 DSPy 优化组合成一个质量工程平台。它尤其适合已经从“能调用模型”进入“要稳定交付 AI Agent”的团队:此时问题不再是单次回答是否看起来不错,而是每次改动是否可验证、每次失败是否可复盘、每类用户反馈是否能沉淀为下一轮测试资产。
当前限制主要有三类。第一,部分商业条款仍需以官方实时页面和合同为准,尤其是 Enterprise 的区域、SLA、保留周期和安全材料访问。第二,LangWatch 的效果依赖团队自己定义评测指标和失败分类,平台不能替代业务专家判断。第三,自托管和混合部署虽然提升数据控制力,但需要额外承担升级、备份、权限、监控和内部支持成本。
落地建议集中在小范围试点:先选择一个高频、低风险、失败定义清楚的 Agent 或 RAG 场景,接入 tracing、建立 20-50 条关键 scenario、定义 3-5 个评测指标,并用真实用户反馈回流数据集;当低分样本定位时间、回归发现率和人工审核效率都可量化后,再扩展到更多业务线和企业权限治理。
版本信息
- TypeScript SDK v0.33.2 :LangWatch 官方 GitHub Releases 中的 TypeScript SDK 最新公开版本,用于 Node/TypeScript 应用接入 LangWatch tracing、评测与平台工作流。
- LangWatch Skills v0.6.1 :官方 GitHub Releases 发布的 Skills 组件版本,用于通过编码助手快速建立 evals、scenario tests 与 tracing 工作流。
- Python SDK v0.26.0 :官方 GitHub Releases 发布的 Python SDK 版本,服务 Python LLM/Agent 应用接入观测与评测流程。
- TypeScript SDK v0.33.0 :TypeScript SDK 0.33 主线版本节点,体现 LangWatch 对 JavaScript/TypeScript Agent 工程栈的持续维护。
用户评价