据 LangChain Blog 报道,专为内部法律团队量身打造的 AI 助手 WordSmith 已将 LangSmith 集成到其操作中,以增强其产品生命周期的管理。这种集成涵盖了从原型开发到调试和评估的各个阶段,显著提升了 WordSmith 基于 LLM 的功能的性能和可靠性。
原型开发与开发:复杂性的处理
WordSmith 最初为 Slack 实现了一个可配置的检索增强生成 (RAG) 管道,之后发展到支持跨各种数据源的复杂多阶段推理。现在,该 AI 助手能够处理 Slack 消息、Zendesk 工单、拉取请求和法律文件,利用来自 OpenAI、Anthropic、Google 和 Mistral 的 LLM 优化成本和延迟。
LangSmith 的分层跟踪功能在这一演化中发挥了重要作用。它提供了透明的洞察,使工程师能快速而自信地迭代每一步 LLM 接收和生成的内容。这比单纯依靠 Cloudwatch 日志进行调试要高效得多。
性能测量:建立基准
WordSmith 利用 LangSmith 为各项任务创建静态评估集,包括 RAG、代理工作负载、属性提取和基于 XML 的变更集目标。这些评估集提供了几个关键优势:
- 通过设定明确的期望和要求,为每项功能澄清需求。
- 使新模型的快速迭代和自信部署成为可能,例如在将 Claude 3.5 与 GPT-4 进行比较时。
- 在保持准确性的同时优化成本和延迟,在特定任务上将成本降低多达十倍。
操作监控:快速调试
LangSmith 的可见性功能也使其成为 WordSmith 在线监控套件的核心部分。生产错误可以直接链接到 LangSmith 跟踪,从而将调试时间从几分钟缩短到几秒钟。LangSmith 的索引查询使隔离与推理问题相关的生产错误变得容易,简化了调试流程。
WordSmith 使用 Statsig 进行功能标记和实验曝光,将每次曝光映射到相应的 LangSmith 标签,以简化实验分析。这样可以无缝地分析和比较实验群体之间的差异。
未来计划:客户特定的优化
展望未来,WordSmith 计划进一步将 LangSmith 集成到其产品生命周期中,以解决复杂的优化挑战。公司旨在为每个客户和用例优化超参数,创建根据查询模式和数据集自动调整的在线数据集。
这种前瞻性的方法可能为每位客户提供高度个性化和高效的 RAG 体验,在法律 AI 操作方面树立新标准。
Image source: Shutterstock