LangSmith 通过 Pytest 和 Vitest 集成提升 LLM 评估
realtime news Jan 25, 2025 05:06
LangSmith 引入 Pytest 和 Vitest 集成,以增强 LLM 应用评估,为开发人员提供改进的测试框架。

LangSmith 推出了与 Pytest 和 Vitest 的新集成,旨在简化大型语言模型 (LLM) 应用的评估过程。根据LangChain 的博客,这些集成现在以 LangSmith Python 和 TypeScript SDK 的 0.3.0 版本推出测试版,向开发人员提供了增强的测试功能。
增强的 LLM 评估测试框架
LLM 评估(评估)对维护应用程序的可靠性和质量至关重要。通过与 Pytest 和 Vitest 的集成,熟悉这些框架的开发人员现在可以利用 LangSmith 的高级功能,例如可观测性和共享功能,而无需牺牲他们习惯的开发体验。
这些集成使开发人员能够更有效地调试测试,记录详细指标,超越简单的通过/失败结果,并轻松在团队之间共享结果。LLM 的非确定性特性增加了调试的复杂性,LangSmith 通过保存测试用例的输入、输出和堆栈跟踪来解决。
利用内置评估函数
LangSmith 提供内置评估函数,如 expect.edit_distance()
,计算测试输出和参考输出之间的字符串距离。这一功能对需要确保其应用程序始终部署最佳版本的开发人员尤为有用。有关这些功能的详细信息,可以在 LangSmith 的 API 参考中找到。
开始使用 Pytest 和 Vitest
要与 Pytest 集成,开发人员需要在他们的测试用例上添加 @pytest.mark.langsmith
装饰器。此设置将所有测试用例结果、应用程序跟踪和反馈跟踪记录到 LangSmith,提供应用程序性能的全面视图。
类似地,Vitest 用户可以将他们的测试用例包裹在 ls.describe()
块中,以实现相同级别的集成和日志。两个框架都提供实时反馈,可以无缝集成到持续集成 (CI) 流水线中,有助于开发人员尽早捕捉回归。
相比传统评估方法的优势
传统的评估方法通常需要预定义的数据集和评估功能,可能具有局限性。LangSmith 的新集成通过允许开发人员根据其应用程序的需要定义特定的测试用例和评估逻辑,提供灵活性。这种方法对需要在多个工具或模型中进行不同评估标准测试的应用程序特别有利。
这些测试框架提供的实时反馈促进了快速迭代和本地开发,使开发人员能够更快地完善其应用程序。此外,与 CI 流水线的集成确保了任何潜在回归在开发过程中早期被识别和处理。
有关如何利用这些集成的更多信息,开发人员可以参考 LangSmith 文档网站上提供的综合教程和操作指南。
Image source: Shutterstock