Together AI 推出高性价比的LLM请求批处理API

realtime news Jun 12, 2025 04:08 UTC 20:08

1 Min Read

Together AI 推出了新的批处理API，这是一项旨在大幅降低成本的大量大语言模型（LLM）请求处理服务。根据 Together AI 的说法，批处理API承诺以实时推断一半的成本提供企业级性能，使其成为企业和开发者的有吸引力选择。

为何选择批处理？

批处理允许处理不需要即时响应的AI工作负载，如合成数据生成和离线摘要。通过在非高峰时间异步处理这些请求，用户可以在保持可靠输出的同时降低成本。大多数批次可在几小时内完成，最长处理窗口为24小时。

与实时API调用相比，批处理API在非紧急工作负载上提供50％的成本节约，使用户可以在不增加预算的情况下扩展AI推断。

用户可以在单个批次文件中提交最多50,000个请求，批处理操作具有独立于实时使用的速率限制。该服务包括从验证到完成的各个阶段的实时进度跟踪。

请求以JSONL文件上传，并通过批处理API监控进度。处理完成后即可下载结果。

批处理API支持15种先进模型，包括deepseek-ai和meta-llama系列，专为处理各种复杂任务而设计。

批处理API在专用速率限制下运行，允许每个模型最多1000万令牌和每个批次文件50,000个请求，输入文件的最大大小为100MB。

用户享受50%的初始折扣，无需提前承诺。最佳批次大小范围为1,000到10,000个请求，模型选择应基于任务复杂性。建议每30-60秒监控一次以获取更新。

要开始使用批处理API，用户应升级到最新的together Python客户端，查看批处理API文档，并探索网上提供的示例手册。该服务现已向所有用户开放，为LLM请求的批量处理提供显著的成本节省。