Together AI 推出高性价比的LLM请求批处理API

realtime news   Jun 12, 2025 04:08  UTC 20:08

1 Min Read

Together AI 推出了新的批处理API,这是一项旨在大幅降低成本的大量大语言模型(LLM)请求处理服务。根据 Together AI 的说法,批处理API承诺以实时推断一半的成本提供企业级性能,使其成为企业和开发者的有吸引力选择。

为何选择批处理?

批处理允许处理不需要即时响应的AI工作负载,如合成数据生成和离线摘要。通过在非高峰时间异步处理这些请求,用户可以在保持可靠输出的同时降低成本。大多数批次可在几小时内完成,最长处理窗口为24小时。

关键优势

节省50%成本

与实时API调用相比,批处理API在非紧急工作负载上提供50%的成本节约,使用户可以在不增加预算的情况下扩展AI推断。

大规模处理

用户可以在单个批次文件中提交最多50,000个请求,批处理操作具有独立于实时使用的速率限制。该服务包括从验证到完成的各个阶段的实时进度跟踪。

简单集成

请求以JSONL文件上传,并通过批处理API监控进度。处理完成后即可下载结果。

支持的模型

批处理API支持15种先进模型,包括deepseek-ai和meta-llama系列,专为处理各种复杂任务而设计。

工作原理

  1. 准备好您的请求:将请求格式化为JSONL文件,每个请求都有一个唯一标识符。
  2. 上传并提交:使用文件API上传批次并创建作业。
  3. 监控进度:在各个处理阶段跟踪作业。
  4. 下载结果:检索结构化结果,任何错误都有单独文档记录。

速率限制与规模

批处理API在专用速率限制下运行,允许每个模型最多1000万令牌和每个批次文件50,000个请求,输入文件的最大大小为100MB。

定价和最佳实践

用户享受50%的初始折扣,无需提前承诺。最佳批次大小范围为1,000到10,000个请求,模型选择应基于任务复杂性。建议每30-60秒监控一次以获取更新。

入门指南

要开始使用批处理API,用户应升级到最新的together Python客户端,查看批处理API文档,并探索网上提供的示例手册。该服务现已向所有用户开放,为LLM请求的批量处理提供显著的成本节省。



Read More