Together AI 推出高性价比的LLM请求批处理API
Together AI 推出了新的批处理API,这是一项旨在大幅降低成本的大量大语言模型(LLM)请求处理服务。根据 Together AI 的说法,批处理API承诺以实时推断一半的成本提供企业级性能,使其成为企业和开发者的有吸引力选择。
为何选择批处理?
批处理允许处理不需要即时响应的AI工作负载,如合成数据生成和离线摘要。通过在非高峰时间异步处理这些请求,用户可以在保持可靠输出的同时降低成本。大多数批次可在几小时内完成,最长处理窗口为24小时。
关键优势
节省50%成本
与实时API调用相比,批处理API在非紧急工作负载上提供50%的成本节约,使用户可以在不增加预算的情况下扩展AI推断。
大规模处理
用户可以在单个批次文件中提交最多50,000个请求,批处理操作具有独立于实时使用的速率限制。该服务包括从验证到完成的各个阶段的实时进度跟踪。
简单集成
请求以JSONL文件上传,并通过批处理API监控进度。处理完成后即可下载结果。
支持的模型
批处理API支持15种先进模型,包括deepseek-ai和meta-llama系列,专为处理各种复杂任务而设计。
工作原理
- 准备好您的请求:将请求格式化为JSONL文件,每个请求都有一个唯一标识符。
- 上传并提交:使用文件API上传批次并创建作业。
- 监控进度:在各个处理阶段跟踪作业。
- 下载结果:检索结构化结果,任何错误都有单独文档记录。
速率限制与规模
批处理API在专用速率限制下运行,允许每个模型最多1000万令牌和每个批次文件50,000个请求,输入文件的最大大小为100MB。
定价和最佳实践
用户享受50%的初始折扣,无需提前承诺。最佳批次大小范围为1,000到10,000个请求,模型选择应基于任务复杂性。建议每30-60秒监控一次以获取更新。
入门指南
要开始使用批处理API,用户应升级到最新的together
Python客户端,查看批处理API文档,并探索网上提供的示例手册。该服务现已向所有用户开放,为LLM请求的批量处理提供显著的成本节省。
Read More
Together AI Launches Cost-Efficient Batch API for LLM Requests
Jun 11, 2025 1 Min Read
WAYE.ai and Sui Revolutionize AI with Autonomous Digital Agents
Jun 11, 2025 1 Min Read
Real Vision and Sui Team Up to Enhance Membership with Blockchain Integration
Jun 11, 2025 1 Min Read
IOTA APAC Moveathon Awards $150,000 to Innovative Blockchain Projects
Jun 11, 2025 1 Min Read
NVIDIA Boosts Molecular Modeling with cuEquivariance and NIM Microservices
Jun 11, 2025 1 Min Read