关于 推理 的快讯列表
时间 | 详情 |
---|---|
2025-02-18 07:04 |
DeepSeek 推出NSA:优化稀疏注意力以增强训练
根据DeepSeek,NSA(本地可训练稀疏注意力)机制通过动态分层稀疏策略、粗粒度令牌压缩和细粒度令牌选择来改善超快长上下文训练和推理能力,这有可能通过提高处理效率和减少计算负荷来增强交易算法。 |
2025-01-27 00:33 |
Paolo Ardoino 讨论AI模型训练的未来与成本效率
根据Paolo Ardoino的说法,未来的AI模型训练将不再依赖于一百万个GPU的蛮力。相反,更好的模型开发将显著降低培训成本,并强调数据访问仍然是关键。Ardoino建议推理将转向本地或边缘计算,使当前在蛮力方法上的支出在事后看来显得低效。 |