2025年3月18日,基于开源KTransformers架构的 CPU/GPU 异构推理能力,沐曦在曦云C500单卡GPU上成功实现DeepSeek-R1-671B满血版单并发解码吞吐16.5 tokens/s的优异成绩,相比社区官方数据提升20%以上。

图片来源:沐曦Meta公众号

相比国际高端GPU八卡满血版部署方案,本项目在单并发性能上具有极高的性价比。

图片来源:沐曦Meta公众号

沐曦和KVCache.AI团队合作,通过对KTransformers模型框架进行细致的分析和调整,团队成功达成了曦云C500与KTransformers的无缝对接,为进一步性能优化奠定了坚实的基础。

更多相关信息

  • 全球首架全尺寸倾转涵道翼eVTOL亮相进博会,天翎科发布L600“空中专车”

  • 沐曦顺利通过科创板上市委会议

  • 深开鸿电鸿新型智慧充电站重塑新能源出行体验