跳到主要内容

Kimi大模型B端定价真相:缓存命中率决定你的实际成本

3 0
AI摘要

随着大模型产业竞争加剧,月之暗面(Moonshot AI)旗下Kimi商业化路径清晰。Kimi坚持底层架构创新,而非简单堆砌。为应对算力成本压力,Kimi通过技术优化将KV-Cache命中率提升至90%以上,有效控制成本,提供高性价比Token服务。定价上,Kimi强调缓存效率是关键,而非仅看输入输出基准。在To B业务上,Kimi采取审慎策略,

定价权之争:缓存命中率成隐形胜负手

在近日举行的行业峰会上, 月之暗面Kimi面向B端的负责人黄震昕, 公布了公司的定价策略逻辑。他着重表明, Kimi一直将自身定位于高性能的模型, 然而评估模型成本的核心指标, 并非单纯的输入输出基准定价。黄震昕明确指出, 用户实际支出的关键之处, 在于缓存命中效率, 此一指标直接判定了Token服务的真实性价比。如今, 全球算力供应紧张的状况依旧在促使模型运行成本升高, 不过月之暗面凭借技术优化把KV – Cache命中率提高到了90%以上, 从而成功抵消了一部分成本压力。

行业因这一策略展开了对模型定价透明度的全新讨论, 多位业内人士告知记者, 传统按Token计费模式常常隐匿了实际算力消耗, Kimi凭借公开缓存效率数据, 使得企业客户能够更精确地预估使用成本, 据黄震昕透露, 高命中率意味着大量重复计算被省去, 用户在不损害性能的状况下获取了更低的单位成本, 这为Kimi在B端市场争取中小企业客户提供了竞争优势。

技术架构创新:从训练到推理的全链路优化

黄震昕提到, 月之暗面在技术方面呈现出对底层架构的执着探寻, 公司于训练这段进程当中引入了二阶优化器Muon, 还推出了自行研发的Kimi注意力架构以及注意力残差方案, 这些创新极大地提高了数据运用效率, 进而让模型于处理超长文本任务之际能够显得愈加稳固, 跟行业广泛运用的工程堆砌思路相比,Kimi更为着重从根源处去提升模型基座能力, 并非依靠于外围适配。

于推理侧, Kimi的注意力残差方案被设计成一种轻量化机制, 它能在维持长上下文连贯性之际减少内存消耗。依据技术文档所示, 该方案已在K2.7等最新版本里落地, 支持千亿级参数模型的实时响应。黄震昕讲道, 这种“架构导向”的研发路线, 让Kimi能够在算力受限的环境中维持高性能输出, 为后续商业化扩张奠定了坚实基础。

To B战略审慎:专注模型能力,让利给合作伙伴

在企业级应用方面, Kimi呈现出“有所为有所不为”的清晰界限。黄震昕于峰会上着重表明, 月之暗面不会去涉足份额颇多重量较大的交付业务, 而是会把重点聚焦于模型核心能力的不断提升这一方面。对于属于企业客户所需的“最后一公里”定制化服务, Kimi会主要借助FDE(端到端)合作伙伴予以承接事项。当下, Kimi已经搭建形成了由底层模型、API架构以及Agent产品共同组成的三层服务体系。

此一策略引发了诸多系统集成商的兴趣, 也吸引了众多行业解决方案提供商的关注。据记者所知, Kimi正在跟亚马逊云科技等巨头强化合作, 一同推动金融领域的解决方案得以落地, 还推进医疗领域的相关方案落实, 也促使制造等垂直领域的解决办法能够实现。某金融科技公司的一位高管宣称,Kimi的开放合作模式让他们的集成门槛有所降低, 致使他们能够更加专心于业务逻辑的优化, 而非底层模型的调优。黄震昕披露, 当下已经有超过200家合作伙伴接入了Kimi的API生态。

循环工程理念:拒绝盲目追逐“工程热”

针对行业里持续不断热度升高的“工程优化”这股热潮, Kimi内部却给出了完全不一样的理念, 那就是循环工程。黄震昕作出解释说, 伴随模型基座能力持续不断地增强, 复杂的外部工程适配方面的需求将会逐步降低。月之暗面更加倾向于借助模型自身的迭代去减少对人工调参的依赖, 从而形成一种技术自己循环的演进模式。这样的思路在内部被称作“Loop Engineering”, 着重强调从数据使用效率着手, 让模型学会自我改进。

这种反主流的策略, 在学术界引发了讨论, 某人工智能研究院的研究员认为, 循环工程理念与当前大模型行业那种“堆算力、堆人力”的路径形成了如此鲜明的对比, 要是能够验证成功的话, 或许会颠覆现有的工程范式, 不过, 他也指出, 这种模式对模型基座的要求是极高的, 在短期内仅仅适用于少数顶尖团队,黄震昕表示, Kimi已经在多个内部测试当中验证了循环工程的效果, 预计在未来一年内会朝着公开API推送相关能力。

垂直领域深耕:金融医疗制造成突破口

月之暗面在峰会上透露, 在商业化落地的具体方向上, 利用Kimi的长上下文处理优势来辅助分析师对财报、研报等超长文档进行实时解析, Kimi把将金融、医疗和制造业列为首批重点领域, 其中医疗领域聚焦于病历摘要和药物研发文献的智能提取, Kimi的注意力残差方案在这类高密度文本任务中表现出色, 月之暗面已与多家头部金融机构展开合作。

在制造业这个领域当中, Kimi跟亚马逊云科技共同推出的联合方案, 已然来到了试点的阶段, 它主要是被运用在设备故障诊断文档的自动化生成工作之上。根据项目负责人所进行的介绍, Kimi具备处理长达数万字设备操作手册的能力, 并且能够依照用户提出的需求来生成结构化摘要。黄震昕着重表明, 在这些垂直场景里, 核心需求是模型的“聪明程度”以及上下文连贯性, 并非单纯的响应速度, 而这恰恰就是Kimi所拥有的差异化优势的所在之处。

未来三大维度:智能、长上下文与多智能体协作

持续深耕于月之难见的那一面的会是在三个关键维度当中, 分别是叫作智能体的聪慧程度这一维度, 还有长上下文处理能力维度以及多智能体协作效率维度。黄震昕讲了表明意思的话语, 随着Kimi K2.7和诸如这般的高性能模型接连不断地登录到云端平台之上, 公司正在探寻求索怎样把能源高效地转变转化成为智能, 这已经变成了AI产业漫长路程之中的核心目标。他做出了预计, 在未来两年的时间范围以内, Kimi的上下文窗口将会进一步地拓展延伸到百万级Token, 与此同时多智能体之间的通信开销将会削减降低50%。

这一规划跟行业发展趋势极为相符。按照Gartner最新报告显示, 到2027年的时候, 超过60%的企业级AI应用会依赖多智能体协作模式。Kimi的技术储备让其在这一领域获得先机。黄震昕最后面向媒体着重指出, 月之暗面一直都把用户实际使用成本置于首位, 而不是仅仅去追求模型参数规模。他向记者提出反问: “当缓存命中率突破95%之际, 你觉得Token定价还有下降的空间吗? ”欢迎在评论区分享你的看法, 为本文点赞并且转发让更多人参与讨论。

登录后参与评论

评论仅开放给已登录并完成邮箱绑定的用户。

评论 0

暂无评论。