
MoMA平台的技术架构可以形象地理解为一个“三层汉堡”结构,它从底层的算力支撑到顶层的模型服务,层层递进,共同构成了一个高效、安全且开放的AI中枢。
具体来看,它的技术架构主要包含以下三个核心层次:
🏗️ 底层:国产算力与自研推理引擎
这是整个平台的坚实地基。MoMA平台并非依赖单一的国外芯片,而是基于华为昇腾、寒武纪、海光等国产算力芯片进行深度部署。
在此基础上,中国移动自主研发了高性能的推理引擎。这个引擎运用了算存分离、KV Cache共享(跨请求复用缓存数据)、上下文压缩等前沿技术,就像给跑车装上了顶级的发动机和轻量化车身,使得平台在运行时吞吐量提升了20%,时延降低了40%,并大幅压降了资源占用率。
在此基础上,中国移动自主研发了高性能的推理引擎。这个引擎运用了算存分离、KV Cache共享(跨请求复用缓存数据)、上下文压缩等前沿技术,就像给跑车装上了顶级的发动机和轻量化车身,使得平台在运行时吞吐量提升了20%,时延降低了40%,并大幅压降了资源占用率。
⚙️ 中层:智能路由与调度引擎
这是MoMA平台的“智慧大脑”和交通枢纽。当你通过雅卡模组发出一个AI指令时,这一层会立刻开始工作:
- 统一API网关:无论背后接入了300多款什么样的模型(DeepSeek、通义千问、Kimi等),对外都提供标准化的接口,设备只需一次接入即可调用全部资源。
- 智能路由引擎:它能根据你的需求自动选择最优路线。比如你设置了“成本优先”,它就会调度性价比最高的模型;如果追求“效果优先”,它就会匹配能力最强的模型。
- 故障秒级切换:如果某条“路线”堵车或中断(某个模型出现故障或限流),它能实现毫秒级的自动绕行,确保你的业务永远在线。
🛡️ 上层:全链路安全与集约化运营
这是直接面向用户的服务与保障层。
- 机密模型服务:针对金融、政务等高敏感场景,MoMA提供了“机密容器”。这相当于在公共道路上开辟了一条绝对封闭的VIP隧道,基于硬件隔离技术,确保数据在计算过程中“可用不可见”,覆盖从芯片到应用的全链路安全。
- Token集约化运营:平台首创了类似“水电煤”一样的计费模式。通过流式实时计量(即用即付),让每一笔Token的消耗都清晰透明,端到端计费时延不超过1分钟,极大降低了企业的使用门槛和试错成本。
简单来说,MoMA的架构就是:用国产硬实力打底,靠智能软路由调度,最后以安全和普惠的方式把AI能力输送给像雅卡AI-eSIM这样的终端设备。
联系我们 / 合作咨询
诚邀智能硬件厂商洽谈合作,携手共建AI智能硬件生态
扫码添加微信咨询




