
MoMA(Model Marketplace & Application Platform)是中国移动推出的一站式大模型聚合与服务平台,其技术架构具备分层解耦、智能调度、集约成本、安全可控、开放兼容五大核心特点。
一、分层化架构设计(高内聚低耦合)

MoMA 平台技术架构特点
整体分为四层,职责清晰、可独立演进:
- 生态汇聚层(资源池)
- 统一接入300 + 主流模型(含自研九天、DeepSeek、通义千问、豆包等),覆盖文本、语音、图像、多模态。
- 模型评估、筛选、分级管理,形成结构化可调度资源池。
- 核心引擎层(智能中枢)
- 智能路由引擎:三级策略(成本优先 / 效果优先 / 均衡优先),自动匹配最优模型;秒级故障转移,保障业务连续。
- 动态任务编排:Planner-Executor-Summarizer 架构,复杂任务自动拆解、并行调用、结果聚合。
- PD²-Matrix 优化框架:性能 – 成本可解释建模,精准权衡资源与效果。
- 协议与安全层(互联互通 + 可信)
- MCP+A2A 双协议:MCP 负责单步调用,A2A 支撑多轮智能体协作,预留 ANP 扩展。
- 机密计算:硬件隔离机密容器,数据 “可用不可见”,适配政务 / 金融高安全场景。
- 统一认证 + 权限管控:多维度授权,实时异常监测与预警。
- 开放服务层(统一入口)
- 统一 API 网关 + SDK:一次接入,全模型可用,降低开发门槛。
- 全链路可观测:调用量、响应时间、成功率实时监控;流式计费、精细化结算。
二、智能路由与动态调度(核心差异化)
- 多级路由机制:一级路由分发简单 / 复杂任务;二级路由按精度 / 成本匹配专家模型;Monitor Model 实时复盘优化路由策略。
- 模型联邦调度:异构模型统一抽象,跨厂商能力无缝组合,突破单一模型瓶颈。
- 弹性扩缩容:基于负载动态调整算力,高峰不拥堵、低谷省资源。
三、Token 集约化运营(成本优势)
- 自研推理引擎 + 国产算力:单位 Token 成本下降 30%,资源占用率降低 50%+。
- 智能缓存 + 上下文复用:重复请求直接命中缓存,减少冗余计算;上下文压缩,降低 Token 消耗。
- 长尾资源调度:低负载模型资源动态复用,提升整体利用率。
四、安全与合规体系(政企级可信)
- 端到端加密:传输与存储全链路加密,防止数据泄露。
- 机密模型服务:硬件级隔离,推理过程数据不落地,满足等保三级 / 密评要求。
- 可追溯审计:所有调用日志留存,支持合规审计与问题溯源。
五、开放兼容与生态扩展
- 标准化接口:兼容 HTTP/JSON-RPC,主流模型即插即用,降低迁移成本。
- 低代码 Agent 框架:支持用户快速构建自定义智能体,适配行业场景。
- 算力网络协同:依托中国移动 1500 + 边缘智算中心,实现云 – 边 – 端协同推理。
总结
MoMA 架构以分层解耦为基础,智能路由为核心,集约成本为目标,安全可信为底线,开放生态为外延,构建了支撑 AI 规模化落地的企业级基础设施。
联系我们 / 合作咨询
诚邀智能硬件厂商洽谈合作,携手共建AI智能硬件生态
扫码添加微信咨询




