COMPUTEX 2026｜美格智能发布 MEIGINE AI 推理引擎，五大突破重新定义端侧大模型部署范式

6 月 2 日，COMPUTEX 2026 开展首日，美格智能宣布正式发布自研 MEIGINE AI 神经网络推理引擎（MEIG Intelligent Neural Engine）。该引擎专为端侧大模型部署而生，通过全格式兼容、异构计算调度与跨平台适配三大核心能力，让广大客户无需等待漫长的平台适配，大幅降低资源和模型限制，为智能终端提供“全、通、快、稳、广”的推理加速体验，助力端侧AI从“能跑”迈向“快跑”。

最强生态：全面兼容 GGUF，无缝接入顶级生态

MEIGINE 最为显著的优势在于全面兼容 GGUF 模型格式，并接入顶级开源生态，模型开源后 MEIGINE 第一时间即可在端侧稳定运行。区别于简单的“格式兼容”，导入的模型会经过端侧专项调优，实现“拿来就用，用就快”的零门槛部署体验。目前， MEIGINE 已稳定支持 Qwen、Llama 全系列模型，覆盖 0.6B 到 7B 参数规模，让开发者无需为端侧适配耗费额外精力。

一跑全通：一套模型文件，多平台通用

面对端侧芯片平台多元化的行业现实，MEIGINE 提出“一次部署，全平台通用”的解决方案。同一套 GGUF 模型文件，无需重复适配即可在高通、紫光展锐等不同芯片平台上稳定运行，告别“一平台一模型”的碎片化困境。这一能力大幅降低了开发者的适配成本，让端侧 AI 应用真正实现跨平台快速迁移与规模化复制。

高效部署：更快解码速度与更强内存优化

在模型解码速度方面，美格智能基于 SNM970（Q-8550 平台）进行了 MEIGINE 方案与 QNN 方案的部署对比。以 Qwen3-0.6B 为例，MEIGINE 解码速度高达 50.6 token/s，超越 QNN 的 40.67 token/s，让小模型在端侧实现无压力实时交互。在内存占用方面，以 Qwen2.5-7B 为例，MEIGINE 仅需 4.8GB 内存，较 QNN 的 6.4GB 节省 25%，同样的硬件可部署更大参数模型，显著降低端侧AI落地门槛。

异构协同：CPU/GPU/NPU 智能调度，解放 CPU 算力瓶颈

针对端侧推理中 CPU 负载过高的行业痛点， MEIGINE 自研异构调度引擎，将计算负载智能分配至 CPU、GPU、NPU 协同处理，打破传统方案对 CPU 的过度依赖，通过精细化算力调度与底层优化，实现整机功耗的大幅降低。

同样基于 SNM970（Q-8550 平台），以 Qwen2.5-3B 模型为例，MEIGINE 的 CPU 占用为 9%，相较 QNN 的 38% 降幅高达 76%；在 Qwen2.5-7B 模型下，MEIGINE 的 CPU 占用仅为 8%，较 QNN 的 20% 降低 60%。更低的 CPU 占用意味着设备不烫不卡，整机流畅运行，为长时间 AI 交互提供坚实的能效保障。

无限扩展：千兆级集群互联，算力叠加突破单设备边界

面向更大参数模型与更复杂推理场景的未来需求，美格智能已跑通验证通过千兆级网线设备构建推理集群的技术方案。该方案可实现规模化算力叠加，通过网线连接设备即可突破单设备算力上限，为 7B 以上更大模型的端侧部署预留充足的扩展空间。

美格智能研究院院长李书杰表示：

“MEIGINE 的发布，是美格智能从‘连接’向‘算力算法连接’全栈能力跃迁的重要里程碑。端侧 AI 的下半场，不仅需要高算力硬件，更需要高效的推理引擎释放硬件潜能。”

未来，美格智能将持续深耕端侧 AI 与 Agent 核心技术，以 MEIGINE 为基座，携手产业链合作伙伴，推动大模型在具身机器人、智能座舱、低空经济等场景的规模化落地，为万物智联时代注入强劲的智算动能。