协议背景与介绍
NNRP 的全名是 Neural Network Runtime Protocol。
它是一个面向实时 AI 任务协作的应用层协议。它要解决的核心问题是:宿主(游戏引擎、应用、代理框架等)如何以统一方式向 AI 运行时提交任务、接收结果,并管理流控、缓存与解释上下文——而不是让每个产品都自己发明一套私有接口。
为什么会有 NNRP
NNRP 的起点来自一个很明确的工程目标:让轻量、低性能算力设备,也能参与高质量画面生成与实时增强。
协议最初由一位擅长云、AI 模型和后端开发的工程师,与两位擅长游戏开发和图像渲染的工程师共同设计打造。最早的愿景是:
- 把高质量神经渲染能力从本地硬件压力里解耦出来。
- 让 AR、实时沉浸式交互和更远期的虚拟世界体验拥有统一的实时协作协议基础。
- 避免每个宿主、每种引擎、每条传输路径都重新发明一套“提交 + 回包 + 流控 + 语义解释”的私有接口。
随着协议设计推进,我们又看到了更广的适用面:它不仅可以服务神经渲染,还可以扩展到模型实时请求、流式结果、多模态 runtime 编排,以及需要显式 session / operation / backpressure 语义的实时 AI 场景。
NNRP 想解决什么问题
归结起来,是这几件事:
- 统一提交接口:宿主不再被某个 runtime 私有 RPC 绑定,用同一套协议语义面对不同实现。
- 流式结果:结果不局限于"发一个、等一个",可以自然表达增量输出、部分结果、丢弃、回退、复用和完成状态。
- 可扩展的 payload 解释:payload 的含义交由 profile 和 schema 描述,而不是把每种业务字段都焊进公共协议头。
- 显式流控:速率控制和背压不藏在局部实现的内部重试逻辑里,协议本身就能表达"减速""暂停""恢复"。
- 一致实现:所有 NNRP/1 实现都应遵循同一套语义约定,而不是各自做出"差不多但不完全一样"的解释。
它不是什么
- 不是只给神经渲染硬编码字段的专用协议。
- 不是只适合离线批处理或单次同步请求的接口层。
- 不是 HTTP、WebSocket、WebRTC 这些既有应用层协议的替代品,也不是一个传输层协议。
更准确地说,NNRP 是一个面向 AI 模型与运行时协作的领域级应用层协议。它把提交、结果、流控、缓存、payload 解释和 operation 生命周期这些 AI runtime 语义稳定下来;底层字节可以跑在 QUIC、TCP+TLS、WebSocket、WebTransport 或其他合适的 transport binding 上。
对使用者而言,理解 NNRP 最重要的心智模型,是“它是一套面向实时 AI runtime 协作的公共协议骨架”。版本页是在这个骨架之上,说明当前公开版本的字段边界、流程约束和冻结范围。