基于云计算的 CV 移动交互应用研究（1）：CV交互+云计算

原创

flavorfan

发布于 2018-01-15 18:31:28

3.6K10

发布于 2018-01-15 18:31:28

文章被收录于专栏：范传康的专栏范传康的专栏范传康的专栏

导语：Google Translate App 以word Lens即时相机翻译黑科技与基于云计算架构的“统计机器翻译”的强大服务后台，引爆大众关注。“CV交互+移动终端+云计算” 这一跨界结合展示了极大的潜力。

视频演示

二话不说先来demo应用场景展示。第一个是android手机通过chrome浏览器访问外网的H5页面，调用手机摄像头传输当前图像到云计算后台服务，得到头部姿态识别结果，在当前页面画出识别结果。

视频内容

视频1 ：Web H5的使用展示

视频内容

视屏2 ，Unity 客户端的展示

来源

What？

为了说明项目（技术尝试Demo）的概念，先看几个有关联的的技术方案及产品。上述3图是CV结合云计算在移动终端上的应用案例，以Google Translate App为例进行介绍。

Google Translate的核心技术在于“统计机器翻译”，基本思想是通过对大量平行语料进行统计分析，构建统计翻译模型进而使用此模型进行翻译。简单的说，Google Translate在生成译文时，会在大量人工翻译的文档中查找各种模型，进行合理的推测，从而得到恰当的翻译。之所以使用云计算架构，是由于机器翻译需要海量的数据存储空间以及高效的运算能力。

Google提供了语音识别，触摸手写，即时相机翻译(真黑科技)。真正引爆大众关注的是其名为Word Lens即时相机翻译新技术与其强大处理后台结合提供的便利性。

CV交互 + 移动终端+ 云计算是一种极富有潜能的跨界产物。

Why？

基于CV的交互
更自然、方便的体验
移动终端 + 云计算
网络带宽渐渐不是问题
在线更新算法，更快的迭代
本地数据有限，云端数据可扩展，模型灵活
应用-服务分离
轻客户端
一种服务后台——多种端末应用
更方便的用户数据收集、管理
目的
探讨基于CV的游戏交互的新体验
可验证、可持续发展“服务-应用”框架

系统构成

不同的客户端（Mobile App 或者web）将图像信息通过网络发给云服务器，云服务器进行CV算法处理，将结果返回（json格式）客户端。

云服务器由Nginx代理代理服务器、后台应用程序、CV算法库和日志评估组成。

Nginx代理服务器，代理路由来自不同客户端（类型、个体）的请求，发送到合适的后台应用服务进程；

后台应用服务程序根据请求的多线程启用CV算法模块库进行处理。

数据流图

具体的数据流图、涉及到相关技术（红色是规划而未实现）如上图所示。需要特别说明的是，系统方案设计的客户端上传的是图像信息，可以是具体编码压缩后的图像信息，也可以是经过机器学习预处理后高度降维的图像特征信息。只不过这一方面还没有开始着手进行。

算法服务

如上图所示，算法服务程序由任务框架、算法模块库、日志和评估子系统构成，部分相关依赖开源库如图所示。

任务框架（CS）支持多任务扩展、支持多线程、支持多算法模块组合；算法框架（Core）面向对象设计、扩展方便。

前端应用

前端应用基于接口实现接口统一，不同的客户端平台具有差异的平台适配。

统一的接口

统一入口地址
POST方式
URL : IP + Port + Location
统一数据包
典型的发送数据包
结果返回包
统一交互模式

差异的平台适配

不同平台上设备接口获取
不同框架系统的处理逻辑加载
不同应用的不同数据使用

这部分考虑后面系列再来说明。