2017年大学生微创业项目展示

252

项目负责人：李中元

公司/学校名称：北京工业大学

项目简介：

O2O模式(英语：Online to Offline)，又称离线商务模式，是指线上营销线上购买带动线下经营和线下消费。

O2O的优势在于把网上和网下的优势完美结合。通过网购导购机，把互联网与地面店完美对接，实现互联网落地。让消费者在享受线上优惠价格的同时，又可享受线下贴身的服务。同时，O2O模式还可实现不同商家的联盟。

1丶O2O模式充分利用了互联网跨地域丶无边界丶海量信息丶海量用户的优势，同时充分挖掘线下资源，进而促成线上用户与线下商品与服务的交易，团购就是O2O的典型代表。

2丶O2O模式可以对商家的营销效果进行直观的统计和追踪评估，规避了传统营销模式的推广效果不可预测性，O2O将线上订单和线下消费结合，所有的消费行为均可以准确统计，进而吸引更多的商家进来，为消费者提供更多优质的产品和服务。

3丶O2O在服务业中具有优势，价格便宜，购买方便，且折扣信息等能及时获知。

4丶将拓宽电子商务的发展方向，由规模化走向多元化。

5丶O2O模式打通了线上线下的信息和体验环节，让线下消费者避免了因信息不对称而遭受的“价格蒙蔽”，同时实现线上消费者“售前体验”。

采用线上销售和试用相结合的模式，首先在各大极客论坛开启试用活动，获得一部分流量，通过使用报告吸引目光，从而开启销售模式。

本产品由于有一定技术难度，对相关采集设备和处理设备的要求比较高，很难降低成本，所以主要面向公司、企事业单位等具有大型集会活动的人群作为售卖对象，比如华为、小米等的新产品发布会，可以显示出较为高的科技水平。从而影响发布会，让人们感觉这是一家具有较高技术水平和极客精神的公司，这样一来，对相关产品的售卖会起到好处。

本项目主要元素基于图像识别，应用OpenCV库，OpenMV模块以及计算机深度学习等相关领域中超前的技术。手势识别是计算机科学和语言技术中的一个主题，目的是通过数学算法来识别人类手势。手势可以源自任何身体运动或状态，但通常源自面部或手。本领域中的当前焦点包括来自面部和手势识别的情感识别。用户可以使用简单的手势来控制或与设备交互，而无需接触他们。姿势，步态和人类行为的识别也是手势识别技术的主题。手势识别可以被视为计算机理解人体语言的方式，从而在机器和人之间搭建比原始文本用户界面或甚至GUI（图形用户界面）更丰富的桥梁。手势识别使人们能够与机器（HMI）进行通信，并且无需任何机械设备即可自然交互。使用手势识别的概念，可以将手指指向计算机屏幕，使得光标将相应地移动。这可能使常规输入设备（如鼠标，键盘甚至触摸屏）变得冗余。通过手势控制演讲相关输出设备，省去了传统手持设备的麻烦，同时提升了感觉，让与会者感觉眼前一亮，从而使与会者的注意力更加集中。

二维手型识别，也可称为静态二维手势识别，识别的是手势中最简单的一类。这种技术在获取二维信息输入之后，可以识别几个静态的手势，比如握拳或者五指张开。其代表公司是一年前被Google收购的Flutter。在使用了他家的软件之后，用户可以用几个手型来控制播放器。用户将手掌举起来放到摄像头前，视频就开始播放了；再把手掌放到摄像头前，视频又暂停了。

“静态”是这种二维手势识别技术的重要特征，这种技术只能识别手势的“状态”，而不能感知手势的“持续变化”。举个例子来说，如果将这种技术用在猜拳上的话，它可以识别出石头、剪刀和布的手势状态。但是对除此之外的手势，它就一无所知了。所以这种技术说到底是一种模式匹配技术，通过计算机视觉算法分析图像，和预设的图像模式进行比对，从而理解这种手势的含义。

这种技术的不足之处显而易见：只可以识别预设好的状态，拓展性差，控制感很弱，用户只能实现最基础的人机交互功能。但是它是识别复杂手势的第一步，而且我们的确可以通过手势和计算机互动了，还是很酷的不是么？想象一下你忙着吃饭，只要凭空做个手势，计算机就可以切换到下一个视频，比使用鼠标来控制可是方便多了！

二维手势识别

二维手势识别，比起二维手型识别来说稍难一些，但仍然基本不含深度信息，停留在二维的层面上。这种技术不仅可以识别手型，还可以识别一些简单的二维手势动作，比如对着摄像头挥挥手。其代表公司是来自以色列的PointGrab，EyeSight和ExtremeReality。

二维手势识别拥有了动态的特征，可以追踪手势的运动，进而识别将手势和手部运动结合在一起的复杂动作。这样一来，我们就把手势识别的范围真正拓展到二维平面了。我们不仅可以通过手势来控制计算机播放/暂停，我们还可以实现前进/后退/向上翻页/向下滚动这些需求二维坐标变更信息的复杂操作了。

这种技术虽然在硬件要求上和二维手型识别并无区别，但是得益于更加先进的计算机视觉算法，可以获得更加丰富的人机交互内容。在使用体验上也提高了一个档次，从纯粹的状态控制，变成了比较丰富的平面控制。这种技术已经被集成到了电视里，但是目前还是以噱头为主，还不能成为电视的主要常用控制方式。

三维手势识别

接下来我们要谈的就是当今手势识别领域的重头戏——三维手势识别。三维手势识别需要的输入是包含有深度的信息，可以识别各种手型、手势和动作。相比于前两种二维手势识别技术，三维手势识别不能再只使用单个普通摄像头，因为单个普通摄像头无法提供深度信息。要得到深度信息需要特别的硬件，目前世界上主要有3种硬件实现方式。加上新的先进的计算机视觉软件算法就可以实现三维手势识别了。下面就让小编为大家一一道来三维手势识别的三维成像硬件原理。

1结构光（Structure Light）

结构光的代表应用产品就是PrimeSense公司为大名鼎鼎的微软家XBOX 360所做的Kinect一代了。

这种技术的基本原理是，加载一个激光投射器，在激光投射器外面放一个刻有特定图样的光栅，激光通过光栅进行投射成像时会发生折射，从而使得激光最终在物体表面上的落点产生位移。当物体距离激光投射器比较近的时候，折射而产生的位移就较小；当物体距离较远时，折射而产生的位移也就会相应的变大。这时使用一个摄像头来检测采集投射到物体表面上的图样，通过图样的位移变化，就能用算法计算出物体的位置和深度信息，进而复原整个三维空间。

以Kinect一代的结构光技术来说，因为依赖于激光折射后产生的落点位移，所以在太近的距离上，折射导致的位移尚不明显，使用该技术就不能太精确的计算出深度信息，所以1米到4米是其最佳应用范围。

2光飞时间（Time of Flight）

光飞时间是SoftKinetic公司所采用的技术，该公司为业界巨鳄Intel提供带手势识别功能的三维摄像头。同时，这一硬件技术也是微软新一代Kinect所使用的。

这种技术的基本原理是加载一个发光元件，发光元件发出的光子在碰到物体表面后会反射回来。使用一个特别的CMOS传感器来捕捉这些由发光元件发出、又从物体表面反射回来的光子，就能得到光子的飞行时间。根据光子飞行时间进而可以推算出光子飞行的距离，也就得到了物体的深度信息。

就计算上而言，光飞时间是三维手势识别中最简单的，不需要任何计算机视觉方面的计算。

3多角成像（Multi-camera）

多角成像这一技术的代表产品是Leap Motion公司的同名产品和Usens公司的Fingo。

这种技术的基本原理是使用两个或者两个以上的摄像头同时摄取图像，就好像是人类用双眼、昆虫用多目复眼来观察世界，通过比对这些不同摄像头在同一时刻获得的图像的差别，使用算法来计算深度信息，从而多角三维成像。

在这里我们以两个摄像头成像来简单解释一下：

双摄像头测距是根据几何原理来计算深度信息的。使用两台摄像机对当前环境进行拍摄，得到两幅针对同一环境的不同视角照片，实际上就是模拟了人眼工作的原理。因为两台摄像机的各项参数以及它们之间相对位置的关系是已知的，只要找出相同物体（枫叶）在不同画面中的位置，我们就能通过算法计算出这个物体（枫叶）距离摄像头的深度了。

多角成像是三维手势识别技术中硬件要求最低，但同时是最难实现的。多角成像不需要任何额外的特殊设备，完全依赖于计算机视觉算法来匹配两张图片里的相同目标。相比于结构光或者光飞时间这两种技术成本高、功耗大的缺点，多角成像能提供“价廉物美”的三维手势识别效果。

手势识别作为人机交互的重要组成部分，其研究发展影响着人机交互的自然性和灵活性。目前大多数研究者均将注意力集中在手势的最终识别方面，通常会将手势背景简化，并在单一背景下利用所研究的算法将手势进行分割，然后采用常用的识别方法将手势表达的含义通过系统分析出来但在现实应用中，手势通常处于复杂的环境下，例如: 光线过亮或过暗有较多手势存在手势距采集设备距离不同等各种复杂背景因素。这些方面的难题目前尚未得到解决，且将来也难以解决因此需要研究人员就目前所预想到的难题在特定环境下加以解决，进而通过多种方法的结合来实现适于不同复杂环境下的手势识别，由此对手势识别研究及未来人性化的人机交互做出贡献。当然，现在用光学做手势识别依然有很多固有的缺陷没解决，遮挡、高运算负荷还有左右手混淆等等，也许这些问题的存在，正是三大头显在第一代消费者版中都选择了手柄作为主交互方式。相比而言，手柄的稳定性要好太多了，虽然不那么灵活多用。在虚拟现实各方面都不太成熟的情况下，初次面向大众还是走稳妥路线更合理。

当下的手势识别已经能基本完成鼠标的功能，可能在精确度和稳定性上还有很多进步的空间，但是光学方案固有的缺陷是无法规避的。一个可能的解决办法是类似手套的方案，既能发挥手势识别自然灵活的优势，又能发挥手柄的触觉反馈和稳定性的特点。佩戴麻烦？我觉得三年内VR体验的惊奇度是足以让大家克服麻烦的。

除了鼠标之外，键盘的功能如何解决呢？现在VR里的内容主要还是游戏电影，需要大量文字输入的场景还不多，随着VR社交的发展，我们会需要输入大量文字么？在VR里编程和工作呢？这个问题我没想清楚，小石头的看法是，VR里的内容应该是有沉浸感的，而在VR里大量输入文字是没有沉浸感的。VR社交不应该是想现在的微信发大段文字和表情，编程和工作也是如此。否则，为什么要在VR环境里去社交和工作呢？直接用手机电脑不是挺好么？

我觉得有道理。如果我们想弄清未来的交互具体是怎样的，就需要知道未来的内容是怎样的，因为交互是依托于内容而存在的。未来的内容是怎样的呢？我们都不知道，但是有一点可以确定，那就是在VR最初的十年里会越来越拟真，“创造一个趋近现实的世界”，在这个方向上，手势交互是非常有优势的。现阶段能够把手势识别做到足够好的公司，也是非常有价值的。