1. 研究目的与意义(文献综述包含参考文献)
{title}1.研究背景和意义 手语是聋哑人以手势代替有声语言进行交流的方法。
根据卫生部公布的最新统计资 料表明,中国有聋人 2057 万,约占全国人口总数的 1.67%。
由于生理因素的限制,聋 人很难开口讲话,手语是多数聋人的母语,是聋人表达思想情感、获得信息、参与社会 生活的主要工具。
而我国从事手语翻译的人员相当匮乏,远远不能满足市场需求。
[1]日 常生活中的交流对聋哑人群体是一个巨大的挑战。
在现实生活中,会出现这样的问题[2]:正常人很少学习哑语,所以无法和聋哑人进 行正常的交流,聋哑人只能局限在小范围的圈子里。
为了帮助聋哑人更好地融入社会生 活中,研究者开始探索哑语手势识别问题。
目前计算机技术、图像处理技术及模式识别 技术的成熟应用[3],手势识别技术也应运而生,可以应用于哑语教学、哑语翻译等方面。
目前,对于大多数非手语使用者来说,手语是很难理解的,这导致了聋哑人更加孤 立,他们不能更好地参与社会活动。
[4,5]手语在聋哑人社区以及聋哑人与非聋哑人之间的 交流中起着非常重要的作用。
因此,手势识别在手语翻译、手语教师、手语教育等领域 有着巨大的应用潜力,手势识别算法的研究对聋哑人在生活和实际应用中起着至关重要 的作用。
可以消除聋哑人与正常人的交流障碍,使聋哑人更好地参与社会活动。
手势识 别的目的是将手语通过算法程序翻译成文本或将其翻译成口语。
此外,手势识别在人机 交互系统、图像检索等领域同样具有巨大的应用潜力。
2.基于视频手势识别国内外研究现状 基于视觉的手势识别研宄一般分为检测、追踪和识别三个部分。
具体是首先通过摄 像机捕捉手部的图像信息,然后对这些图像信息进行手势分割和特征提取处理,最后使 用识别算法对处理后的手势信息进行识别。
在国外,美国麻省理工学院的 T.Stamer 在 1995 年提出了一种使用隐马尔可夫模型 从视频中实时进行美国手语识别的方法。
[6]该方法无需手指即可实现 99.2%的单词准确度。
韩国微软的铉圭利和金俊华利用 HMM 的阈值模型方法对手势识别进行了研究,[7] 该方法能够从一段连续的手势动作中识别出相应的手势,识别率达到了 93.14%。
2009 年,德国 Mahmoud Elmezain 等人提出了一种基于隐马尔可夫模型的自动系统[8],最终 对数字0-9的识别率达到了 95.87%。
文献[9]介绍了 Plouffe 等人提出的一种使用动态 时间规整(DTW)的深度数据中的静态和动态手势识别,该方法对 55 个手势动作的平 均识别率达到 92.4%。
2018 年,Rao 等人提出使用人工智能工具卷积神经网络(CNN) 来识别印度手语手势[10]识别率达到了 92.88%。
在国内,手势识别技术明显落后于国外。
2000 年,朱元新等人提出了一种时空外观 模型和新颖的方法分别对动态手势进行建模和分析,该方法实现了实时处理以及高识别 率,可以识别 12 种手势,平均准确率超过 89%[11]。
袁瑶等人在 2014 年提出了一种手 部轮廓模型来简化手势匹配过程,从而降低手势匹配的计算复杂度,该框架允许在 3-D 空间中跟踪手势,并使用简单的轮廓模型匹配手势,从而支持复杂的实时交互[12].2009 年,范宝[13]等人提出了一种新的鲁棒算法来获取手部区域,并通过使用肤色进行手势跟 踪和识别,最后使用伪二维隐藏马尔可夫模型算法进行手势识别,识别率达到了 96%。
朱光明等人在 2017 年提出了一种基于 3-D 卷积和卷积长短时记忆(LSTM)网络的多模 式手势识别方法[14],并在 IsoGD 和 SKIG 手势数据集上验证了该方法,结果表明在 IsoGD 验证集上为 51.02%,在 SKIG 上为 98.89%。
3. 静态手势识别算法描述 3.1 支持向量机(SVM): 支持向量机(Support Vector Machine,SVM)是 1992 年到 1995 年间提出的一种以 概率统计理论为基础的机器学习算法,是一种基于结构风险最小化的模式识别方法,在 解决小样本和非线性的模式识别问题方面具有许多独特的优势,在模式识别领域有着广 泛的应用。
静态手势识别问题属于小样本和非线性分类问题,因此我们在众多的机器学 习算法中选择具有优异分类性能的 SVM 作为手势的分类器。
此外,SVM 在分类类别 数较少的问题中运算速度快,适合静态手势的识别。
3.2 卷积神经网络(CNN): 人手具有 27 个自由度[15],是人体最灵活的部位之一,人们可以很容易地做出形态 各异的手势,这导致手势识别具有复杂性和多样性。
此外,由于每个人的手型不太一致,行为习惯也不一样,导致不同人做同一手势的表观不尽相同,甚至同一个人在不同时间 所做的同一手势也会有所不同,这给手势识别增加了不少难度。
在传统的手势识别算法 中,需要人工设计手势特征来描述手势形状,选择用于描述手势的特征在一定程度上影 响着手势识别的效果,然而上述情况使得我们很难找到真正适用于描述手势形状的特 征。
卷积神经网络(CNN)是深度学习的代表算法之一,主要包括卷积层、池化层和全连 接层等等,层与层之间根据一定的规则来计算。
CNN 具有三个关键特性:权值共享、 局部感知和下采样,权值共享能够大幅度减少网络参数,提高训练速度;局部感知能够 检测到图像局部的细节特征,比如物体边缘、角点等特征;下采样能降低特征的分辨率, 提高 CNN 模型的鲁棒性。
CNN 通过使用卷积操作来实现图像区域特征的提取,与传 统图像特征提取的区别在于,使用多层网络的卷积自动提取输入图像的高维特征,而不 需要人工设计特征。
通过不断地迭代训练 CNN,我们可以获取较好的表征图像的特征。
为了提高 CNN 进行静态手势识别的效率,可在排除复杂背景干扰的情况下将手 势分割后的二值图像作为 CNN 分类器的输入样本,实现图像中静态手势特征的自动提 取及静态手势的分类识别。
由于分割后的手势图像前景突出,减少了神经网络识别的计 算量,可以直接作为 CNN 分类器的输入样本进行分类识别。
4. 动态手势识别算法描述 4.1 3D 卷积神经网络 对于动态手势识别来说,动态手势特征分布于两个维度:图像的空间维度及时间维度, 即我们需要捕捉输入的视频图像序列中手势在时空域的特征信息。
若采用 2D 卷积对视 频图像序列进行处理,容易丢失手势在时序上的信息,因此将 2D 卷积扩展为 3D 卷 积,采用 3D 卷积神经网络(3D CNN)来进行动态手势特征提取。
3D 卷积的卷积核 是三维的,由蓝黑红色表示,对输入的第 1、2、3 帧图像卷积,输出第一个卷积特征 图,对第 2、3、4 帧图像共享 3D 卷积核,输出第二个卷积特征图,并以此类推完成 3D 卷积操作,3D 卷积处理视频图像序列得到的特征也是三维的,该特征既包含图像空间 上的信息,也包含时间上下文信息。
3D 卷积具体表示为式(4-1): (4-1)其中,v 表示输入的视频图像序列,w 为 3D 卷积核,b 为偏置项,f 为激活函数。
对输入的手势图像序列使用多个不同的 3D 卷积核经过多层 3D 卷积操作,可以得到 多个三维特征,经组合得到的三维特征可以表示完整的动态手势。
4.2 卷积 LSTM 网络 循环神经网络(RNN)也叫时序神经网络,是一种用于处理包含时间序列数据的神 经网络。
与一般神经网络相比(如 DNN),RNN 能够对时间序列上有变化的数据进行 处理。
由于存在梯度消失/梯度爆炸的问题,传统 RNN 无法从时间序列数据中学习到 长期依赖关系。
长短期记忆(Long short-term memory, LSTM)是在传统 RNN 的基础 上加入了记忆单元来存储信息,解决了长序列训练过程中的梯度消失和梯度爆炸问题, 因此 LSTM 在更长序列中的表现比 RNN 更好。
传统 LSTM 不考虑空间相关性,卷积 LSTM(ConvLSTM)集合了 CNN 的图像空间特征提取能力和 LSTM 的时序学习能 力,在传统 LSTM 的输入-状态和状态-状态转换中采用卷积结构,可以很好地模拟时 空关系,在对视频图像序列的处理中能够更好地捕捉目标的长距离运动信息。
因此,本 文在使用 3D 卷积提取视频图像序列的短时空特征的基础上,利用 ConvLSTM 捕捉动 态手势的长时空运动信息。
ConvLSTM 网络的计算公式如下(4-2)、(4-3)、(4-4)、(4-5)、(4-6): 其中,输入表示为 X1,X2,...,Xt,记忆单元状态表示为 C1,C2,...,Ct,隐藏状态表示 H1,H2,...,Ht, σ表示 sigmoid 激活函数,Wx~和 Wh~均为 2D 卷积核*表示卷积运算,表示 Hadamard 乘积。
输入门、遗忘门和输出门状态分别表示为 it、ft、ot,均为 3 维张量, 最后两个维度是空间维度(行和列)。
我们可以将公式中的输入、记忆单元状态、隐藏 状态想象为在空间网格上的向量,ConvLSTM 通过邻域的输入和过去的状态来确定网 格中某个单元格的未来状态。
如果将状态视为运动对象的隐藏表示,那么采取较大的过 渡核时 ConvLSTM 可以捕获较快的运动,采取较小的过渡核时 ConvLSTM 可以捕获 较慢的运动。
如果状态与输入的维度不对应,将无法应用卷积操作,因此应当先进行填充确保两 者行列数相同。
通常在第一个输入到来之前,将 ConvLSTM 的所有状态初始化为零, 通过对状态执行零填充表示了对外部世界不具有先验知识。
4.3 双流卷积神经网络 Simonyan[16]等人通过模仿人体视觉的过程,提出了双流卷积神经网络模型,双流网 络模型将行为识别的任务分为空间流网络和时间流网络两个支流,其中空间流网络输入 的是 RGB 图像,提取包含视频环境和物体的空间信息特征,时间流网络输入的是光流 图像,提取有关人体运动信息的特征,这 2 个支流网络联合训练,最后将两个支流的 输出结果进行融合,得到识别结果。
双流网络模型将两个网络分开进行训练,空间流网络输入单帧 RGB 图片,先在 ImageNet ILSVRC-2012 上进行了预训练,然后在视频数据集上进行微调,训练时是从 所有视频帧中随机选一帧,并进行相应的数据增强,如翻转、裁剪等处理方式,再随机 裁剪切成 224224 的大小,最后输入到网络中。
时间流网络处理的是 L 个连续帧的光流信息,由于光流是矢量,为了方便输入网 络训练,故将此向量分解为水平和垂直方向的两个分量,因此一帧 h*w*3 的彩色图片(彩 色图片通道数为 3),对应的光流特征图就是 h*w*2(光流图通道数为 2),总共是 L 个连续的帧,经过随机裁剪,输入的尺寸为 224*224*2L 。
在测试模型性能时,双流网络模型从给定的视频中等间隔采样 25 帧输入到网络中 进行测试,整个视频的类别得分可以通过平均采样视频的得分得到。
在双流网络模型中,视频在输入网络时需要先进行数据预处理,将视频片段分为 RGB 图和光流图,其中光流图是利用光流法生成的。
5.参考文献 [1].王继红. 国内外手语翻译研究: 历史与现状.上海翻译, 2009 (2): 23-28. [2].石雨鑫,邓洪敏,郭伟林.基于混合卷积神经网络的静态手势识别[J].计算机科学, 2019(B06):165-168. [3].缑新科,髙庆东.基于稀疏自编码器与梯度方向直方图的手势识别[J].计算机与数字工程,2019, 47(7):1792-1796. [4].王攀,官巍.基于 Kinect 手势识别的应用研究[J].计算机与数字工程,2018,46(8):1659-1663. [5].李国友,et al.基于 Kinect 的动态手势识别算法改进与实现[J].高技术通讯,2019(9):841-851. [6].T.Starner and A.Pentland.Real-time America Sign Language recognition from video using hidden Markov models[C].Proceedings of International Symposium on Computer Vision-ISCV,Coral Gables,FL,USA,1995:265-270. [7].Hyeon-Kyu Lee,Kim,J.H An HMM-Based Threshold Model Approach for Gesture Recognition[J].IEEETransactions on Pattern Analysis and Machine Intelligence, 1999,21(10):961-973. [8].Mahmoud Elmezain,Ayoub Al-Hamadi,Bernd Michaelis.Hand trajectory-based gesture spotting and recognition using HMM[C].IEEE International Conference on Image Processing.IEEE,2009. [9].Plouffe G,Gretu A M.Static and Dynamic Hand Gesture Recognition in Depth Data Using Dynamic Time Warping[J].IEEE Transactions on Instrumentation [end sktart 1]。
然后仅需在每段内选取距离函数最的帧作为该段 关键帧。
最后,为保证手势的完整性,添加手势起止帧作为关键帧。
若起始帧(结束桢)已经包含在关键帧中则选取该帧的邻近帧即后1帧(前1帧)。
取代该帧,并添加起止帧。
算法如下: 输入:动态手势的 22 个关节点 3D 坐标信息; 输出:该动态手势的A帧关键帧。
Step1.根据手势起止帧,删除手势无效帧:{Fstart,...,Fend}←{F1,...FN} Step2.补全手势桢:{Fstart,Fstart,Fstart 1,...,Fend}←{Fstart,Fstart 1,...,Fend} Step3.对每一帧的关节长度进行归一化,得到归一化后关节点位置信息: wij ←normalize(Wij),Wij∈Fj,i=0,1,...,21,start≤j≤end Step4.将动态手势按照 3-(2)式进行分段; Step5.根据 3-(1)式计算段内前后两帧距离; Step6.在每一视频段分别选取最大的 Lj作为各段关键帧 Fm1,Fm2,...,Fmk; Step7.加入手势起止帧,最终得到动态手势的关键帧为,Fstart,Fm1,Fm2,...,Fmk, Fend 3.3 手势特征识别和分类 3.3.1 手势特征融合 基于 Luvizon 等将特征进行融合的思路,可将特征进行联接融合为单个手势 的m维特征向量 Y=[y1,...,ym,]:在含有个样本的数据集中分别得到个手势特征 向量如下:Y=[yi,1,...,yi,m,],i=(1,2,...,N) 对特征向量中各维特征分别归一化如下: 从而得到个手势的归一化特征向量如下: 3.3.2 手势特征降维 对于 SVM 来说,样本特征向量维数过多,在动态手势关键帧中存在信息 冗余。
为了使变量相互独立并去除手势特征中的噪声,同时考虑到样本中存 在的类别标签,可采用监督降维方法中的 LDA 方法进行特征降维。
该方法降 维原理如下:同类数据应尽可能接近;不同类别的数据应尽量,即投影后类 内方差最小,类间方差最大。
在降维过程中,充分利用手势类别的先验知识。
将手势特征映射到一个低维空间中,该过程充分利,用了手势类别的信息, 使得不同类别手势间的特征方差最大,同一类别受时间的特征方差最小,方 便进行手势识别和分类。
3.3.3 基于带高斯核 SVM 的手势识别和分类 与其他机器学习分类方法相比,SVM 理论提供了一种避开高维空间的复 杂性并直接利用核函数向高维空间进行映射,再利用线性可分情况下的求解 方法直接求解对应的高维空间决策问题。
当核函数已知时可以简化高维空间 问题的求解难度。
同时 SVM 有很好的理论基础,不涉及概率测度,最终的决 策函数也只由少量的支持向量决定,计算复杂度取决于支持向量的数目,而 不是样本空间的维数,从而避免了维数灾难。
可采用带高斯核的 SVM 实现对动态手势的识别和分类。
该方法能够根据 有限样本信息找到特定训练样本的学习精度与学习能力之间的最佳折衷,在 解决小样本、非线性和高维识别方面具有优势
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。