1. 研究目的与意义(文献综述包含参考文献)
{title}文 献 综 述1. 研究背景图像是对客观对象的一种表示,是人们最主要的信息来源。
随着科技的进步,技术的高速发展,人们获取图像的手段越来越多,然而,由于外界环境因素或获取图像设备本身原因,往往会导致采集的图像质量有所欠缺。
为了改善图像的质量,需要对图像进行相关的处理。
另外,有时候为了满足人们的需求或者提取图像的特征,也需要对图像进行特定的处理。
因此图像处理成为目前国内外研究的一个热点,被广泛应用在工程、工业、医学、安防、交通、军事等领域中。
随着需求的增加,获取图像的分辨率逐渐增高,从而需要处理的数据量越来越多。
然而,使用软件来进行图像处理的算法相对成熟,并且串行的处理结构很难在图像处理速度上有本质的提升,数据也需多次重复使用,耗时巨大。
如果考虑使用并行和流水线的算法结构,采用硬件方案来处理,会大大加速图像处理的过程。
近几年超大规模集成电路进入的高速发展时期,现场可编程门阵列(FPGA)应运而生,它属于一种半定制电路,解决了定制电路不够灵活的缺点,克服了原有电路的资源局限性的缺点。
FPGA 的技术和性能已经能有效的实现现有的图像处理算法,为提高图像处理速度提供了一种新的思路和解决方案。
2. 国内外研究概况基于硬件实现的图像处理系统,提高图像处理速度主要有两种方向,其一是改进图像处理算法从而减小运算量;其二是改变算法实现的方案。
由于相关图像处理算法的理论已相对成熟,且运算的复杂性也相对固定,所以提高图像处理速度一般会考虑改变算法实现的方案。
目前,针对于不通过的应用需求,主要有以下几种处理方案:(1)通用计算机通用计算机通常采用软件,通过编写高级语言(C,C ,JAVA 等)来完成图像处理。
图像处理的执行时间取决于 CPU 的主频和流水结构。
由于整个执行步骤是一个串行的处理过程,所以主频的提高或流水线的改进对于大量图像数据处理速度的提升并不显著。
这种方案适合于图形处理算法的验证或者是对实时性要求不高的场合。
(2)CPU并行处理采用多个 CPU 并行执行,即多核的方式。
当单个 CPU 不能达到图像的实时处理时,可以采取此方案。
目前,各国的学者在这个方向已经做出了大量的研究,并且提出了多种并行结构和编程语言,解决了单核串行工作的局限性,提高了图像处理的速度。
但该方案尚未成熟,制定标准较少,而且并行算法编程有一定的难度,所以该方案较少使用。
(3)专用集成电路专用集成电路(ASIC)是根据需求为特定用户或特定电子系统而研制的集成电路。
可以为某一固定的图像处理算法制定专门的硬件芯片,但是 ASIC 的设计周期长,成本高,设计成型投入生产后不能轻易改动。
所以 ASIC 灵活性较低,局限于有限的应用,作为研发平台的考虑,并不是一个理想的选择。
(4)数字信号处理器数字信号处理器(DSP),是一种为实现各种数字信号处理算法的,具有特殊架构的专用芯片。
DPS 有乘累加功能,但是 DPS 只能对固定的某些算法提供硬件优化,其本身仍是串行的指令系统,一般通过 C 语言进行编程。
DPS 适合于相对复杂的运算,对于图像处理这种数据量大且相对简单的运算并不适用。
(5)现场可编程门阵列现场可编程门阵列(FPGA)是一种半定制的集成电路,是目前应用最广泛的可编程逻辑器件,具有极强的灵活性。
利用 FPGA,如今高效性能的 CPU 都可以利用FPGA 去实现,FPGA 几乎可以完成任何数字器件的功能。
FPGA由于独特的架构,被广泛的应用与实时信号处理、图像处理领域,其并行性也为处理系统提供了巨大算力。
可以设计高效的、并行的、流水的逻辑结构,能够在很大程度上提高图像数据的处理速度,满足实时性的要求。
因此采用 FPGA 来完成图像处理加速器是一个理想的方案。
(6)深度学习处理单元由于利用FPGA器件设计深层神经网络需要耗费较大成本,导致实现复杂神经网络存在困难,因此采用FPGA上集成的处理单元来实现深层网络就成为新的合理选择。
赛灵思公司于2019年发布了深度学习处理单元(deep-learning processor,DPU) ,为FPGA部署深度神经网络提供了新的解决方案。
DPU是一个针对卷积神经网络优化过的计算单元,它采用流水线结构,内部集成了大量加法器、乘法器、非线性器等神经网络所需要的运算单元,可以支持和运行各种卷积神经网络,适用于深层网络的部署。
本次设计中所研究的图像处理器主要包括卷积运算、特征提取等功能,且这些图像处理算法都涉及到庞大的数据集群。
基于此,非常适合设计具有针对性的DPU,从而进一步部署内嵌专用DPU的FPGA图像处理系统。
参考文献:[1]凌元,韩文俊,孙健.基于HLS的矩阵求逆算法设计优化[J].电子技术与软件工程,2021(22):93-96[2]林振钰,张志杰,刘佳琪.基于ZYNQ的高清图像显示及检测系统设计[J].计算机测量与控制,2021,v.29;No.269(02):30-34[3]简毅,柳建,徐灵飞,赵杰.嵌入式边缘检测算法的HLS加速实现[J].电子设计工程,2020,28(22):132-135[4]宁效龙,何子力,张昕昱,徐景宏,刘文.基于Zynq与Qt的视频采集与图像边缘检测系统[J].信息技术与网络安全,2019,38(02)[5]王巍,周凯利,王伊昌,王广,杨正琳,袁军.卷积神经网络(CNN)算法的FPGA并行结构设计[J].微电子学与计算机,2019(04)[6]朱虎明,李佩,焦李成,杨淑媛,侯彪.深度神经网络并行化研究综述[J].计算机学报,2018(08)[7]蔡瑞初,钟椿荣,余洋,陈炳丰,卢冶,陈瑶.面向边缘应用的卷积神经网络量化与压缩方法[J].计算机应用,2018(09)[8]张壮.基于Vivado HLS图像预处理IP核设计[J].电子世界,2018,No.552(18):127-129[9]朱虎明,李佩,焦李成,杨淑媛,侯彪.深度神经网络并行化研究综述[J].计算机学报,2018(08)[10]卢冶,陈瑶,李涛,蔡瑞初,宫晓利.面向边缘计算的嵌入式FPGA卷积神经网络构建方法[J].计算机研究与发展,2018,55(03):551-562[11]周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,v.40;No.414(06)[12]Jinlong Wu,Xiaolong Yin,Heng Xiao.Seeing permeability from images: fast prediction with convolutional neural networks [J]. Science Bulletin.2018(18)[13]Shi Jianping,Yan Qiong,Xu Li,Jia Jiaya.Hierarchical Image Saliency Detection on Extended CSSD. [J].IEEE transactions on pattern analysis and machine intelligence.2016 (4)[14]Sharafeddin,Mazen A.R. Saghir,Haitham Akkary,Hassan Artail,Hazem Hajj.On the effectiveness of accelerating MapReduce functions using the Xilinx Vivado HLS tool[J].Int.J. of High Performance Systems Architecture.2016 (1)[15]Sateesh Kumar H.C,Sayantam Sarkar,Satish S Bhairannawar,Raja K.B,Venugopal K.R.FPGA Implementation of Moving Object and Face Detection Using Adaptive Threshold[J]. International Journal of VLSI Design 卷积量化模块调用神经网络模型对接收到的图像进行识别,然后将识别结果返回PS端,最后通过串口或以太网将结果输出到主机。
图1 系统总体设计框架在设计的一次运算过程中,应包含以下几个步骤:首先,由设计好的卷积量化模块对输入的高维数据和权重进行量化操作;然后对PL端上的各个模块配置寄存器设置,通过中断控制完成一次卷积、池化、全连接的全部运算;最后,由DMA将运算得出的结果写入DDR。
由于计算量主要集中在特征提取和卷积计算两大部分,在本设计中,计划依托PL端对以上两部分实现硬件、软件协同加速。
硬件方面,设计的卷积量化加速模块和特征提取模块完成加速功能,将多个通道的数据进行分块,每一块内的通道同时进行运算,最后将结果累加在一起。
软件方面,在FPGA编程中采用HLS高级程序设计语言进行细节优化设计,对数组核循环添加优化指令进行优化。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。