一种基于FPGA硬件求解函数的简化方法

来源：http://www.elecfans.com/emb/fpga/20171117580997.html 发布时间：2017-11-20

摘要： 本文研究了一种运用FPGA进行数据处理的方法，包括：提取输入数据的高log2M个比特位的数据，作为高有效位，根据预先设置的目标函数的计算表格，查找所述高有效位对应的目标函数值y(n)以及高有效位+1对应的目标函数值y(n+1)。

本文研究了一种运用FPGA进行数据处理的方法，包括：提取输入数据的高log2M个比特位的数据，作为高有效位，根据预先设置的目标函数的计算表格，查找所述高有效位对应的目标函数值y(n)以及高有效位+1对应的目标函数值y(n+1)。

提取输入数据的剩余比特位数据，作为低有效位，并将所述低有效位与y(n)和y(n+1)的差值相乘，得到偏移值off(n)，将该偏移值与所述高有效位对应的目标函数值y(n)相加，将计算结果作为所述输入数据对应的目标函数值。本方法具有控制简单、结构规则、单运算周期、计算精度较高的特点，适合于FPGA的数据处理实现。

现场可编程门阵列（FPGA）芯片在许多领域均有广泛的应用，尤其是在无线通信领域。FPGA具有极强的实时性和并行处理能力，这使其对信号进行实时处理成为可能。FPGA内部一般都包含逻辑单元（查找表/触发器）、存储单元（BRAM）、乘加单元（MAC）和一些其他的时钟、引脚单元等。

现代数字信号处理的主要发展趋势是：算法结构日趋复杂，计算量大，实时性要求高，并且包含大量的三角函数、开方、对数等复杂函数的计算。但FPGA内部的乘加单元并不适合直接进行此类函数的计算，需要把各种复杂函数分解为简单的移位、加法和乘法结构，进而在FPGA中实现。

当前，在FPGA上实现三角函数、开方、对数等复杂函数的计算，技术领域最常见的是除法，其次为开方和三角函数，很少涉及对数和其他复杂一些的函数。而在FPGA具体的实现上，此类函数一般采用直接查表法或幂级数展开法，对于三角函数和开方的计算，也会采用CORDIC的计算方法，但这三种方法的应用都有一定的局限性。

一种基于FPGA硬件求解函数的简化方法-IC交易网

1 现有的FPGA实现方法
（1）在FPGA上采用直接查表方法，来实现函数的计算，具有：
优点——通用性强、结构简单；
缺点——随着输入位宽的增加，内部存储量的消耗呈指数性增长。
表1给出了不同输入输出位宽所需要的存储单元（BRAM）。

不同输入输出位宽所需要的存储单元-IC交易网

表1 不同输入输出位宽所需要的存储单元

可以看出，输入输出位宽较小时，直接查表法可以满足实现要求，但在数字信号处理领域，输入输出一般都在16bits以上，这时采用直接查表法就很难满足实现需求。

这里以开方算法为例进行说明。采用直接查表法进行开方计算有2种方式。

方式一：在完全保证精度的条件下，采用直接查表法。若开方为16bits输入16bits输出，在完全保证精度的条件下，FPGA就需要存储216深度的数据，需要64块18k BRAM的存储空间。而一片中等FPGA一般包含几十块到几百块的18k BRAM存储单元，此时计算就要用掉大部分的存储单元，显然不满足实现的资源需求。

方式二：降低精度，减少输入位宽，采用直接查表法。

直接查表法开方误差表-IC交易网

表2 直接查表法开方误差表

可以看出，随着实际有效输入的增加，计算精度变大，很难满足计算的误差要求。

（2）在FPGA上采用幂级数展开法计算函数。
优点——计算精度可控，多级展开可以达到较高的计算精度；
缺点——幂级数展开法为了达到较高的精度，需要多级展开，这样就需要采用较多的资源来实现。
以exp为例（0～π/4范围内），采用三角函数幂级数展开法：

三角函数幂级数展开法-IC交易网

若输入为16bits，采用幂级数展开法的计算框图如图1。
从资源方面考虑，三角函数幂级数展开法在FPGA中的实现需要5级乘法和3级加法，考虑每级乘法位宽需要扩展，实际需要FPGA的12个乘法器
（18bits&TImes;18bits）资源。此外从误差方面考虑，0～π/4范围内，cosΦ的最大误差为0.046%， sinΦ的最大误差为0.35%。

幂级数展开法实现exp计算-IC交易网

图 1 幂级数展开法实现exp计算

此外幂级数展开法的应用范围也比较有限，开方、倒数、对数、三角函数的计算可以采用幂级数展开法，但对于等较复杂的函数计算就不再适合用此方法进行计算。

（3）在FPGA上采用CORDIC法来实现函数的计算。
优点：将复杂的运算分解为简单移位、加迭代
运算，结构规则，运算周期可以预测，比较适合于FPGA实现；
缺点：一般使用多周期方式，单周期方式资源消耗较高，并且计算仅限于向量旋转、开方等有限的范围。
采用CORCIC计算三角函数，16bits输入，在多周期条件下需要500个左右的LUT/FFs，在单周期条件下，需要1000个左右的LUT/FFs。

2 本文提出的方法
本文在FPGA上采用两级方法进行函数计算：第一级，直接利用输入数据的高有效位确定计算结果的有效范围；第二级，直接利用输入数据的低有效位进行计算结果的误差调整。本研究方法充分利用FPGA内部的各种逻辑资源、乘加器（或乘法器）资源和BRAM资源：可以根据FPGA内部BRAM资源的大小采用相应深度的数据表存储第一级数据的有效范围；采用FPGA内部的乘加器（或乘法器）资源进行乘加操作。此方法具有控制简单，结构规则，单运算周期，计算精度较高的特点，适合于FPGA的算法实现。

此外，采用本研究方法的两级计算的方法，不同函数的计算实现方法一致，只要修改第一级计算高有效位数据表格中的数据，就可以复用设计，有利于资源共享和模块化实现。

FPGA两级法进行函数的计算-IC交易网

图2 FPGA两级法进行函数的计算

同现有方案的比较分析：
（1）同直接查表法比较
以开方为例进行，资源和误差的列表如表3。可以看出，在资源和误差方面，本研究方法在FPGA上实现函数计算优势明显。此外，FPGA可以通过增加存储单元和扩展输出位宽来进一步提高计算精度。

两级计算法开方同直接查表法误差比较表-IC交易网

表3 两级计算法开方同直接查表法误差比较表

（2）同幂级数展开法的比较
首先，本问题出的新方法比幂级数展开法的应用范围更广泛。其次，在同样的函数下，以exp的计算为例，本文提出的新方法资源更好，误差更小。在资源方面，FPGA上采用的两级计算方法，同时计算只需要2个乘法器即可，远远少于幂级数展开法的资源消耗；在误差方面，0～π/4范围内，16bits输入，cosΦ和sinΦ的最大误差都小于10-5，因此此方法误差比幂级数展开法误差要小。

（3）同CORDIC方法比较
首先，本文提出的新方法比幂级数展开法的应用范围更广泛。其次，在同样的函数下，以exp的计算为例，新方法资源消耗相对较少，cosΦ和sinΦ同时计算只需要300个左右的LUT/FFs即可。而且，新方法采用的是单运算周期模式，运算速度更高。

了解更多相关设计技术信息，请点击华强旗舰电子圈（http://www.hqbuy.com/dzq/dzqsy.html）！

声明：本文观点仅代表作者本人，不代表华强商城的观点和立场。如有侵权或者其他问题，请联系本站修改或删除。

上一篇：基于FPGA的图像采集与存储系统设计

下一篇：FAST：基于FPGA的SDN交换机开源项目

社群二维码

关注“华强商城“微信公众号

华强商城公众号

华强商城M站

芯八哥公众号

华强微电子公众号

华强电子网公众号

一种基于FPGA硬件求解函数的简化方法