云彩店邀请码|半壳|优胜
稠密矩阵向量乘(Sparse Matrix-Vector Multiply, SMVM),形如Ab=x,在科学计划、消息检索、数据发掘等范围中都是要害的计划中心之一。稠密矩阵中非零元素的稠密性,使得在微处置器上实行该类演算时,生存缓存缺点和失误率高档题目,引导本能并不理念。固然不妨运用软硬件优化的本领,对稠密矩阵的构造和范围等举行安排,来革新演算本能。但功效仍不理念,这是因为遭到保存构造等硬件体制构造上面的规范。正文在领会接洽了“浮点稠密矩阵向量乘”演算在保守微处置器上实行本能不佳的因为后,提出了鉴于FPGA实行的符合稠密矩阵个性的新式体制构造安排。所有体例由软硬件共同处事,软硬件局部控制接受矩阵和向量的原始输出,将所沿用的CSR保存方法变换成硬件可处置的“训令字”方法,并将稠密矩阵行向量与源向量之间的内积演算以“计划工作”的情势调配给硬件浮点乘累加处置单位阵列上。硬件局部不妨并行处置那些“计划工作”,并经过处置单位里面的浮点演算元件实行乘累加操纵,实行向量之间的内积演算。正文从“资源占用”、“速率/表面积平稳”和“软硬件共同”三个上面举行评价,在体例级安排SMVM原形体例的体制构造;并对准稠密矩阵的个性,实行浮点乘累加处置单位的微体制构造安排及其里面的浮点演算元件。所有体例实行在Xilinx公司的Virtex-4 FX12器件上,浮点乘累加硬件处置单位不妨经过APU接口贯穿到FPGA片内的硬核PowerPC处置器上,实行“协处置器”的功效。运用Verilog谈话对浮点乘累加处置单位举行论理安排,本能可到达120MHz。结果,对全文举行归纳并提出了进一步要做的处事。
来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!
本文链接:http://87cpy.com/277202.html
本站部分内容来源网络如有侵权请联系删除