有人预言,RISC-V或将是继Intel和Arm之后的第三大主流处理器体系。欢迎访问全球首家只专注于RISC-V单片机行业应用的中文网站
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本帖最后由 小飞飞 于 2020-8-10 16:50 编辑
近年来,产生、处理及进一步利用数据以取得更多价值与资讯的方式已大不相同,而这都是受到深度学习与神经网路应用等新型运算模型崛起所影响。这些深远的影响都始于数据中心,透过深度学习技术从大量数据中洞察出其价值,主要包括影像的分类与辨识、促成自然语言或语言处理功能,甚至用于理解、生成及学习如何进行复杂的策略游戏。
这个变化也带动了专为解决此类问题,且更具能源效率运算装置的(以通用型绘图处理器(GP-GPU)及现场可程式闸阵列(FPGA)为基础)发展,甚至包含完全客制特殊应用积体电路(ASIC),能够进一步加快并且提升这类深度学习系统的运算能力。
大数据与快数据
大数据(Big Data)应用是使用特殊的GP-GPU、FPGA与ASIC处理器,搭配深度学习技术作分析,从中找出趋势、固定模式及关联性,借此提供影像辨识、语音辨识或其他功能。
大数据的应用多建立于「过去的数据」或「储存于云端的数据」,因此经常能形成「训练有素」的神经网路,尤其适合执行特定作业,例如辨识并标注影像或视讯中所有的脸孔,甚至是语音辨识也是代表性案例。
此类作业亦非常适合让配有专用引擎(或推论引擎)及快数据应用的边缘装置来执行(图1)。
透过处理、分析终端所撷取的数据,快数据可引用大数据的演算法提供即时决策及结果。毕竟大数据所提供的洞察价值之一,是从「已发生的事」来推断「未来可能会发生的事」(预测性分析);
而快数据则是提供即时行动,借此改善商业决策、营运,并减少效率不彰情况。
这些方法亦可适用于各种边缘及储存装置,像是摄影机、智慧型手机与固态硬碟(SSD)。
图1 大数据、快数据与RISC-V商机
RISC-V为数据运算新利器,新型工作负载量可分为两种情境:
1.以特定工作负载「训练」大型神经网路,例如影像或语音辨识。 2.将已「训练」或「量身打造」的神经网路应用在边缘装置上。
两者的工作负载量都需要大量包含大矩阵乘法与卷积(Convolution)层的平行数据处理与运算,为使这些运算功能达到最佳配置,须有能运作大规模向量或数据阵列的向量指令。
RISC-V正是适合此类应用的架构与生态系统,而其以开放原始码软件所设定的标准化运算处理,可让开发人员自由采用、修改,甚至增加专用的向量指令。
图1概述RISC-V运算架构可应用的情境及范例。
优化数据移动方式/时间为运算处理首要任务
快数据与终端运算的崛起,亦代表将所有数据来回传输至云端进行分析已不是最有效率的方案。首先,相对大量的数据在行动网路及乙太网路之间长距离传送所造成的延迟,对于必须即时作业处理的影像或语音辨识应用而言并非最佳作法。
其次,终端运算才是真正能扩充架构价值之所在,尤其在执行影像及语音处理,或利用固态硬碟进行运算时。如此一来,在每次新增边缘装置时,即可增加整体架构的运算性能。因此,如何优化数据移动的方式和时间,才是新架构可扩充性的关键因素与考量。
图1a中,云端数据中心伺服器利用大数据资料来进行深度学习神经网路的「训练」与「学习」。
图1b中,位于终端的监控摄影机,配备了能引用大数据演算法的推理引擎,可即时辨识影像(快数据)。图1c中,智慧型固态硬碟装置使用推理引擎进行数据辨识及分类,有效利用装置的频宽。正如图1所列出RISC-V核心的潜在应用,使用者可以自由新增专用及未来标准化的向量指令,对于往后处理深度学习与推论技术都极为重要。
另一个类似且重要的趋势,是数据如何在大数据与云端内部进行移动与存取。
传统的运算架构皆利用附加在多种装置的汇流排(Bus)搭载资料传输(例如专用机器学习加速器、显示卡、快速SSD,以及智慧联网控制器等)。
此类型汇流排,特别是CPU及主要持久型记忆体(Persistent Memory)之间皆因频宽速度限制,导致设备本身的效能并未能被完善使用。
此外,此类型运算装置的记忆体不但不能互相分享,也无法与CPU共用,同时造成了设备资源的浪费。
目前产业已有几大重要新兴趋势,针对如何改善不同运算装置之间的数据移动(例如CPU、运算及网路加速器),以及如何存取在记忆体或快速储存装置里面的数据。
这些新的趋势都着重在开放式标准,以提供更快、更低延迟的串行连接架构,以及更聪明的逻辑协定,让共享记忆体具有连贯的存取路径。
RISC-V为优化数据移动关键技术
未来的架构必须针对持久型记忆体以及具备连贯性快取的快速汇流排(例如TileLink、RapidIO、OpenCAPI和Gen-Z),透过连结运算加速器,提升效能持续性,同时使所有装置共享记忆体,减少不必要的数据移动。
传统的运算架构因在高速记忆体与运算系统应用频宽受限的汇流排,导致效能随之受限。
未来的运算架构则采用开放式介面,能为平台所有运算资源提供统一且具有连贯性快取的存取途径(称为以数据为中心的架构),且部署的装置能利用同一个共享记忆体,减少不必要的数据复制。
非核心(Uncore)CPU与网路介面控制器将会逐渐成为移动数据的关键推动元件。未来非核心CPU元件不但必须能够支援关键记忆体及持久型记忆体介面(例如NVDIMM-P),也须覆盖内建于CPU的记忆体。
除此之外,适用于运算加速器、智慧联网及远端持久型记忆体的智慧高速型式汇流排也都是不可或缺。
此外,汇流排上所有的装置(例如CPU、通用或专用型运算加速器、网路配接器、储存装置或记忆体)都可以加入自己的运算资源,但前提是必须能存取分享记忆体。
RISC-V技术可视为优化数据移动的关键推动因素,因其可于所有运算加速器装置上建置新机器学习工作负载量的向量指令,并提供开放原始码CPU技术;
不但支援开放式记忆体与智慧汇流排介面,也能建置以数据为中心、内含连贯式分享记忆体的新型架构。 |