RISC-V与DSA计算机架构

摘要:
RISC-V和DSA计算机体系结构相信所有研究过计算机体系结构的朋友都看过大卫·帕特森和约翰·亨尼西的杰出杰作《计算机体系结构:定量研究方法》。程序指令的数量由程序代码、编译器和ISA决定,CPI由ISA和微体系结构决定,时钟周期由微体系结构和半导体制造工艺决定。此外,RISC-V没有与微架构或实现模式相关的特性,因此具有通用性。现在RISC-V的小目标是成为适用于各种计算设备的工业标准ISA。

RISC-V与DSA计算机架构

相信所有和计算机体系结构打过交道的朋友们都看过David Patterson与John Hennessy的煌煌巨作,《计算机体系架构:量化研究方法》。两位在计算机架构领域鼎鼎大名的教授,一个来自加州大学伯克利分校,另一个来自斯坦福。

首先上场的是David Patterson,为我们带来了关于指令集架构(ISA)的回顾以及RISC-V项目的展望。

 RISC-V与DSA计算机架构第1张

 (Patterson教授在演讲中)

 RISC-V与DSA计算机架构第2张

 Patterson教授的演讲主题是50年来计算机体系架构(ISA为主)的回顾以及RISC-V架构。

 RISC-V与DSA计算机架构第3张

Patterson教授首先回顾了ISA的发展史。在计算机发展之初,ROM比起RAM来说更便宜而且更快,所以并不存在片上缓存(cache)这个东西。在那个时候,复杂指令集(CISC)是主流的指令集架构。然而,随着RAM技术的发展,RAM速度越来越快,成本越来越低,因此在处理器上集成指令缓存成为可能。RISC的出现可谓水到渠成。研究发现计算机执行大多数程序时CISC指令集中绝大多数指令都只在极少的时间才被用到,因此专门为这些指令设计硬件并不划算。相反,使用精简指令集(RISC)可以大大简化硬件的设计,从而使流水线设计变得简化,同时也让流水线可以运行更快。

 RISC-V与DSA计算机架构第4张

 Patterson教授再次重申了评估处理器性能的指标,即程序运行时间。程序运行时间由几个因素决定,即程序指令数,平均指令执行周期数(CPI)以及时钟周期。程序指令数由程序代码,编译器以及ISA决定,CPI由ISA以及微架构决定,时钟周期由微架构以及半导体制造工艺决定。对于RISC,程序指令数较多,但是CPI远好于CISC,因此RISC比CISC更快。

 RISC-V与DSA计算机架构第5张

除了CISC和RISC之外,另一种流行(过)的ISA是超长指令字(VLIW)。VLIW把多个操作放在一条指令里,因此需要一条指令中的多个操作能够并行执行。

 RISC-V与DSA计算机架构第6张

VLIW的代表是Intel Itanium(安腾),使用的架构代号是EPIC,开发的合作伙伴是惠普。安腾第一代Merced预期出货日期是1997年,实际出货时期为2001年;第二代McKinley使用180nm工艺,出货时间为2002年;第三代Poulson,也是最近的一代,8核心使用32nm工艺,2012年出货。

 RISC-V与DSA计算机架构第7张

然而,VLIW架构遇到了巨大的失败。VLIW的问题,包括分支预测困难,Cache miss无法解决,代码爆炸以及最关键的,编译器过于复杂以至于无法实现。斯坦福的Donald Knuth(计算机科学领域又一位传奇人物)表示,“安腾看上去很棒,但是编译器根本没法写!”

 RISC-V与DSA计算机架构第8张

目前处理器的ISA,已经30多年没有新的CISC ISA出现(Intel x86表面用的是CISC但是内部有硬件把CISC转换成RISC再真正执行)。VLIW在一些嵌入式DSP市场获得应用,但是在其他的市场都没有获得成功。考虑到处理器的数量,目前最主流的通用ISA还是RISC。

 RISC-V与DSA计算机架构第9张

回顾完ISA的历史,再来看看目前ISA的生态。这里把ISA和网络,操作系统,数据库,图像标准库作了比较,可以看到网络,操作系统,编译器等等领域都有主流的标准,基于该标准同时有开源免费的版本,以及商用的收费标准。然而,在ISA领域,之前并没有公认的标准,也没有开源免费的ISA,仅有商用的ISA,这让整个ISA领域的生态显得死气沉沉。

 RISC-V与DSA计算机架构第10张

 于是,RISC-V应运而生。要做开源的ISA,基于x86和ARM都几乎不可能,因为它们都太复杂,而且还存在IP的问题。在2010年夏天,Patterson教授带领团队开始从头开始设计一个干净的ISA。经历了很多年,经过多次流片验证,终于在2014年发布了最终版spec,就是RISC-V(V是第五代的意思)。

 RISC-V与DSA计算机架构第11张

 RISC-V作为一个开源ISA,首先要满足对ISA的一般要求。首先,它必须与现存的主流编程语言和软件兼容。第二,它必须有直接硬件实现,而不是一个虚拟机。第三,它必须有很好的弹性,能满足小至微控制器(MCU)大到超级计算机的需求。第四,能与各种实现方式兼容,包括FPGA,ASIC,全定制CPU,以及未来的其他实现。第四,需要与各种微架构配适,包括有序执行,无序执行,单发射,超标量等等。最后,还需要满足可扩展性(可以作为基础ISA,在特殊用途中加上额外的增强ISA),以及稳定性(不会一直变化,不会突然消失等等)。

 RISC-V与DSA计算机架构第12张

除了满足一般的需求外,RISC-V还有自己的特色。首先,它很简单,比其他的商用ISA规模都要小很多。第二,它很干净,例如在用户与特权ISA之间泾渭分明,有非常清晰的界限。另外,RISC-V中没有与微架构或实现方式有关的特性,因此具有普适性。第三,RISC-V是模块化的ISA,它的基础ISA集很小,但是可以根据用户需求去加载扩展集。最后,RISC-V特别为了可扩展性和专精化做了优化,使用了可变长度的指令编码,并且有许多空间以供指令集扩展。

 RISC-V与DSA计算机架构第13张

最特别的一点是,RISC-V支撑了一个开源的社区,包含了非盈利基金会以及开源代码库。RISC-V的愿景是未来各种灵活而低价处理器芯片的基础。RISC-V一开始的贡献者包括伯克利和SiFive(一家初创公司),目前在征求各类设计者加入开源社区,需要代码以及其他硬件IP(如PLL,PHY等等)。

 RISC-V与DSA计算机架构第14张

 最后,总结一下几大使用RISC-V的理由。第一,RISC-V是免费开源架构,无须付费。第二,它的ISA比起其他ISA来说简单许多,因此验证起来也方便许多。第三,RISC-V很稳定,不用担心突然发生很大变化或者直接就消失。第四,RISC-V可以在各种设计中比起其他ISA更高效,面积、功耗和性能都更好。第五,RISC-V可以作为各种SoC核的基础ISA,而且第六,RISC-V具有很好的扩展性,可以随意按照需求扩展。现在RISC-V的小目标,是成为一种适合各种计算设备的业界标准ISA。

 RISC-V与DSA计算机架构第15张

John Hennessy的演讲紧随其后。Hennessy教授的演讲在回顾了摩尔定律的发展之后,一针见血地指出了目前常规处理器演进遇到的瓶颈在于功耗,并且提出了目前处理器的新希望在于Domain Specific Architecture(DSA,即针对应用领域做优化的处理器架构,区别于通用架构)。

 RISC-V与DSA计算机架构第16张

Hennessy教授首先回顾了四十年来处理器的高速发展史。四十年间,处理器性能以每年1.4倍的速度指数上升,目前性能相比于四十年前改进了约一百万倍。在处理器架构角度,较大的进步包括位宽(由八位进化到了六十四位),指令级并行度(从最初每条指令需要4-10个时钟周期执行到现在每周期可以同时执行超过4条指令,这是10-20倍的改善),以及多核架构(由单核演化到32核)。从性能角度,时钟频率从3MHz进化到4GHz。这一切都是因为集成电路生产工艺进化为基础的。摩尔定律使得处理器晶体管数持续上升,但是因为晶体管功耗和晶体管面积缩小的速度基本相同,因此在前40年间芯片单位面积的功耗基本不变。

 RISC-V与DSA计算机架构第17张

目前,三种技术趋势让传统的通用处理器演进遇到了瓶颈。半导体工艺角度,Dennard Scaling规律结束,芯片功耗急剧上升,同时摩尔定律减缓,晶体管成本不降反升。从架构角度,指令级并行已经到达极限,单核时代已告结束;而Amadahl’s Law提示多核架构的速度提升取决于程序中有多少部分无法并行执行,多核架构目前的速度提升也变得越来越慢。从应用角度,处理器的应用场景从原来的桌面电脑变成了个人移动设备和云端超大规模服务器,这也带来了新的设计约束。

 RISC-V与DSA计算机架构第18张

 从单核处理器的速度进化趋势也可以印证之前的观点。从上世纪90年代到本世纪前五年,单核处理器的性能以每年50%以上的速度提升,而到了2005年后,但和处理器性能的提升速度降到了每年20%左右。

 RISC-V与DSA计算机架构第19张

从单核处理器的速度进化趋势也可以印证之前的观点。从上世纪90年代到本世纪前五年,单核处理器的性能以每年50%以上的速度提升,而到了2005年后,但和处理器性能的提升速度降到了每年20%左右。

 RISC-V与DSA计算机架构第20张

随着市场份额的变化,处理器的设计需求也发生了变化。能效比正在成为目前最重要的指标。在移动领域,由于电池容量的限制,必须注重能效比。目前,处理器在移动设备中已经成为继屏幕之后能量消耗较大的元件,因此移动设备中处理器能效比是最关键的问题。

 RISC-V与DSA计算机架构第21张

在另一个未来处理器较大市场——云端服务器市场,能效比也是最关键的指标。目前数据中心的成本中,散热已经成了较大的成本之一,为了减少成本必须考虑处理器能效比。

 RISC-V与DSA计算机架构第22张

半导体工艺进化趋势的变化也很重要。摩尔定律遇到瓶颈是近年来半导体业最深刻的变化。DRAM密度变化在1977-1997年是每年1.46倍,1997-2017年平均密度变化是每年1.34倍,而在过去五年平均密度变化是每年1.1倍。一个更令人惊讶的事实是,DDR4标准DRAM的带宽虽然比DDR3大很多,但是DDR4内存的内部速度实际上比DDR3慢!这在过去半导体产业按摩尔定律蒸蒸日上的时代是难以想象的。

 RISC-V与DSA计算机架构第23张

另一个关键的半导体工艺趋势变化是Dennard Scaling不再有效。Dennard Scaling是早期半导体工艺变化的规律,即将晶体管尺寸和电源电压一起变化,单位面积晶体管的总电容上升,但是电源电压在相应变小于是总体的单位面积能量消耗基本保持不变。Dennard Scaling规律从1977年保持到了1997年,在这之后慢慢失效,例如从2007年到2017年(晶体管特征尺寸由45nm缩小到16nm),每块芯片的总能耗变大了3倍。

 RISC-V与DSA计算机架构第24张

 Dennard Scaling的结束对于传统处理器设计方法来说是一个危机。能量消耗对用户来说越来越重要(无论是对移动设备还是云端服务器),而且处理器散热已经接近了极限。处理器架构必须改善能效比,但是传统通用架构设计方法的能效比已经到极限了。

 RISC-V与DSA计算机架构第25张

 Dennard Scaling的结束也意味着在能效比约束下,堆核数已经很难增加性能。再增加核数就会导致Dark Silicon,即芯片的许多核会很多时间处于待机状态,从而导致很高的成本(编注:例如目前移动处理器流行的大小核架构,通常同时只会打开高性能大核或者低功耗小核)。所有核打开时,处理器功耗非常大,会导致散热问题。举例来说,目前22nm工艺制造的较大多核处理器是Intel E7-8890,有24颗核心,运行在2.2GHz,较大功耗为165W。在2021/2022年,假设可以使用11nm工艺,96核心处理器运行在4.9 GHz,那么在165W功耗的限制下,只能打开54个核心,功耗限制放松到180W可以打开59个核,限制放松到200W可以打开65个核。但是要同时打开96个核,则功耗实在太大,很难实用。

 RISC-V与DSA计算机架构第26张

为了提高能效比,一种很有希望的架构是针对应用领域做优化的专用领域处理器架构(DSA)。DSA的优点在于,可以为特定的一类应用(注意不是一种应用,而是一类)做架构优化从而实现更好的能效比。相对于通用(general purpose)处理器,DSA需要设计时考虑专用领域的特殊需求,也需要设计者能对该领域有深入的理解。DSA的例子包括为机器学习设计的神经网络处理器,以及为图像和虚拟现实设计的GPU。DSA设计将会成为处理器架构的新趋势。

 

Q & A

Q:请问除了之前演讲中提到的以外,还有哪些处理器领域的未来趋势是值得关注的?

A(Patterson):我认为未来之星是深度学习领域的DSA处理器。深度学习的重要性我想在座的都很清楚。另外,使用更高级的设计描述语言,例如Chisel,来加速设计,也会成为趋势。

Q:摩尔定律的终结对于整个计算机领域的人来说,意味着什么?

A(Hennessy):The easy ride of software is over. 这意味着软件行业的从业人员未来需要更多对硬件的理解。在之前,软件行业可以不用太关心硬件,只要把程序功能实现,就算现在的硬件不能跑,过一阵新的更强的硬件出现了一定可以跑。现在,软件必须认真考虑如何在硬件上高效执行的问题。会有更多domain-specific编程语言出现,例如CUDA。

Q:如何看待量子计算?

A(Hennessy):量子计算就是计算机领域的核聚变(观众大笑,“核聚变”的比方是指潜力无穷但是不知道哪一天真的能用上)。目前,量子计算的问题在于规模化,一方面需要制备更多的量子位,另一方面需要在质因数分解之类问题以外找到更多应用。

 

Q:如何看到FPGA?

A(Hennessy):FPGA是一个很好的技术。对于对成本不敏感的云端应用,因为FPGA芯片已经规模足够大可以装下一些处理器,因此得到了很多关注。微软在云端大规模部署FPGA,显然是在赌FPGA的可配置性在未来会有很多应用。Google则是把赌注押在了ASIC上(指TPU)。在客户端,FPGA由于功耗过大,目前仍然很难得到大规模应用。

 

Q:对于学生们有没有关于职业规划的建议?

A(Patterson):在座的学生都很优秀,我想大家除了学习以外还要关注一些其他方面的能力,比如如何影响他人,如何写作表达自己,如何与家人朋友一起享受生活等等。这些都非常重要。如果你一定要问我技术有关的建议,我要说的是,你在这里(斯坦福)一定要上机器学习的课程。我感觉现在的人工智能就像之前的微处理器和互联网一样,一定会深刻地改变我们的社会。

免责声明:文章转载自《RISC-V与DSA计算机架构》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇aws 基于延迟策略配置dns故障切换关于使用 autoFac 的注入方法下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

ARM处理器、X86处理器和AI处理器的区别

ARM处理器、X86处理器和AI处理器的区别 目前主要的处理器架构有: X86: Intel, AMD, 海光, 兆芯 ARM: 华为,飞腾,华芯通,Cavium,Ampere,富士通,亚马逊 POWER:IBM, 中晟宏芯 MIPS:龙芯 Alpha:申威 X86处理器 X86架构(The X86 architecture)是微处理器执行的计算机语言...

基于SAP的中国式数据分析浅谈

大数据时代,虽然多数企业数据的应用并不能称得上是“大数据”,但也证实了数据应用的重要性和影响力。确实,数据作为企业发展的信息沉淀,已成为企业的重要资产,如何有效利用数据是每个企业必须面临的课题。 这里我们分享一个波司登集团通过改进信息系统,加强数据运营管理来提升企业效益的案例,原文是波司登集团软件研发经理孙健在帆软大数据巡展上的演讲。 从2012年到201...

分布式架构数据常见问题阅读总结

域是一个虚拟的分类,几个系统属于某一个域,例如网上银行和手机银行都属于电子渠道领域; 传统的单体应用,指的就是系统,在微服务架构下,单体应用采用前后端分离模式,前端一般使用 Nginx,Ngnix 进程间采用主备模式,系统的后端可以分为多个应用,每个应用有一组对等的应用进程(也称为应用实例)提供服务,每个应用对应一个数据库,实际上在分库的情况下,有可能一个...

asp.net core系列 31 EF管理数据库架构--必备知识 反向工程

一.   反向工程   反向工程是基于数据库架构,生成的实体类和DbContext类代码的过程,对于Visual Studio开发,建议使用PMC。对于其他开发环境,请选择.NET Core CLI工具(跨平台)。     (1) 在程序包管理器控制台(PMC)工具中使用命令Scaffold-DbContext 来进行反向工程。     (2) 在.NET...

sshd_config配置详解

sshd_config配置详解 名称sshd_config - OpenSSH SSH 服务器守护进程配置文件 大纲/etc/ssh/sshd_config 描述sshd(8) 默认从 /etc/ssh/sshd_config 文件(或通过 -f 命令行选项指定的文件)读取配置信息。配置文件是由"指令 值"对组成的,每行一个。空行和以'#'开头的行都将被忽...

asp.net core系列 30 EF管理数据库架构--必备知识 迁移

一.管理数据库架构概述          EF Core 提供两种主要方法来保持 EF Core 模型和数据库架构同步。一是以 EF Core 模型为基准,二是以数据库为基准。            (1)如果希望以 EF Core 模型为准,请使用迁移。 对 EF Core 模型进行更改时,此方法会以增量方式将相应架构更改应用到数据库,以使数据库保持与...