查看: 702|回复: 0
收起左侧

这家公司计划颠覆CPU:不是Arm,也不是RISC-V

[复制链接]

  离线 

  • TA的每日心情
    慵懒
    2021-7-23 17:16
  • 签到天数: 17 天

    [LV.4]

    发表于 2021-7-14 17:36:32 | 显示全部楼层 |阅读模式

    有人预言,RISC-V或将是继Intel和Arm之后的第三大主流处理器体系。欢迎访问全球首家只专注于RISC-V单片机行业应用的中文网站

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    本帖最后由 草帽王子 于 2021-7-14 17:36 编辑

    任何架构中都有一些必不可少的、基础的和不可协商的特性。直到某个聪明的架构师向我们展示事实并非如此。建筑物和桥梁的真实情况同样适用于系统及其处理器,这就是为什么我们使用相同的词来描述设计这种宏观和微观结构的人。

      Peter Foley,是 Ascenium 的联合创始人兼首席执行官。而这家初创公司在筹集了 1600 万美元的 A 轮风险投资资金后刚刚揭开面纱。Foley 和 Ascenium 的团队希望抛弃现代 CPU 中的许多架构,从头开始创建 Foley 所说的软件定义的、可连续重新配置的处理器。

      Foley 之所以说拆除处理器并以新的不同方式构建它是必要的,是因为我们已经用完了当前 CPU 架构的技巧。

      在我们深入讨论即将在 Ascenium 开发的 Aptos 处理器的架构以及它将如何撼动 CPU 市场之前,我们先了解 Foley 的一些历史。其涵盖了很多领域,也能看到了很多让他走到今天这一步的原因。

      Foley 在莱斯大学获得电气工程学士学位,在加州大学伯克利分校获得硕士学位。在伯克利,Foley 与 David Patterson 和 Alvin Despain 一起在 Smalltalk 的 RISC (SOAR) 芯片项目上工作。毕业后,Foley 加入苹果,为 Mac 和 Mac II 个人电脑开发各种芯片,然后在 1987 年被史蒂夫·乔布斯选中,成为超前的牛顿个人数字助理的四位原始成员之一,这确实是 iPhone 智能手机的试运行,但当时没有人知道。特别是,Foley 负责开发 Newton 中使用的“Hobbit”处理器。他离开苹果加入第三方 GPU 供应商 SuperMac,然后加入Chromatic Research,致力于其可编程 VLIW 和 SIMD 媒体处理加速器。Foley 在 Benchmark Capital 做了一段时间的常驻企业家,然后创立了 nBand Communications 并创建了一个软件定义的宽带无线电(类似于我们应该拥有的 WiMAX 而不是 5G,在大多数地方实际上更像是 4.1G )。然后,他在 Predicant Biosciences 担任了近四年的工程副总裁,该公司创建了用于扫描血液蛋白质中癌症的诊断设备,然后在 Tailwood Venture Capital 担任了近四年的常驻高管。

      Foley 也是人工智能芯片初创公司 Wave Computing 的创始人兼首席执行官,重要的是,Foley 在它完成复杂的交易以授权其技术的几年前离开了公司。.准确地说,Foley 于 2016 年 6 月离开 Wave Computing,并经营自己的咨询业务,直到加入成立于2018 年 3 月 的Ascenium,并于 2019 年 6 月担任该公司的CEO。重要的是,Ascenium 获得了 900 万美元的天使轮融资和 1600万美元的融资。

      据我们所知,Ascenium 至少在 2005 年之前就成立了,当时其创始人兼首席技术官 Robert Mykland 在 Hot Chips 会议上发表了演讲。该公司已获得九项专利,这些专利在诉讼半导体领域很有用。就像牛顿走在时代的前面,摩尔定律必须让芯片和网络赶上我们才能拥有 PDA,也许我们必须达到摩尔定律的终点,然后才能考虑 Mykland 所支持的想法。

      顺便说一下,我们与 Foley 聊了聊 Ascenium 在设计的一个我们了解不多的指令集和处理器,并寻求重新定义软件编译器和底层硬件之间的接口及其 Aptos处理器,它是 64 位计算元素的可编程阵列。这是一个可以感受它的各种框图,但无可否认,这有点模糊,因为 Ascenium 目前有点神秘:

    国外芯片技术交流-这家公司计划颠覆CPU:不是Arm,也不是RISC-Vrisc-v单片机中文社区(1)
      
      考虑到所有这些,这是我们与 Foley 的聊天。

      Timothy Prickett Morgan:我以为我看到这是一个无指令集架构的处理器。所以那到底是什么?

      Peter Foley:我们看到了我的前老板史蒂夫乔布斯过去所说的一个巨大的、沉睡的市场,创新的时机已经成熟。所以我们的使命是用完全不同的东西进入那个大市场。

      我们认为它需要完全不同的原因是,如果您尝试在同一个沙箱中使用相同的规则集,这基本上是一种指令集架构方法,如果你按照这组规则玩,你就赢不了。从Calxeda,Cavium和Broadcom等公司的经历你可以看到。

      TPM:有很多“事故”,数十亿美元的“事故”。

      Peter Foley:高通已经尝试过两次,我认为他们仍在努力。这是非常艰难的。在单核、单线程 SPECint 上击败英特尔非常困难,这正是人们所关心的。

      TPM:AMD 正在这样做。

      Peter Foley:是的,但它们仍然是 X86,并且有许可证。是的,他们现在实际上在某种程度上击败了英特尔,但这在很大程度上与英特尔搞砸晶圆厂和 AMD 使用台积电有关,因此他们在一段时间内拥有节点优势。

      TPM:我最近写了一篇尚未发表的故事,说 AMD 遇到的最好的事情是 GlobalFoundries 搞砸了 14 纳米,但 IBM 卖给了他们微电子,这有帮助,然后 10 纳米就真的搞砸了。

      Peter Foley:完全正确。

      TPM:因为在那之后,AMD 在台积电上跃升至 7 纳米,而与此同时,英特尔在 10 纳米上遇到了大问题。AMD 总能设计出好的芯片,但这些代工因素使它们变得如此重要。

      Peter Foley:你说得对。所有其他的东西都是二阶的:对架构稍作调整,再增加几十亿个晶体管。然而,摩尔定律和登纳德缩放并不合作,而且由于这些架构非常复杂,它们必须倾倒几十亿个晶体管才能获得另外 5% 或 10% 或 20% 或其他任何东西。问题是现在它变得太热了,你要么必须关掉时钟,要么必须关闭部分芯片——然后你就会遇到暗硅问题。

      TPM:我一直在说调低时钟并使内存和 CPU 回到接近相位的状态,因为无论如何你只是在旋转时钟以等待大部分时间。所以你不妨慢一点,而不是等待。无论如何,我们必须并行化我们的代码才能在 GPU 上运行,所以让 CPU 看起来像一个 GPU 并以这种方式提高其吞吐量。

      Peter Foley:Nvidia 在 Ampere GPU 上遇到了这个问题。它们太热了,即使使用较慢的时钟也能达到 400 瓦,这意味着 Ampere 不能在不重新设计它以适应 300 瓦 PCI-Express 外形规格的情况下使用 PCI 板。

      TPM:所以,我认为这为 Ascenium 尝试做的事情奠定了基础。

      Peter Foley:我们正在做的将非常不同。这个想法是让我们重新定义编译器和硬件之间的分区,这是五十年前用 ISA 建立的,用于 IBM 大型机,然后是 RISC 机器。

      那时,你有一个三级或五级流水线,编译器做不了多少,因为你没有太多的马力。这似乎是一个很好的分工。问题是,那个特定的 API 分区已经变得非常陈旧,并且在 50 年后随着计算能力的进步和问题,正如我在 Dennard 缩放时提到的那样,并且只是将晶体管转储到一个不合格的 -秩序架构。是时候重新思考并转储与 ISA 相关的所有内容了:深度pipeline 、乱序、重新排序、重命名、转发、运行时分支预测。只要摆脱这一切。

      TPM:还剩下什么?我理解的一切——我认为我理解的一切——都在那个列表中。

      Peter Foley:这里有一些关键的推动因素,对吧?一个是编译器现在可以使用大量的马力。所以你可以让更复杂的编译器做更多的工作,因为只有足够的能力去做。

      另一个推动因素是,如果您打算采用一种基于数组的方法,该方法直接由编译器以非常非常精细的粒度进行控制,如果您愿意的话,有点像一个巨大的微码字,进入这个基于数组的机器,那么您的典型的编译器是一维的。你吐出一个连续的指令流,然后你把所有的东西都扔到了硬件上。硬件必须提取所有并行性,做所有事情。我们说让编译器做更多的工作,对整个程序有更大、更广阔的视野,并进行更复杂的优化。现在编译器是一个 5D 编译器。它必须进行 2D 布局、必须进行 2D 布线、必须进行调度。还有很多工作要做。

      因为我们的市场是数据中心,我们可以一直重新编译东西,因为你可以花 15 分钟到半小时编译一些东西,然后在数据中心运行 1000 万次,并获得强大的回报。就对权力的完全关注而言,这种计算也发生了变化。所以值得看看你是否可以花更多的时间在一个真正超级复杂、复杂的编译二维计算数组上,这个数组直接由编译器用一个巨大的微码字控制,如果你能节省 5% 或 10%,那就值得了的权力。如果可以的话,超大规模者会向后弯腰让你进入他们的数据中心。

      Ascenium 的 Aptos 处理器和我们的方法还有另一个关键推动因素,我一直在这条道路上,这就是我带给这家公司的东西。我学到了这一点,我认为它真的可以对 Ascenium 所做的事情产生影响。有一家名为 Tabula 的公司也有类似的问题,他们在使软件工作时遇到了真正的问题,直到第二次或第三次尝试后才让它工作,因为他们最终引入了约束求解器。Tabula 使用基于SAT 求解器的方法来进行编译后端。我们在 Wave Computing 也做了同样的事情。然后我将这项技术带到了 Ascenium。
      国外芯片技术交流-这家公司计划颠覆CPU:不是Arm,也不是RISC-Vrisc-v单片机中文社区(2)

      我们有一个标准的 LLVM 编译器基础设施,但一个新的 LLVM 后端针对我们的硬件,主要面向约束求解器。所以它就像一个黑匣子。如果您有一个非常简单的常规架构,您可以在一组逻辑方程中完整地描述时间和物理行为,那么我们的 SAT 求解器可以消化它并给出数学上可证明的最佳结果。这是很难打败的。您永远无法在复杂的、异构的、无序的架构上使用约束求解器。忘了它。你会浪费你的时间。但这可以工作。

      这个想法是使芯片架构尽可能简单。把它扔给 SAT 求解器,它会生成这些非常惊人的最佳 5D 解决方案,然后从那里开始。这就是赌注:摆脱 X86 和 Arm 沙箱,重要的是,采用 IP 清洁方法。因为这是另一个问题:如果您试图与这些 CPU 人员对抗,您将遇到巨大的 IP 墙。一旦你开始真正构成威胁,他们就会起诉你。期间。这只是生意,对吧?

      TPM:所以这是一种极端的RISC?

      彼得·弗利:没错。而且,你知道,我来自那个世界。很久以前,我在伯克利的一个芯片研究团队的伯克利 Smalltalk 上与大卫帕特森一起工作。我的整个职业生涯都在做处理器,断断续续,几乎所有这些都是基于 RISC 的。

      TPM:我猜这真的是 NISC:No Instruction Set Computing。

      Peter Foley:对!

      但说真的,约束求解器现在真的很热门。他们正在接管 EDA 行业。从本质上讲,我们所做的实际上更像是一个 EDA 问题,而不是一个经典的编译问题。这有点像一个完整的 Xilinx 或 Altera FPGA 后端被卷入编译器,因为它们在布局、布线和调度以及 FPGA 查找表结构中执行许多相同的事情。我们正在做一些非常相似的事情,但目标是真正通用的计算引擎。约束求解器正在其他地方应用,但这是我见过的第一个通用计算应用程序。我们正在努力争取在知识产权声明和专利以及所有这些好东西方面的先发优势。

      TPM:那么您是否介于 FPGA 数据流引擎和 CPU 之间,我们是这样考虑的吗?

      Peter Foley:是的,我认为这很公平。虽然我们是通用处理器。我们不像 FPGA 使用查找表结构那样模拟硬件。

      这是另一件相关的有趣事情。如果您查看 X86 指令流,我认为至少 50%(如果不是更多)的指令是移动指令,所有这些指令都与数据移动相关。我认为实际 X86 指令流中只有 20% 的指令可以工作:加、减、乘或其他。好吧,在我们的世界中,一切都由编译器密切控制在同一个控制字中。因此,数据移动、计算、方向、路由——一切都由编译器同时在进入数组的同一指令控制字中控制。因此,没有某种序列化,就流入仅执行移动的架构的指令而言,没有某种 Amdahl 定律惩罚。这一切都是由编译器同时完成的。

      公平地说,编译器必须跟踪很多东西。但公平地说,在经典的乱序机器中,会发生各种重命名,非常复杂的事情。并且阵列中的所有这些资源都可以有效地实现非常大的分布式重命名能力。所以我们有这个我们利用的分布式内存,我们做了很多重用,所以没有那么多流量到经典的寄存器文件。所以这一切都消除了。我们几乎没有管道,所以分支阴影非常短。真的很不一样。

      TPM:好的,所以这就像 Hewlett-Packard 说服 Intel 做 EPIC,并将其移植到一些看起来像 X86 但还不够的东西上,我们最终得到了 Itanium。你在这里,扔掉英特尔和惠普所做的一切,只保留 EPIC 所以在这里,扔掉所有东西,只做显式并行指令计算部分。. . .

      Peter Foley:我的意思是,我会在传球时回答你的下一个问题。那么它有多真实呢?

      TPM:不完全是。你必须明白。Nicole 和我在The Next Platform 上拿所有人工智能初创公司开玩笑,他们拥有优雅的硬件,然后他们谈论引入神奇的编译器。 总是有这个,“然后一个神奇的编译器让它一切正常。” 而你,你刚刚描述了我听说过的最神奇的编译器。

      所以,你知道,如果我听起来持怀疑态度,我可能不理解。. . . 或者也许我是。

      Peter Foley:我们的投资者投资 A 系列并让公司进入下一阶段的原因之一是我们已经证明能够在 5 到 10 分钟内编译 700,000 行代码并在 FPGA 原型上运行它。所以这是这个架构的一个巧妙之处。它非常简单,您实际上可以在 FPGA 上对其进行原型设计。

      TPM:让我们在这里用我们的语言准确描述。这不是一组四块板,每块板上有八个 FPGA,是最昂贵的类型,连接在一起以模拟一个小芯片?

      Peter Foley:不,这是一块中端 FPGA 板。

      我们可以运行 700,000 行代码,其中包括 SPEC 中使用的标准 C 库,我们编译它并在我们的 FPGA 测试台上运行它,这不是完整的架构,而是其中的一大块,并获得功能正确的结果。我们有一个完整的符号调试器和其他基础设施来实际完成类似的工作。

      TPM:当它成为产品时,它会是什么样子,你打算如何推销它?

      Peter Foley:我们试图在两个最重要的指标上取胜。一个是 SPECint 性能,人们使用每个时钟的指令作为一种代理。这不是一个很好的代理。但是我们有一个指标,它是在我们的每个控制字中执行的 X86 等效指令的价值。我们的目标,就结果和改进的编译器质量而言,是在我们的 IPCW、每个控制字的指令、我们的 IPC 等价物方面移动这一标准。这对超大规模人员来说非常重要。

      TPM:那是赌注。

      Peter Foley:另一个是功耗。所以我们的想法是在这两个指标上取胜,并有一个非常引人入胜的故事。关于电源的问题是我们只是摆脱了所有的晶体管。

      TPM:所以你看看完成某件事需要多少个晶体管,对吧?

      Peter Foley:少得多。我们只说比X86少一吨。

      TPM:是数量级还是三倍?我的意思是,我们在谈论什么?

      Peter Foley:这可能是一个数量级,我们还没有详细的数字。这就是这笔钱的用途。我们将充实并最终确定微架构并实际构建一些试验硅并获得 5 纳米工具或任何我们需要的东西,然后去构建这个东西并进行布局。

      这是构建处理器工作的一部分,处理所有这些几何形状。这完全是关于空间延迟和距离的专制。布局决定了许多影响微架构的因素。因此,我们需要确保解决这些问题并处理好所有这些问题。一旦我们开始深入研究,我们将能够以更高的信心提供您正在寻找的那种数字。

      TPM:那么,如果我能总结一下 Aptos 架构,目标就是降低瓦数并提高性能——但你不必降低价格。

      彼得·弗利:没错。而且我们不必支付 费用给Arm。






    上一篇:国网信通产业集团智芯公司:举办电力RISC-V处理器技术
    下一篇:实锤!鸿蒙系统采用RISC-V指令集,3因素令华为转换阵营
    RISCV作者优文
    全球首家只专注于RISC-V单片机行业应用的中文网站
    回复

    使用道具 举报

    高级模式
    B Color Image Link Quote Code Smilies

    本版积分规则

    关闭

    RISC-V单片机中文网上一条 /2 下一条



    版权及免责声明|RISC-V单片机中文网 |网站地图

    GMT+8, 2024-4-23 21:18 , Processed in 1.753313 second(s), 47 queries .

    快速回复 返回顶部 返回列表