人工智能正在推动“硅”复兴

摘要:
人工智能正在推动“硅”复兴半导体,这是数字时代的基础技术。几十年来,Intel和AMD等公司凭借可靠的CPU性能而蓬勃发展。这一过程被克莱顿·克里斯滕森称为“持续创新”。今天,这种情况正在发生巨大变化。这造成了数据移动的瓶颈,被称为“冯·诺伊曼瓶颈”。到目前为止,GPU是推动人工智能繁荣的芯片,在过去的24个月中,已经有五家人工智能芯片独角兽。该公司表示,光的独特性能将使其芯片性能比现有解决方案高十倍。

  人工智能正在推动“硅”复兴

  半导体是数字时代的基础技术。它是硅谷名字的来源。它是过去半个世纪改变了社会各个方面的计算机革命的核心。

  自从英特尔在1971年推出世界上第一个微处理器以来,计算能力的提高步伐令人叹为观止,且永不停息。根据摩尔定律,当今的计算机芯片比50年前的功能强大了数百万倍。

  然而,尽管数十年来处理能力飞速增长,但直到最近,计算机芯片的基本体系结构仍基本上保持静态。在大多数情况下,芯片的创新需要进一步使晶体管小型化,以便将更多晶体管压缩到集成电路中。几十年来,英特尔和AMD等公司通过可靠地提高CPU性能而蓬勃发展,这一过程被Clayton Christensen称为“持续创新”。

  今天,这种情况正在以戏剧性的方式改变。AI迎来了半导体创新的新黄金时代。数十年来,机器学习的独特需求和无限的机会第一次激发了企业家重新思考和重新思考芯片架构的最基本原则。

  他们的目标是设计一种专为AI设计的新型芯片,它将为下一代计算提供动力。它是当今所有硬件中最大的市场机会之一。

  新的计算范式

  在计算的大部分历史中,主要的芯片体系结构一直是CPU或中央处理器。如今,CPU无处不在:它们为笔记本电脑,移动设备和大多数数据中心供电。

  1945年,传奇的John von Neumann 设计了 CPU的基本体系结构。值得注意的是,此后其设计基本上保持不变:今天生产的大多数计算机仍是冯·诺依曼机器。

  CPU在用例中的优势是其灵活性的结果:CPU是通用计算机,能够有效执行软件所需的任何计算。但是,尽管CPU的主要优势是多功能性,但是当今领先的AI技术需要非常特殊且密集的一组计算。

  深度学习需要迭代执行数百万或数十亿个相对简单的乘法和加法步骤,简单那来说就是线性代数,深度学习的根本是参数微调,矩阵相乘。

  这种重复的,计算量大的工作流程对硬件体系结构具有一些重要意义。并行化(处理器能够同时而不是一个接一个地执行许多计算的能力)变得至关重要。与此相关的是,由于深度学习涉及大量数据的连续转换,因此将芯片的内存和计算核心尽可能靠近地放置,可以通过减少数据移动来获得巨大的速度和效率。

  CPU 不足以支持机器学习的独特需求。CPU按顺序而不是并行地处理计算。它们的计算核心和内存通常位于单独的模块上,并通过带宽受限的通信系统(总线)连接。这在数据移动中产生了瓶颈,称为“冯·诺依曼瓶颈”。这就导致在CPU上训练神经网络效率极低。

  鉴于机器学习应用在整个社会中正变得越来越普遍,传统芯片无法处理现代AI算法这个问题变得越来越严峻。正如AI行业伟大的Yann LeCun最近说的那样:“如果您预估未来的五,十年,您会发现计算机大部分时间都花在做深度学习之类的事情。”

  至此,推动AI繁荣的芯片是GPU(图形处理单元)。GPU架构是Nvidia在1990年代后期为游戏应用发明的。为了以高帧速率渲染计算机游戏的详细图形,GPU专门用于连续处理大量数据。与CPU不同,GPU可以并行完成数千个计算。

  在2010年代初,AI社区开始意识到 Nvidia的游戏芯片实际上非常适合处理机器学习算法所需的工作负载类型。这就让GPU找到了巨大的新市场。Nvidia抓住机遇,将自己定位为AI硬件市场领先的提供商。这就让公司收获了惊人的收益:从2013年到2018年,英伟达的市值跃升了 20倍。

  然而,正如Gartner分析师Mark Hung所说,“每个人都同意GPU并非针对AI工作负载进行了优化。” GPU已被AI社区采用,但它并非为AI而生。

  近年来,一大批企业家和技术人员开始重新构想计算机芯片,从头开始对其进行优化,以释放AI的无限潜力。用Alan Kay令人难忘的话来说:“真正认真对待软件的人们应该自己制造硬件。”

  在过去的24个月中,出现了五只AI芯片独角兽。令人瞠目结舌的估值也吸引了更多新贵。传统CPU的领导者为了避免被抛弃,也参与其中。仅英特尔一家就完成了这一类别的两项重大收购:Nervana Systems(2016年4月以4.08亿美元收购)和Habana Labs(2019年12月以20亿美元收购)。在未来几年中,随着这场竞赛的进行,将有数千亿美元的企业价值被争夺。

  下一个英特尔?

  巨大的市场机会和前景技术的挑战相结合,激发他们创造出惊人的创意——有时是惊人的、设计理想的AI芯片的方法。

  新一代AI芯片初创企业中最引人注目的就是Cerebras Systems。简单地说,Cerebras的大胆方法是制造有史以来最大的芯片。最近该公司的价值为$ 1.7B,该公司已从包括Benchmark和Sequoia在内的顶级投资者筹集了$ 200M。

  Cerebras芯片的规格令人难以置信。它比典型的微处理器大60倍左右。它是历史上第一个容纳超过1万亿个晶体管(准确地说是1.2万亿个)的芯片。它的片上内存为18 GB,这是有史以来最多的。

  将所有计算能力打包到单个硅基板上可带来诱人的好处:数据传输效率大大提高,内存与处理并置,大规模并行化。但是,如果想轻描淡写工程上的挑战,这是荒谬的。因为几十年来,制造晶圆级芯片一直是半导体行业梦寐以求的梦想,但从未实现。

  Cerebras首席执行官Andrew Feldman说:“每个规则,每个工具和每个制造设备都是为正常尺寸的“巧克力曲奇”设计的,我们提供了整个“曲奇纸”大小的产品。” “方法的每一步,我们都必须发明。”

  Cerebras的AI芯片已经投入商业使用:就在上周,Argonne National Laboratory宣布将使用Cerebras的芯片来帮助对抗冠状病毒。

  另一家采用全新的芯片设计新方法的公司是基于湾区的Groq。与Cerebras相比,Groq的芯片专注于推理,而不是模型训练。创始团队拥有世界一流的领域专业知识:Groq的团队包括Google TPU项目的十个原始成员中的八个,这是迄今为止最成功的AI芯片工作之一。

  Groq颠覆了业界的传统常识,正在构建批量batch size为1的芯片,这意味着它可以一次处理一个数据样本。据该公司称,这种架构几乎可以实现瞬时推断(对于诸如自动驾驶汽车等对时间敏感的应用程序至关重要),而无需牺牲性能。Groq的芯片很大程度上是软件定义的,从而使其具有独特的灵活性和永不过时的特性。

  该公司最近宣布其芯片达到每秒1万亿次运算的速度。如果为真,这将使其成为历史上最快的单die芯片。

  也许没有一家公司比Lightmatter具有更出色的技术愿景。它是由光子学专家创立,总部位于波士顿。Lightmatter寻求构建一种AI微处理器,该微处理器不是由电信号而是由光束驱动的。该公司已从GV,Spark Capital和Matrix Partners筹集了3,300万美元,以实现这一愿景。据该公司称,光的独特性能将使其芯片性能比现有解决方案高十倍。

  此类别中还有许多其他玩家值得关注。两家中国公司Horizon Robotics和Cambricon Technologies各自以更高的估值筹集了比其他任何竞争对手都更多的资金。帕洛阿尔托的SambaNova Systems 资金雄厚,技术精湛。尽管有关SambaNova计划的细节仍然很少,但其技术似乎特别适合于自然语言处理。其他值得注意的初创公司包括Graphcore,Blaize,Mythic和Kneron。

  几家科技巨头已经开始自己的内部努力来开发专用AI芯片。这些程序中最成熟的是上面提到的Google的Tensor处理单元(TPU)。像往常一样,在技术曲线之前,谷歌于2015年开始研发TPU。最近,亚马逊宣布其Inferentia AI芯片在2019年12月大张旗鼓地发布。特斯拉,Facebook和阿里巴巴以及其他技术巨头都在参与其中。内部AI芯片程序。

  结论

  争相开发将为即将到来的AI时代提供动力的硬件的竞赛正在进行中。自硅谷成立以来,如今的半导体行业正在发生比以往任何时候都更多的创新。不可估量的数十亿美元正在发挥作用。

  下一代芯片将在未来几年中塑造人工智能领域的轮廓和轨迹。用Yann LeCun 的话来说:“硬件功能...激励并限制AI研究人员将想象并允许自己追求的想法类型。我们可以使用的工具比我们愿意承认的更能塑造我们的思想。”

免责声明:文章转载自《人工智能正在推动“硅”复兴》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇视频直播点播系统EasyDSS如何将已存储的视频文件进行迁移?人工智能如何重新定义云计算技术并提高业务效率下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

SQL Server性能监控

SQL Server性能监控 来源于:http://technet.microsoft.com/zh-cn/library/bb838723.aspx Microsoft SQL Server 2005 提供了一些工具来监控数据库。方法之一是动态管理视图。动态管理视图 (DMV) 和动态管理函数 (DMF) 返回的服务器状态信息可用于监控服务器...

SIGAI深度学习第十二集 循环神经网络1

讲授时间序列预测问题、神经网络的记忆功能、循环层的原理、输出层的原理、深层网络、BPTT算法等 大纲 序列数据建模让神经网络具有记忆功能循环层的原理输出层的原理完整的网络结构深层网络训练算法简介训练算法的推导 本集内容简介 从今天开始用四节课讲述循环神经网络,这是除卷积神经网络CNN以外另一个被广为使用的深度神经网络结构。RNN它典型的应用有两块大的领域,一...

tomcat的maxThreads、acceptCount(最大线程数、最大排队数)

tomcat的maxThreads、acceptCount(最大线程数、最大排队数) url: http://blog.sina.com.cn/s/blog_605f5b4f01012ljj.html tomcat 的Connector配置如下 <Connectorport="8080"protocol="HTTP/1.1"connectionT...

SQL执行效率测试语句

--清空缓存 checkpointdbcc freeproccachedbcc dropcleanbuffers --设置cpu时间 SET STATISTICS io ONSET STATISTICS time ONgo --查询语句 select * from tablename goSET STATISTICS profile OFFSET STAT...

【原创】有利于提高xenomai 实时性的一些配置建议

版权声明:本文为本文为博主原创文章,转载请注明出处。如有错误,欢迎指正。@ 目录 一、影响因素 1.硬件 2.BISO(X86平台) 3.软件 4. 缓存使用策略与GPU 二、优化措施 1. BIOS[x86] 2. 硬件 3. Linux 3.1 Kernel CMDLINE cpu隔离 Full Dynamic Tick Offload...

机器学习sklearn(三十九):算法实例(八)分类(四)随机森林分类器 RandomForestClassifier

class sklearn.ensemble.RandomForestRegressor(n_estimators=’warn’, criterion=’mse’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_feature...

最新文章