GPU 、APU、CUDA、TPU、FPGA介绍

摘要:
CUDA开发平台以及GPU架构上的积累的开发者生态,使得英伟达在AI芯片领域处于领先地位。CUDA之于GPU,相当于C/C++之于CPU,VHDL/Verilog之于FPGA,CUDA是目前最友好的AI开发平台GPU、FPGA、ASIC是目前主流的三种AI计算架构,GPU目前使用最广,代表厂商有英伟达;FPGA主要用于云端的AI加速,主要厂商有Xilinx、Altera;ASIC主要用在终端等低功耗场景,代表厂商有谷歌TPU、寒武纪。
购买显卡主要关注:显存、带宽和浮点运算数量
GPU :图形处理器(英语:Graphics Processing Unit,缩写:GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器。
用途是将计算机系统所需要的显示信息进行转换驱动,并向显示器提供行扫描信号,控制显示器的正确显示,是连接显示器和个人电脑主板的重要元件,也是“人机对话”的重要设备之一。显卡作为电脑主机里的一个重要组成部分,承担输出显示图形的任务,对于从事专业图形设计的人来说显卡非常重要。
APU:(Accelerated Processing Unit)中文名字叫加速处理器,是AMD“融聚未来”理念的产品,它第一次将中央处理器和独显核心做在一个晶片上,它同时具有高性能处理器和最新独立显卡的处理性能,支持DX11游戏和最新应用的“加速运算”,大幅提升了电脑运行效率。
CUDA:(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。 CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。 开发人员现在可以使用C语言来为CUDA™架构编写程序,C语言是应用最广泛的一种高级编程语言。所编写出的程序于是就可以在支持CUDA™的处理器上以超高性能运行。CUDA3.0已经开始支持C++和FORTRAN。
TPU:(Tensor Processing Unit)即张量处理单元[1] ,是Google设计一款为机器学习而定制的芯片,经过了专门深度机器学习方面的训练,它有更高效能(每瓦计算能力)。
因为它能加速其第二代人工智能系统TensorFlow的运行,而且效率也大大超过GPU――Google的深层神经网络就是由TensorFlow引擎驱动的。TPU是专为机器学习量身定做的,执行每个操作所需的晶体管数量更少,自然效率更高。[3]
TPU每瓦能为机器学习提供比所有商用GPU和FPGA更高的量级指令,这基本相当于7年后的科技水平。TPU是为机器学习应用特别开发,以使芯片在计算精度降低的情况下更耐用,这意味每一个操作只需要更少的晶体管,用更多精密且大功率的机器学习模型,并快速应用这些模型,因此用户便能得到更正确的结果
FPGA(Field-Programmable Gate Array),即现场可编程门阵列,它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。
英伟达(Nvidia)的图形处理器(GPU)怎样分类的,分别面向什么市场?
https://www.zhihu.com/question/60161133 介绍比较详细
https://developer.nvidia.com/cuda-gpus 英伟达官网介绍
http://wemedia.ifeng.com/26436703/wemedia.shtml
从GPU、TPU到FPGA及其它:一文读懂神经网络硬件平台战局
2017年8月17 英伟达的 GPU
这一家是很难被战胜的。来自大型视频处理市场的收益驱动着巨大的规模经济。新款英伟达 V100 带有一种新的 Tensor Core 架构,速度可达 15 TFlops(单精度/SP)或 120 TFlops(浮点精度,其中带有 FP16 的乘法和 FP32 的累加或加法,非常适合机器学习)。英伟达在它们的 DGX-1 中装入了 8 块计算卡,速度可达 960 Tensor TFlops.
AMD 的 GPU
在机器学习领域,AMD 一直是英伟达的追赶者。即将发布的 AMD Radeon Instinct MI25 有希望达到 12.3 TFlops(SP)或 24.6 TFlops(FP16)。如果你把英伟达的 Tensor Core 也算进来,则 AMD 完全无力竞争。英伟达设备的带宽 900GB/s 也是 AMD 484GB/s 的两倍。
谷歌的 TPU
谷歌原来的 TPU 相比于 GPU 有很大的领先,并帮助 DeepMind 的 AlphaGo 赢得了与李世石的围棋大战。据描述,原来的 700 MHz TPU 有 95 TFlops 的 8 位计算能力或 23 TFlops 的 16 位计算能力,同时功耗仅有 40W。这可比当时的 GPU 快得多,但现在落后于英伟达的 V100;但在单位功耗的计算能力上,TPU 并没落后。据称新的 TPU2 是一款带有 4 块芯片的 TPU 设备,速度可达到 180 TFlops 左右。每块芯片的性能都翻倍了,达到了 45 TFlops 的 16 位计算能力。你可以看到与英伟达 V100 的差距正在变小。你没法买到 TPU 或 TPU2。谷歌正在通过它们的云提供这些 TPU 服务,包含 64 台设备的 TPU pod 速度高达 11.5 PetaFlops。TPU2 上巨大的散热片说明了一些原因,但市场正在发生变化——从单独的设备转向了设备的组合以及将这些组合以云的形式提供。
http://www.sohu.com/a/191889285_747980 2017-09-14 08:14
CUDA助力英伟达成为AI产业目前最大受益者,FPGA、ASIC等“AI芯片”架构逐渐起步
CUDA是英伟达基于其生产的GPUs的一个并行计算平台和编程模型,便于更多的技术人员参与开发
CUDA,Compute Unified Device Architecture的简称,是由NVIDIA公司创立的基于他们公司生产的图形处理器GPUs的一个并行计算平台和编程模型。开发人员可以通过C/C++、Fortran等高级语言来调用CUDA的API,来进行并行编程,达到高性能计算目的。CUDA平台的推出,让很多开发人员在没有完全精通GPU的硬件架构和运算逻辑的情况下,参与到并行计算的开发中来。
CUDA帮助英伟达成为AI产业目前最大受益者,GPU生态效应使得英伟达处于领先地位
自从2013年开始英伟达发现的GPU硬件架构特别适合深度学习算法,越来越多的AI开发开始应用在英伟达GPU平台之上,同时CUDA良好的用户体验也从另一方面促进了英伟达GPU平台在深度学习市场的占有率,英伟达的股价从13年8月份的12美元涨到目前的170美元左右。CUDA开发平台以及GPU架构上的积累的开发者生态,使得英伟达在AI芯片领域处于领先地位。
CUDA之于GPU,相当于C/C++之于CPU,VHDL/Verilog之于FPGA,CUDA是目前最友好的AI开发平台
GPU、FPGA、ASIC是目前主流的三种AI计算架构,GPU目前使用最广,代表厂商有英伟达;FPGA主要用于云端的AI加速,主要厂商有Xilinx、Altera(被因特尔收购);ASIC主要用在终端等低功耗场景,代表厂商有谷歌TPU、寒武纪(华为NPU)。各种不同的硬件机构对应着不同的编程环境,经典的因特尔CPU架构,对应的是C/C++;GPU是目前AI应用的主流架构,而且CUDA的编程相对友好(可以使用C/C++,Fortran,Java等),优势相对明显;FPGA需要使用硬件语言VHDL/Verilog,硬件语言需要硬件架构、时序等底层知识,对开发人员的要求较高;ASIC一般会有自己指令集,例如寒武纪的芯片使用的是diannaoyu(将之前深度学习算法指令从CICS指令集转化成RSIC指令集),对开发人员的要求更高。
FPGA、ASIC等AI芯片架构逐渐起步,“AI芯片+”产业链公司投资机遇大
在FPGA方面,Xilinx、Altera等已经有云端服务器的AI加速产品上线,另外百度等公司在服务器优化等方面也使用大量的FPGA,整体来说国内FPGA实力较弱;ASIC架构方面,寒武纪、深鉴科技等中国企业在AI芯片方面在全球处于第一梯队,与其合作的公司有望获益。例如,中科曙光与寒武纪同为中科院系背景公司,在云端AI芯片方面开展合作(Digitimes报道),未来有望持续受益。

免责声明:文章转载自《GPU 、APU、CUDA、TPU、FPGA介绍》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇查看所有日志命令:journalctl爬虫之Selenium模块下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

windows操作系统的电脑越用越卡?简说几种原因和解决方法。

很多人在使用windows操作系统的发现电脑越用越卡,但是不知道什么原因,只知道电脑越便宜的越卡(电脑配置低), 然而导致电脑卡顿缓慢的原因有很多,总结出来就是软件和硬件的问题,那怎么办呢? 电脑系统软件问题,就需要优化; 硬件方面则主要是CPU、内存、硬盘。 我们来简单说一下   软件方面的原因:      1、系统垃圾太多   电脑使用时间久了,...

xilinx FPGA课程学习总结

    一时冲动,跑步进入了FPGA的大门,尤老师是教练,我之前一直做嵌入式软件,数字电路也是十年前大学课堂学过,早已经还给老师了。FPGA对于我来说完全是小白,所以。老师的课程,对于我来说至关重要!因为见过太多从入门到放弃的案例了! 什么样的教程和视频,可以不至于让小白从入门到放弃呢?我总结了几点:1.由浅入深,循序渐进,不急躁,不跃进,符合人的认知规律...

机器学习速成笔记一

定义:机器学习系统通过如何组合输入信息来对从未见过的数据做出有用的预测。 基本术语 标签:标签是我们要预测的事物,即简单线性回归中的(y)变量。 特征:特征是输入变量,即简单线性回归中的(x)变量,特征可以有多个,是一种可量化的指标。 样本:样本是指数据的特定实例(X),样本分为有标签样本和无标签样本。 模型:模型定义了特征与标签之间的关系。 训练:是指...

虚拟服务器跟端口映射

一、端口映射作用  路由器中设置端口映射的主要作用,是让Internet上的其他用户,可以访问你路由器下面电脑中的数据(软件、文件)。 路由器中设置好端口映射后,可以让Internet上的其他用户,先访问你路由器WAN接口的IP地址,路由器会自动把访问请求,转发到事先设置好的电脑上面。 二、确定映射端口号 在设置之前,先弄清楚你需要映射的端口号到底是多...

MAC使用技巧之苹果电脑抓图截屏方法

用苹果电脑自带的截图功能的快捷键:command+shift+3 三个键按下则抓取/截取全屏 command+shift+4 然后用鼠标框选则抓取该区域的截图 command+shift+4 然后按空格则抓取软件窗口。截图会自动保存到桌面。 command + control + A 截取指定的区域 版权声明:本文为博主原创文章,未经博主允许不得转载。...

FPGA智能网卡综述(4): 开源DMA

https://zhuanlan.zhihu.com/p/359754525 Corundum 原版见FCCM2020 代码见:https://github.com/ucsdsysnet/corundum 这个专题主要对基于FPGA的智能网卡技术进行介绍,上篇介绍了NanoPU、PANIC、Tonic等,这次介绍“Corundum: An Open-Sou...