瞬懂百科

您当前的位置:首页 > 数码百科

pixel4d(AMD和NVIDIA显卡流处理器工作方式有那些不同)

本文目录

  • AMD和NVIDIA显卡流处理器工作方式有那些不同
  • 显卡的DX11是什么意思如何解释需要详细的解说!
  • 百度论坛注册
  • dpi与ppi的比例关系
  • 关于GPU的问题!
  • 请解释显卡中的 流处理器数量 ,流处理器数量是什么东西起什么作用可以比喻的方法解答
  • pixel 4d保存的文件在哪里

AMD和NVIDIA显卡流处理器工作方式有那些不同

具体的工作原理我在本周电脑报上第46期的D版看到了,不过复杂,没记住,你有兴趣的话可以买来看下 我给你打出来 区别对待流处理器数量 在各种档次显卡产品的宣传资料中,经常会介绍到显卡的流处理器数量,比如AMD的Radeon HD4850的流处理可以高达800个,但就算是NVIDIA顶级的GeForce GTX280的流处理器也只有240个,对于那些主流的GeForce 9600GT等显卡,流处理器更少,只有64个。从数量上看,AMD的显卡多太多了。 是什么原因造成了两者间巨大的差异呢?要说清楚这个问题,我们还得先来谈谈什么是流处理器。在DX10时代,NVIDIA和AMD最大的改变就是放弃了以前顶点处理和像素处理分别由Vertex Shader和Pixel Shader来完成的工作方式,采用了流处理器(Streaming Processor,简称SP)来做这些工作,而至于那些流处理器哪些来做顶点处理,哪些来做像素处理则是可以灵活安排的。 虽然都采用了统一渲染架构,但NVIDIA和AMD的显卡在架构和工作方式上却是不同的。NVIDIA显卡的每个SP中都有一个1D ALU(ALU,算术逻辑单元,以前GPU的Vertex Shader和Pixel Shader是4D ALU),它最大的特点是能拆分4D矢量操作。这样,不管是使用RGB三原色和Alpha值来描述的像素还是用X、Y、Z、W来描述的顶点的 4D矢量指令,还是其他1D、2D及3D指令,都能被NVIDIA的显卡拆分为1D,然后被每个SP处理掉。 而对AMD显卡来说,每个流处理器中含有1个5D ALU,它因为采用了VLIW体系(Very Large Instruction Word)设计,特点就是可以把多个短指令合并成一个5D的指令去交给流处理器处理,比如4D+1D、2D+3D等。不过并不是每一次都能这么“幸运”地找到合适的短指令来组成5D以满足5D ALU的需要,这个时候,有的流处理器并没有被“喂饱”,但面对如此多的待处理数据,怎么办呢?AMD就增加了流处理器数量来保证显卡的高性能。 所以说,不同的架构决定了消费者不能通过流处理器数量来衡量NVIDIA和AMD显卡的优劣。不过对于采用同样核心的不同型号显卡来说,流处理器的数量的多少直接决定了它们性能的高低。

显卡的DX11是什么意思如何解释需要详细的解说!

dx11是一种新的特效,它可以使画面更加真实,就如同3D,4D的一样,更加高的DX指数画面就越精细,但是支持DX形式的必须是HD5670,GT220以上,同样的道理支持特效越高就代表要求电脑配置越高。

百度论坛注册

故事是这样的 以前在各大学校里都流传着这么一个恐怖故事 说是A校有不干净的东西 每当十五的时候 学校门口的鲁迅像的眼睛就会动 所有教学楼都会停电 楼梯会从原来的13阶变成14阶 实验室的水龙头放出来的水会变成红色 还有1楼尽头的那个厕所只要有人进去了就再也出不来了 于是 一群不信邪的孩子们约好15那天去探险 晚上12点 他们准时来到了那所学校的门口 鲁迅像的眼睛望着左边 他们记下了 生怕出来的时候记不得有没有动过 他们来到了教室 打开开关 咦 不是亮着的么? “骗人。”一个男孩发出抱怨 “再看看吧。” 来到了楼梯口 “1 2 3...13没错阿 是13阶阿?” 孩子们有点怀疑传说的真实性了 于是他们又来到了实验室 水龙头打开了 白花花的水流了出来 “真没劲阿 我们白来了!” 刚开始的刺激感都消去了一半。 最后 他们来到了那个厕所 女孩子虽然口上说不相信 可是还是不敢进去 于是让刚刚很拽地说不怕的小C进去 看了表 1点整 2分钟后 男生出来了 “切 都是骗人的” 孩子们不欢而散。 出门时 一个看门人发现了他们 喝斥他们怎么可以那么晚还在学校逗留。孩子们撒腿就跑 小B特地注意了一下门口的石像 没错 眼睛还是朝左看得 “骗人的”他嘀咕了一声 “喂 小B么?小C昨天晚上和你们一起出去玩 怎么还没回来?”第二天早上 小C的妈妈打电话过来询问。 小C也没有去学校上课 孩子们隐约感到不对了 于是 他们将晚上的探险之事告诉了老师和家长 大家在大人的陪同下回到了那个学校。 “什么? 我们的鲁迅像的眼睛一直是朝右看的阿。”校长听了孩子们的叙述 不可思议的说。 “可是我们昨天来的时候是朝左看的阿” 出门一看 果然 是朝右看得... “可是昨天的确有电阿” “昨天我们这里全区停电...你们怎么开得灯?” “还有楼梯!”孩子们迅速跑到楼梯口 “1 2 3...12?” “我们的楼梯一直是12阶的。” “不可能!!!” “还有实验室”一个孩子提醒道 “对 实验室” 一行人来到实验室 就在昨天他们开过的那个水龙头下 有一摊暗红色的痕迹。 “是血迹。” “那...小C昨天还去过那个厕所...”大家都感到了一阵莫名的恐惧 “走 我们去看看”校长也意识到了事情的严重性 ... 推开门... 小C的尸体赫然出现在大家的眼前 因为惊恐而睁大的双眼 被割断的喉管血淋淋的 内脏散落在已经干掉的水池里... “阿...”小C的妈妈当场昏了过去 几个老师马上冲出去呕吐... 小B也被吓得目瞪口呆 在他晕过去的前一秒钟 他瞥见小C的手表 指针停在了1点... 就是小C进去的那个时候... 顺便说一下 他们去探险的那天晚上 并没有门卫... 将此贴转向5个以上的论坛不会魔鬼缠身且能实现一个愿望 。 不回帖者晚上凌晨过后往往.....不好意思,我也处于无奈

dpi与ppi的比例关系

dpi与ppi比例是10:1。

dpi:dot per inch 即点/英寸;ppi:pixel per inch 即像素/英寸。

dpi 原是印刷上的记量单位,意指每平方英寸上,所印刷的网点数(dot per inch)。现在大多数的人已将数码影像的解析度用dpi表示。

但是因为印刷时计算的网点大小(dot)和电脑的显示像素(pixel)并非相同,所以较专业的人士,会用dpi表示解析度,比如我们一般所看到的杂志封面,对质量好的厚纸一般采用350dpi,在相对较薄的纸面上打印图片时常采用300dpi。但是在一些数码产品上,比如数码相机,则多采用ppi表示。

扩展资料:

打印机的打印尺寸与图像分辨率有很大的关系,只要图像分辨率改变了,打印的尺寸便会跟着发生改变。换言之,打印的尺寸无法客观地描述图像的大小。想要描述图像的大小,最好的方法还是以该图像的“宽×高“的像素值加以表示,例如:360×720 Pixels。

而相乘的最后结果就是该图像的像素多寡。打印尺寸、图像大小与分辨率之间的关系可以利用下列的计算公式加以表示:图像的大小=图像的分辨率×打印的尺寸,图像的大小/图像的分辨率=打印的尺寸。针对特定的图像而言,图像的大小是固定的,所以,分辨率和打印尺寸便呈现反比的关系。

关于GPU的问题!

目录:第一章:第二代及以后的GPU工作流程简介第二章:DirectX8和DirectX9 GPU的传统流水线第三章:顶点和像素操作指令第四章:传统GPU指令的执行第五章:统一渲染架构第六章:G80和R600的统一渲染架构实现第七章:G80与R600效能对比第八章:尴尬的中端--Geforce8600简析前面4章 我将先简要介绍下DirectX8/9显卡的核心----图形处理单元GPU的工作流程和指令处理情况从第5章开始讨论统一渲染架构、新一代DirectX10 GPU的特性,G80/Geforce8800与R600/RadeonHD2900XT的架构具体实现及其区别。最后将会对中端最受关注的Geforce8600进行相应的简单分析。第一章:第二代及以后的GPU工作流程简介简单(而不一定绝对科学)的说:GPU主要完成对3D图形的处理--图形的生成渲染。GPU的图形(处理)流水线完成如下的工作:(并不一定是按照如下顺序)顶点处理:这阶段GPU读取描述3D图形外观的顶点数据并根据顶点数据确定3D图形的形状及位置关系,建立起3D图形的骨架。在支持DX8和DX9规格的GPU中,这些工作由硬件实现的Vertex Shader(定点着色器)完成。光栅化计算:显示器实际显示的图像是由像素组成的,我们需要将上面生成的图形上的点和线通过一定的算法转换到相应的像素点。把一个矢量图形转换为一系列像素点的过程就称为光栅化。例如,一条数学表示的斜线段,最终被转化成阶梯状的连续像素点。纹理帖图:顶点单元生成的多边形只构成了3D物体的轮廓,而纹理映射(texture mapping)工作完成对多变形表面的帖图,通俗的说,就是将多边形的表面贴上相应的图片,从而生成“真实”的图形。TMU(Texture mapping unit)即是用来完成此项工作。 像素处理:这阶段(在对每个像素进行光栅化处理期间)GPU完成对像素的计算和处理,从而确定每个像素的最终属性。在支持DX8和DX9规格的GPU中,这些工作由硬件实现的Pixel Shader(像素着色器)完成。最终输出:由ROP(光栅化引擎)最终完成像素的输出,1帧渲染完毕后,被送到显存帧缓冲区。总结:GPU的工作通俗的来说就是完成3D图形的生成,将图形映射到相应的像素点上,对每个像素进行计算确定最终颜色并完成输出。第二章:DirectX8和DirectX9 GPU的传统流水线前面的工作流程其实已经说明了问题。本章来总结一下,承前启后。传统的GPU功能部件我们不妨将其分为顶点单元和像素流水线两部分。顶点单元由数个硬件实现的Vertex Shader组成。传统的像素流水线由几组PSU(Pixel Shader Unit)+TMU+ROP组成。于是,传统的GPU由顶点单元生成多边形,并由像素流水线负责像素渲染和输出。对于像素流水线需要做的说明是:虽然传统的流水线被认为=1PSU+1TMU+1ROP,但这个比例不是恒定的,例如在RadeonX1000(不包括X1800)系列中被广为称道的3:1黄金架构,PSU:TMU:ROP的数量为3:1:1。一块典型的X1900显卡具有48个PSU,16个TMU和16个ROP。之所以采用这种设计方法,主要考虑到在当今的游戏中,像素指令数要远远大于纹理指令的数量。ATI凭借这个优秀的架构,成功击败了Geforce7,在DX9后期取得了3D效能上的领先。总结:传统的GPU由顶点单元生成多边形,像素流水线渲染像素并输出,一条像素流水线包含PSU,TMU,和ROP(有的资料中不包含ROP),比例通常为1:1:1,但不固定。第三章:顶点和像素操作指令GPU通过执行相应的指令来完成对顶点和像素的操作。熟悉OpenGL或Direct3D编程的人应该知道,像素通常使用RGB三原色和alpha值共4个通道(属性)来描述。而对于顶点,也通常使用XYZ和W 4个通道(属性)来描述。因而,通常执行一条顶点和像素指令需要完成4次计算,我们这里成这种指令为4D矢量指令(4维)。当然,并不是所有的指令都是4D指令,在实际处理中,还会出现大量的1D标量指令以及2D,3D指令。总结:由于定点和像素通常用4元组表示属性,因而顶点和像素操作通常是4D矢量操作,但也存在标量操作。第四章:传统GPU指令的执行传统的GPU基于SIMD的架构。SIMD即Single Instruction Multiple Data,单指令多数据。其实这很好理解,传统的VS和PS中的ALU(算术逻辑单元,通常每个VS或PS中都会有一个ALU,但这不是一定的,例如G70和R5XX有两个)都能够在一个周期内(即同时)完成对矢量4个通道的运算。比如执行一条4D指令,PS或VS中的ALU对指令对应定点和像素的4个属性数据都进行了相应的计算。这便是SIMD的由来。这种ALU我们暂且称它为4D ALU。需要注意的是,4D SIMD架构虽然很适合处理4D指令,但遇到1D指令的时候效率便会降为原来的1/4。此时ALU 3/4的资源都被闲置。为了提高PS VS执行1D 2D 3D指令时的资源利用率,DirectX9时代的GPU通常采用1D+3D或2D+2D ALU。这便是Co-issue技术。这种ALU对4D指令的计算时仍然效能与传统的ALU相同,但当遇到1D 2D 3D指令时效率则会高不少,例如如下指令:ADD R0.xyz , R0,R1 //此指令是将R0,R1矢量的x,y,z值相加 结果赋值给R0ADD R3.x , R2,R3 //此指令是将R2 R3矢量的w值相加 结果赋值给R3对于传统的4D ALU,显然需要两个周期才能完成,第一个周期ALU利用率75% ,第二个周期利用率25%。而对于1D+3D的ALU,这两条指令可以融合为一条4D指令,因而只需要一个周期便可以完成,ALU利用率100%。但当然,即使采用co-issue,ALU利用率也不可能总达到100%,这涉及到指令并行的相关性等问题,而且,更直观的,上述两条指令显然不能被2D+2D ALU一周期完成,而且同样,两条2D指令也不能被1D+3D ALU一周期完成。传统GPU在对非4D指令的处理显然不是很灵活。总结:传统的GPU中定点和像素处理分别由VS和PS来完成,每个VS PS单元中通常有一个4D ALU,可以在一个周期完成4D矢量操作,但这种ALU对1D 2D 3D操作效率低下,为了弥补,DX9显卡中ALU常被设置为1D+3D 2D+2D等形式。第五章:统一渲染架构相对于DirectX 9来说,最新的DirectX 10最大的改进在于提出了统一渲染架构,即Unified Shader。传统的显卡GPU一直采用分离式架构,顶点处理和像素处理分别由Vertex Shader和Pixel Shader来完成,于是,当GPU核心设计完成时,PS和VS的数量便确定下来了。但是不同的游戏对于两者处理量需求是不同的,这种固定比例的PS VS设计显然不够灵活,为了解决这个问题,DirectX10规范中提出了了统一渲染架构。不论是顶点数据还是像素数据,他们在计算上都有很多共同点,例如通常情况下,他们都是4D矢量,而且在ALU中的计算都是没有分别的浮点运算。这些为统一渲染的实现提供了可能。在统一渲染架构中,PS单元和VS单元都被通用的US单元所取代,nVidia的实现中称其为streaming processer,即流处理器,这种US单元既可以处理顶点数据,又可以处理像素数据,因而GPU可以根据实际处理需求进行灵活的分配,这样便有效避免了传统分离式架构中VS和PS工作量不均的情况。总结:统一渲染架构使用US(通常为SP)单元取代了传统的固定数目的VS和PS单元,US既可以完成顶点操作,又可以完成像素操作,因而可以根据游戏需要灵活分配,从而提高了资源利用率。第六章:G80和R600的统一渲染架构实现以下我们着重讨论G80和R600的统一着色单元而不考虑纹理单元,ROP等因素。G80 GPU中安排了16组共128个统一标量着色器,被叫做stream processors,后面我们将其简称为SP。每个SP都包含有一个全功能的1D ALU。该ALU可以在一周期内完成乘加操作(MADD)。也许有人已经注意到了,在前面传统GPU中VS和PS的ALU都是4D的,但在这里,每个SP中的ALU都是1D标量ALU。没错,这就是很多资料中提及的MIMD(多指令多数据)架构,G80走的是彻底的标量化路线,将ALU拆分为了最基本的1D 标量ALU,并实现了128个1D标量SP,于是,传统GPU中一个周期完成的4D矢量操作,在这种标量SP中需4个周期才能完成,或者说,1个4D操作需要4个SP并行处理完成。这种实现的最大好处是灵活,不论是1D,2D,3D,4D指令,G80得便宜其全部将其拆成1D指令来处理。指令其实与矢量运算拆分一样。例如一个4D矢量指令 ADD R0.xyzw , R0,R1 R0与R1矢量相加,结果赋R0G80的编译器会将其拆分为4个1D标量运算指令并将其分派给4个SP:ADD R0.x , R0,R1 ADD R0.y , R0,R1 ADD R0.z , R0,R1ADD R0.w, R0,R1综上:G80的架构可以用128X1D来描述。R600的实现方式则与G80有很大的不同,它仍然采用SIMD架构。在R600的核心里,共设计了4组共64个流处理器,但每个处理器中拥有1个5D ALU,其实更加准确地说,应该是5个1D ALU。因为每个流处理器中的ALU可以任意以1+1+1+1+1或1+4或2+3等方式搭配(以往的GPU往往只能是1D+3D或2D+2D)。ATI将这些ALU称作streaming processing unit,因而,ATI宣称R600拥有320个SPU。我们考虑R600的每个流处理器,它每个周期只能执行一条指令,但是流处理器中却拥有5个1D ALU。ATI为了提高ALU利用率,采用了VLIW体系(Very Large Instruction Word)设计。将多个短指令合并成为一组长的指令交给流处理器去执行。例如,R600可以5条1D指令合并为一组5DVLIW指令。对于下述指令:ADD R0.xyz , R0,R1 //3DADD R4.x , R4,R5 //1DADD R2.x , R2,R3 //1DR600也可以将其集成为一条VLIW指令在一个周期完成。综上:R600的架构可以用64X5D的方式来描述。总结:G80将操作彻底标量化,内置128个1D标量SP,每个SP中有一个1D ALU,每周期处理一个1D操作,对于4D矢量操作,则将其拆分为4个1D标量操作。R600仍采用SIMD架构,拥有64个SP,每个SP中有5个1D ALU,因而通常声称R600有320个PSU,每个SP只能处理一条指令,ATI采用VLIW体系将短指令集成为长的VLIW指令来提高资源利用率,例如5条1D标量指令可以被集成为一条VLIW指令送入SP中在一个周期完成。第七章:G80与R600效能对比从前一章的讨论可以看出,R600的ALU规模64X5D=320明显比G80的128X1D=128要大,但是为何在实际的测试中,基于R600的RadeonHD2900XT并没有取得对G80/Geforce8800GTX的性能优势?本章将试图从两者流处理器设计差别上来寻找答案,对于纹理单元,ROP,显存带宽则不做重点讨论。事实上,R600的显存带宽也要大于G80。我们将从频率和执行效能两个方面来说明问题:1、频率:G80只拥有128个1D流处理器,在规模上处于绝对劣势,于是nVidia采用了shader频率与核心频率异步的方式来提高性能。Geforce8800GTX虽然核心频率只有575MHZ,但shader频率却高达1375MHZ,即SP工作频率为核心频率的两倍以上,而R600则相对保守地采用了shader和核心同步的方式,在RadeonHD2900XT中,两者均为740MHZ。这样一来,G80的shader频率几乎是R600的两倍,于是就相当于同频率下G80的SP数加倍达到256个,与R600的320个接近了很多。在处理乘加(MADD)指令的时候,740MHZ的R600的理论峰值浮点运算速度为:740MHZ*64*5*2=473.6GFLOPS 而shader频率为1350MHZ的G80的浮点运算速度为:1350MHZ*128*1*2=345.6GFLOPS,两者的差距并不像SP规模差距那么大。2、执行效能:G80虽说shader频率很高,但由于数量差距悬殊,即使异步也无法补回理论运算速率的差距。于是,要寻找答案,还要从两者流处理器的具体设计着手。在G80中,每个矢量操作都会被拆分为1D标量操作来分配给不同的SP来处理,如果不考虑指令并行性等问题,G80在任何时刻,所有SP都是充分利用的。而R600则没这么幸运,因为每个流处理器只能同时处理一条指令,因而R600要将短指令合并为能充分利用SP内5DALU运算资源的VLIW指令,但是这种合并并不是总能成功。目前没有资料表明R600可以将指令拆开重组,也就是说,R600不能每时每刻都找到合适的指令拼接为5D指令来满载他的5D SP,这样的话我们假设处理纯4D指令的情况,不能拆分重组的话,R600每个SP只能处理一条4D指令,利用率80%,而对于G80,将指令拆开成1D操作,无论何时都能100%利用。而且,R600的结构对编译器的要求很高,编译器必须尽可能寻找Shader指令中的并行性,并将其拼接为合适的长指令,而G80则只需简单拆分即可。另外还需要说明的一点是,R600中每个SP的5个1D ALU并不是全功能的,据相关资料,每组5个ALU中,只有一个能执行函数运算,浮点运算和Multipy运算,但不能进行ADD运算,其余的4各职能执行MADD运算。而G80的每个1D ALU是全功能的,这一点也在一定程度上影响了R600的效能。总结:虽然R600的ALU规模远大于G80,但G80的SP运行频率几乎是R600的两倍,而且G80的体系架构采用完全标量化的计算,资源利用率更高,执行效能也更高,因而总体性能不落后于R600。第八章:尴尬的中端--Geforce8600简析在新一代中端显卡中,最早发布也是最受关注的莫过于nVidia的G84---Geforce8600系列。但是相比其高高在上的价格,它的性能表现实在不尽如人意,很多测试中均落后于价格低于它的老一代高端显卡Geforce7900GS。本章将利用前面讨论的结论对G84核心的SP处理能力作简要地分析。G84是G80核心的高度精简版本,SP数量从G80的128个锐减为32个,显存位宽也降为1/3--128bit。抛开显存位宽和TMU ROP,我们着重看SP,G84的SP频率与核心频率也不相同,例如8600GT,核心频率只有540MHZ,shader频率却高达1242MHZ,即核心频率的两倍多,我们粗略按两倍记,则G84核心相当于核心shader同步的64(个1D标量) SP,而传统的VS和PS中ALU是4D的,于是可以说G84的计算能力相当于传统VS和PS总数为64/4=16的显卡,粗略比较,它与Geforce7600(PS+VS=17)的计算能力相近。但当然,事实这样比较是有问题的,因为在G7X中,每个PS中有两个4D ALU,因而7600的运算能力高于传统PS+VS=17的显卡。下面的计算就说明了问题:(MADD操作)对于7600GT ,VS为4D+1D PS为4D+4D 核心频率560MHZ 理论峰值浮点运算速度:560MHZ*(12*(4+4)+5*(1+4))*2=135.52GFLOPS而对于8600GT:1242MHZ*32*1*2=79.4GFLOPS由此可见,8600GT的峰值运算速度甚至远低于上代的7600GT,更不用跟7900GS相比了。但是,实际情况下,迫于传统架构所限,G7X满载的情况基本不可能出现,G7X的实际运算速率要远低于理论值,而对于G8X架构,执行效率则高很多,实际运算速率会更加接近理论极限。而且支持SM4.0的G8X寄存器数目也要远多于G7X,众多效率优势,使得Geforce8600GT仅凭借少量的SP就足以击败上代中端7600GT。但是作为DX10显卡,仅仅击败7600GT显然不是最终目标,仅32SP的它在计算量要求空前之高的DX10游戏中表现极差,根本不能满足玩家要求。总结:8600GT性能上取代7600GT的目标凭借着高效的统一渲染架构总算勉强完成,但过少的SP数量使得其显然难以击败上代高端,更不用说流畅运行DX10游戏了,而高高在上的价位更使其处境不利,归根到底,nVidia对G84 SP数量的吝啬以及过高的价格定位造就了Geforce8600的尴尬,因此,就目前的情况来看,选用8600系列显然不如Geforce7900和RadeonX1950GT来的划算。

请解释显卡中的 流处理器数量 ,流处理器数量是什么东西起什么作用可以比喻的方法解答

早在微软推出的DirectX 7当中就曾经提出过一个概念——T&L(中文名称是坐标转换和光源),它可以看做是流处理器的鼻祖,随着显卡核心芯片技术的发展,在DirectX 8中。由微软首次提出了Shader的概念。并且将Shader分为Vertex Shader(顶点着色器,又称VS单元)和Pixel Shader(像素着色器,又称PS单元)。  一副游戏画面是怎么显示的呢?其中,3D物体的几何形状、光亮和阴影的控制是由Vetex Shader来实现的,而Pixel Shader是对象素资料进行操作运算的指令程序。其中包括了像素的色彩、深度坐标等资料,在GeForce 8之前,Pixel Shader和 Vetex Shader这两个参数非常重要,这两个部分的多少完全决定了显卡的性能表现,N卡和A卡双方都为了提升Pixel Shader和Vetex Shader的数量而想尽一切办法。但是,在DirectX 10这一代显卡中,业界提出了一个新的概念——统一渲染架构,就是把原有的VS单元和PS单元统一起来,统称为Shader运算单元。这也就是我们所说的流处理器(Stream Processor)。因此,上述任务就由流处理器统一执行了,既然流处理器是来自于VS单元和PS单元的统一渲染架构。那么,流处理器的作用于VS单元+PS单元的合作用就是基本相同的。只是添加了全新的处理单元——Geometry Shader(几何渲染器,又称GS单元)。 关于流处理器数目,由于A卡与N卡的架构区别(在“流处理器”的名称上A卡和N卡存在细微的差别,N卡的流处理器全称为Stream Processing,而A卡的流处理器全称为Stream Processing Units,一词之差却让两者的的性能差距有着天壤之别。而且因为A卡和N卡的GPU架构存在根本性的差异,所以流处理器的工作方式和用途也有所差异)二者在这方面不可比,同档次A卡的流处理数目约5倍于N卡,但不代表性能更强。作为衡量显卡性能的重要参数之一,同类型卡流处理器数量越多越好。在进入统一渲染架构时代后,提高Shade运行频率与效率是NVIDIA主导的设计思路,而AMD则维持庞大的流处理器数量。两种思路各有优劣。  1、N的优势和A的劣势  N卡的GPU中每个流处理器都具有完整的ALU(算术逻辑单元)功能,在发出一条操作指令时每个流处理器都能充分工作.而A卡的GPU中每个流处理器的5个流处理单元都是固定的,不能拆开重组,如果在处理纯4D指令的时候,每个流处理器只能处理一条4D指令,有一个流处理器单元闲置,但却无法加入其他组合来共同工作.  简单地说,一个指令任务派发下来的时候,N卡的GPU是需要1个“人”独立工作即可完成。而A卡的GPU则需要5个“人”。结组工作才能完成ATI的人数虽然多,但这5个“人”中有可能会有4个“人”闲置,因为这4个“人”不具有独立完整的ALU功能,不能执行函数运算,浮点运算和Multipy运算。  2、N的劣势和A的优势  ATI的设计也有其显著的特点——浮点运算能力强大。也就是说如果单纯比拼显示核心在浮点运算上的能力的话,可能ATI则要强一些,在目前GPGPU(通用图形处理器)项目应用比较多的科学计算方面,理论上能适应GPU和CPU融台的趋势。

pixel 4d保存的文件在哪里

打开我的电脑-C盘-工具-文件夹选项-查看-下拉滚动条找到隐藏文件夹


声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,谢谢。

上一篇: 华为事件最新进展(华为被取消5000万项目中标资格,其中的原因有哪些)

下一篇: 联想a858t官方刷机包(联想手机a658t刷机怎么刷机)



推荐阅读