回首页
小熊论坛 | 用户名: 密码: 没有注册?
我现在的位置:小熊在线首页 -> 显卡频道 -> 正文

让世界匍匐在我脚下-8800GT皇霸测试

BEAREYES.COM 北京 [ 原创 ] 作者:小熊在线——WolStame 日期:2007年10月29日


第10页:GeForce 8的多执行诸体系(1)

前面我们已经提到,存储器的延迟绑住了GPU的手脚,而越来越非线性化的shader更让单纯依靠增加平行管线提升性能的GPU举步维艰,那么GPU要如何来避开这两个障碍呢?答案就是多执行诸体系(Multi-Threading Computing Pipeline),多执行绪是提高各个核心或流水线的执行效率,隐藏内存存取的延迟的有效途径。实际上,第一个基于多执行诸体系的GPU并非G80。早在NV40和R400(R520的前身,与我们熟悉的R420是完全不同的体系)上,为了掩盖存储器延迟,提高Shader执行效率,ATi和NV就已经引入了比较完善的Multi-Threading架构。让我们来看一看Multi-Threading架构到底是如何工作的。小熊在线www.beareyes.com.cn

多执行诸架构

由于GPU本身的工作环境就很容易平行化,所以对GPU而言引入Multi-Threading其实要比CPU简单。在支持Multi-Threading的GPU工作的时候,线程管理调度器会对所有刚进入流水线的shader做如下分配:1.计算能同时存在多少个Thread。这个数量一般是总的寄存器资源除以每个thread的寄存器数量然后向下取整;2.将可用的任务分配到所有的thread上;3.每个Thread包在执行的时候,标记它的stall(停顿,一个典型的停顿是一段包含Texture Fetch指令的shader,因为Texture Fetch指令要把纹理数据从显存种读到流水线里来,是非常长的一个pass), 如果有stall,线程管理调度器就在读取纹理数据的时间段内先暂停这个Thread,然后切换到另一个thread包(warp or bank)送给ALU,让其它指令以Thread的方式持续执行,不会为了存储器延迟而将整个Shader停止。如果分辨率是1600x1200 Pixel的话,就相当于有这么多的task得做。每个Pixel本身都是独立的,所以可以做成彼此不依存的平行化(实际上受成本的影响不可能做这么细,现在的GPU一般是将数个Pixel合在一起称为一个Block,每个Block作为一个分支来执行)。小熊在线www.beareyes.com.cn

G8X架构的将Shader转化为平行线程的处理流程

相比之下,CPU通常只需要执行一个、顶多两个的task,主要需要进行的工作通常只有一个。所以CPU通常希望某个Thread的指令1执行之后,马上可以在之后执行指令2。也就是说,CPU执行的软件thread平行度很低,需要执行的Thread数量不大,所以希望单一个Thread可以尽量不停顿地不停执行,而演变成可以快速地执行一个Thread的结构;而GPU执行的软件则因为Thread平行度很高,就变成了某个Thread要是停顿就立刻换到其它Thread执行的结构。需要执行的Thread数量很大-所以不停地在执行绪间切换。所以对GPU而言,采用多执行绪是很自然的事情。小熊在线www.beareyes.com.cn

Multi-Threading掩盖存储器延迟的实例

实际上,Multi-threading的本质思想与增加管线是一致的,那就是提高GPU的并行性,让GPU在同一个周期里能够执行更多的指令。只不过单纯增加渲染管线提高的是执行单元本身的并行性,而Multi-threading提高的是线程级并行性,后者更为灵活实用。小熊在线www.beareyes.com.cn

作为最新一代GPU,G8X最大的特点之一就是摒弃了已往单纯通过增加平行管线数量来提高整体平行度的做法,而是通过提高线程级并行性,改善平行管线本身的平行度来提高效率,提高总体平行度。小熊在线www.beareyes.com.cn

《GeForce 8的多执行诸体系(2)》...继续下一页>>

《重新定义真实,全新的设计思想-革命性的G8x登场》...返回上一页<<


[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [上一页] [下一页]

《让世界匍匐在我脚下-8800GT皇霸测试》分页索引


第1页:DX10 困局
第2页:DX10 API
第3页:DX10先进特性介绍
第4页:DX10 先进特性介绍 续
第5页:历代NVIDIA经典显卡回顾
第6页:从TNT到GeForce
第7页:步入shader纪元
第8页:王者归来
第9页:重新定义真实,全新的设计思想-革命性的G8x登场
第10页:GeForce 8的多执行诸体系(1)
第11页:GeForce 8的多执行诸体系(2)
第12页:GeForce 8的标量化渲染单元(1)
第13页:GeForce 8的标量化渲染单元(2)
第14页:GeForce 8的模块化频率异步架构
第15页:GeForce 8对DirextX 10的支持
第16页:GeForce 8在通用计算方面的潜力
第17页:8800GT-一个并非全新,但却依然拥有革命性的产品
第18页:参测显卡介绍-XFX-Geforce 8800GT(上)
第19页:参测显卡介绍-七彩虹 Geforce 8800GT(下)
第20页:参测显卡介绍-七彩虹 Geforce 8800GT(上)
第21页:参测显卡介绍-七彩虹 Geforce 8800GT(下)
第22页:8800GT重要提升之处-65nm PCIE2.0 改进ROP以及TRAA(上)
第23页:8800GT重要提升之处-65nm PCIE2.0 改进ROP以及TRAA(下)
第24页:8800GT也高清-整合全新一代的PureVideo HD
第25页:关于各类编码的详细分析(上)
第26页:我们用户关心的事情是?
第27页:什么编码最令人头痛
第28页:什么样的CPU能够满足H264/VC-1/MPEG2片源软解的要求
第29页:AMD/INTEL多达11款CPU的纯软解压测试-H.264
第30页:AMD/INTEL多达11款CPU的纯软解压测试-VC-1
第31页:AMD/INTEL多达11款CPU的纯软解压测试-MPEG2
第32页:G92 PureVideo HD开启与否测试
第33页:测试平台介绍
第34页: 超频以及3Dmark05测试
第35页: 失落的星球:极限状态(Lost Planet)DX10实际测试
第36页: 英雄连(Company of Heroes)DX10实际测试
第37页: 世界冲突(World in Conflict)DX10实际测试
第38页: 生化震撼(Bioshock)DX10实际测试
第39页: 鱼雷快艇:海上骑士(PT Boats: Knights of theSea)DX10实际测试
第40页: 孤岛危机(Crysis)DX10实际测试
第41页: 潜行者:切尔诺贝利的阴影{S.T.A.L.K.E.R}实际测试
第42页: 虚幻竞技场3(UT3)实际测试
第43页: 彩虹6号:维加斯(Tom Clancy’s Rainbow Six)实际测试
第44页: 使命的召唤4(Call of Duty4)实际测试
第45页: 时空飞梭(Timeshift}实际测试
第46页: 雷神战争(Quake Wars)实际测试
第47页:总结

全文

BEAREYES.COM 北京 日期:2007年10月29日

网友评论:(请各位网友遵纪守法并注意语言文明,留言仅供参考不代表本站立场) TOP↑
用户名: 密码: 没有注册?
点击排行
留言排行
小熊在线公司版权所有 beareyes.com ©1999-2007 All Rights Reserved
本网站由 北京快网 提供FastDNS智能解析服务