随着API和游戏开发技术本身的发展,新的游戏引擎对GPU提出的要求也时刻在变化。过去,可能一个游戏希望GPU能提供强大的纹理贴图能力,今天的一个游戏也许对GPU的算术运算性能有很高的要求,说不定明天发布的另一个游戏,就要求GPU的Shader管线有很好的Multi-Pass能力,能轻松的使用延迟渲染......总之,无论是NV或者ATi,在为一款GPU做设计论证的时候,首要任务就是要预估准这款GPU推出时的运行环境,或者说是当时的游戏发展趋势。拥有模块化频率异步架构就是GeForce 8体系设计的另一个出彩之处。小熊在线www.beareyes.com.cn GeForce 8充分考虑到了最近几年游戏引擎的发展趋势,以及未来游戏可能出现的各种情况,进行了针对性的设计。G8X针对未来游戏Shader复杂化的潮流,采用了4×2 : 2×2 : 1 : 0.75的ALU : TF : TA : ROP的模块化设计,下面我们采用G8X的最高端产品G80来进行说明。小熊在线www.beareyes.com.cn G80具备128个1D scalar流处理器,也就是ALU,每个ALU都能在一个时钟周期内吞吐1调标准的mad指令(2Flops),如果按照人们通常习惯上的4D(3D+1D) vector ALU被称为一个管线(Pipeline)来说,具备相当于大概32条普通管线的理论浮点算术运算能力(Flops);G80没有通常意义上的TMU(纹理贴图单元)。因为NV发现新一代游戏的Shader中纹理拾取指令有减少的趋势,但随着HDR的普及,对GPU浮点纹理过滤能力的需求又在急剧上升,这实际上对TMU的要求是矛盾的。小熊在线www.beareyes.com.cn G80的单个纹理渲染阵列示意图 所以,在G8X架构种,NV将传统TMU的定址和过滤两种功能拆开,变成了负责纹理拾取的浮点纹理定址单元TA(Texture address Unit)和负责纹理过滤的浮点纹理过滤单元TF(Texture Filter Unit)。前者在未来游戏中的需求减小,因此保持在32个的规模(G80),后者因为负责浮点纹理过滤的关系(HDR等一些特效经常要用到),数量增加到64个(G80)。GeForce 8系列的ROP被分成每4个一组(ROP Array),负责一个交错内存控制器(Crossbar Memory Control)的数据吞吐,而ROP Array的最高端的G80产品一共具备6组这样的ROP阵列,控制着总共6×64bit=384bit的交错内存通道。小熊在线www.beareyes.com.cn G8X强悍的纹理过滤能力提供了真正的全角度各向异性过滤 GeForce 8在核心的电路设计上引入了一种新技术,那就是双倍速动态逻辑电路,用来构建高速的ALU处理单元和浮点纹理过滤单元。这种电路最大的特典就是能核心时钟发生器的一个周期内完成两个周期的工作,也就是说这种逻辑电路构成的ALU运行频率是核心时钟频率的两倍。这将大大提高Streaming Processors和FP Texture Filter Unit的吞吐能力。小熊在线www.beareyes.com.cn 因此,G8X体系的ALU : TF : TA : ROP比例实际上为4×2 : 2×2 : 1 : 0.75,由于采用了完全模块化的设计,因此从最高端的G80到最低端的G86,只需要按比例削减各种单元的数量就可以得到新的产品,非常方便。小熊在线www.beareyes.com.cn
|