我们以奔腾 IV 为例来分析一下 CPU 的性能。众所周知,奔腾 IV 是迄今为止流水线最长的 CPU,一共有 20 段,相当于一条指令有 20 道工序。根据统计,程序指令中,大约有 20% 是分支判断指令,也就是说,完成 100 条指令,CPU 需要预测 20 次,预测准确率为 95% 的话,这 20 次中将有一次预测出错。我们可以举个最简单的例子,如下面一段程序:for (i=0;i<20;i++) { ... }。
假设每次循环要执行五条指令,20 次循环正好 100 条指令,而其中前 19 次都预测正确,最后一次预测错误。那么,前 99 条指令共需要 99 个时钟周期,最后一次预测错误,需要清空流水线重新执行,奔腾 IV 的流水线有 20 段,那么这最后一条指令还需要 20 个时钟周期。完成这 100 条指令一共就需要 120 个时钟周期。按照概率原理,平均每 100 条指令都需要 120 个时钟周期,也就是说,1.5GHz 的奔腾 IV 其实际工作效率相当于 1.5 X 100/120 = 1.25GHz,所以说,1.5GHz 的奔腾 IV 和 1.2GHz 的速龙差不多也就不足为奇了。不过,奔腾 IV 最大的优势就是可以轻松突破 2GHz,而雷鸟核心的速龙到了 1.2GHz 就很难再有所作为了。
奔腾 IV 的核心已经非常复杂了,继续加长流水线不但难度更大,而且会因为预测错误,其执行效率更低,一味加长流水线的方法,显然是不可取的。
提升 CPU 速度的两种方法:加大集成规模和加长流水线,似乎都已不可取。那么,如果没有新的制造工艺或者新的制造材料出现,CPU 的速度无法进一步提高了吗?
很多人可能都有这样的经验,有一些服务器程序,比如 MUD LIB,装在一台奔腾 III 733/Widnows NT 上, 其响应速度远远不及装在某些 Unix 服务器上,尽管这些服务器的 CPU 可能只有 300MHz。原因何在呢?这些服务器的 CPU 多半采用的是 RISC(精简指令集)指令,而且其重点就放在网络及服务上。如果你在它上面跑一些多媒体应用,其速度恐怕就不敢恭维了,但是,有在它上面跑多媒体应用的必要吗?
这里,我们或许能够得到一些启发。其实,每颗 CPU 都有它特定的用途,也许拿它跑多媒体应用,也许拿它跑服务器进程,也许拿它来进行办公处理,也有许多是用来上网、玩游戏的,但很少会要求哪颗 CPU 必须满足全方位的应用。既然这样,我们为何不把 CPU 定一下位,专门针对某方面的应用进行开发设计,去掉不需要的多余指令和功能,降低 CPU 的复杂度,并强化某些指令。这样,一方面,由于减少了一些 CPU 工作以及一些电子元件,CPU 可以以更高的频率工作,另一方面,即使不提高工作频率,CPU 运行特定程序的速度也快的多。
还是举个例子来说吧。在一般的办公自动化应用中,主要处理一些报表数据,以及在企业内部网络上传递信息。那么,它的重点就应该放在整数处理及网络应用上,至于浮点运算性能及多媒体应用是不必花什么精力的。而浮点运算和多媒体处理的微电子元件在一般的 CPU 结构中占了很大的比重。如果我们把这方面弱化,而强化整数运算和网络应用,可以大幅度降低 CPU 复杂程度,提高 CPU 的频率和执行效率,处理速度就要快多了。
如果我们的 CPU 主要用于一些复杂的图形处理,比如玩游戏呢?一台索尼 PS 游戏机,其处理器绝对不会比奔腾 II 350 更复杂,但它处理游戏的效果要比奔腾 II 甚至奔腾 III 还要出色。个中原因很简单,PS 的处理器就是为游戏而设计的,它的指令集和体系结构都比奔腾 II 更适合处理游戏,所以它的游戏效果更出色。同样的道理,如果要生产一台主要用于游戏的电脑,我们也可以去掉一些用不着的指令,并进行相应的增强处理,比如在 CPU 中集成图形加速电路,或者音效处理电路,把原来必须交由显示卡和声卡的工作直接放在 CPU 中处理,减少了周转环节,自然就少了一些瓶颈和延迟时间,这样,即使 CPU 的工作频率并没有提高,但游戏性能却有大幅度的提升。