虽然基准本身就有争议,而且并不总是代表现实世界的表现,但它是任何类型的量化评估的重要工具。这就是为什么书呆子们对它们着迷的原因。不只是书呆子:公司使用第三方基准结果来对数百万美元、有时是数十亿美元的投资做出决定。因此,当有人发现一家公司将其比喻的拇指放在秤上的证据时,它可能会产生重大影响。最近一些非常具体的英特尔至强CPU基准测试就是这种情况。
标准性能评估公司,也就是更广为人知的SPEC,已经在其广受欢迎的工业规范CPU 2017测试的2022年和2023年版本中,宣布其自己测试至强处理器的2600多个结果无效。在调查后,SPEC发现,英特尔使用了编译器,引用这些编译器的话说,“使用SPEC代码和数据集的先验知识,执行专门提高523.xalancbmk_r/623.xalancbmk_S基准测试性能的编译,以执行适用性很小的转换。”
用外行的话说,SPEC指责英特尔专门针对其基准测试对编译器进行了优化,这意味着结果并不能表明最终用户在现实世界中期望看到的性能。英特尔的定制编译器可能会将规格测试的相关结果夸大高达9%。有关更多技术细节(坦率地说,其中许多超出了我的comsci理解水平),请通过Tom的硬件查看ServeTheHome和Phoronix的报告。
SPEC在回顾自己的基准数据库时发现了这些结果,虽然它不会为了历史记录而删除它们,但它会在自己的报告中使它们无效。在最新的工业至强处理器,第五代Emerald Rapids系列中使用的稍新版本的编译器没有使用这些据称的性能增强API。
我要指出的是,Xeon处理器和SPEC 2017测试都是一些针对工业和教育应用的高级硬件,与我们通常覆盖的消费市场并不是特别相关。但为了吸引眼球的基准,公司给自己的芯片增加一点吸引力并不是什么新鲜事。最近,整个行业的移动芯片供应商(高通、三星和联发科,为几乎所有非苹果手机提供芯片)被指控实际上伪造了2020年的Android性能结果。对公司自己的自我报告基准进行干预的指控非常常见,这些基准往往没有具体的参数,因此无法核实。
有话要说...