在加利福尼亚州圣何塞举行的为期两天的英特尔创新大会上,这家芯片制造商正式发布了其预期的“流星湖”,这是其面向客户计算机处理器的下一代架构。我们用粗略的笔触解释了流星湖芯片的结构,以及围绕新芯片的总体设计决定。流星湖芯片将于12月14日在新的英特尔酷睿Ultra品牌下首次亮相。这是几十年来英特尔处理器最大的一次重塑。但我们之前的故事仅仅是英特尔在发布前介绍的长达数小时的简报和深入研究的精华,强调了新硅的设计决定和基础。
PCMag与英特尔设计工程集团副总裁兼SoC设计总经理蒂姆·威尔逊进行了简短的会面。他一直是流星湖发展的关键,我们能够围绕流星湖的起源提出一些问题和澄清。以下是我们的对话,为简洁和清晰起见,略微编辑了一下。
PCMag:Tim,也许我们可以从简单的介绍开始,然后我们可以开始问一些问题?
蒂姆·威尔逊:好的,当然。所以,很高兴能和你们聊天。我叫蒂姆·威尔逊。正如帕特[英特尔首席执行官盖尔辛格]今天上午所说的那样,在过去的几年里,我一直在领导流星湖的开发,从最初的开发一直到接下来几个月,即12月14日,在这里发布产品。我们非常兴奋,我们为我们的产品感到非常自豪,并很高兴与您谈论这一点,回答您的任何问题。
PCMag:那么,让我们从小芯片开始。我们从Meteor Lake简报中了解到,Meteor Lake基于芯片的设计具有以下三个方面的优势:(1)无需重新设计整个单片芯片即可升级处理器的一部分,(2)在将组件集成到更大的芯片之前对其进行装箱或预先测试的能力,以及(3)将不同的瓷砖降级到不同的制造工艺、甚至不同的制造商的能力。我们的问题是:在流星湖和未来的设计中,英特尔是否会从基于芯片的设计中获得其他不太明显的优势?
威尔逊:你勾引了三大巨头。今天,在我们的现代客户SoC中,我们有很多非常多样化的IP[知识产权]。因此,在一片硅片上用单个晶体管和工艺节点特性来共同优化所有这些功能,开始给我们同时优化所有这些功能的能力带来压力。因此,一个很大的优势是能够将IP与具有它最重视的特征的流程节点合作,对吗?对于我们来说,将SoC的所有组件一起进行优化是一种“产品善”的优化能力,这是我们以前在没有平铺架构的情况下无法做到的。
我们的另一大优势,您提到的:我们从根本上降低了门槛,在最新的流程节点上引入了新的高价值IP,这是我们以前使用单一设计无法做到的。我想你提到的第三件事,就是独立测试的能力。这更多的是在制造方面,而不是客户可见的优势,但从制造测试能力的角度来看,这肯定是我们的优势。但就如何将其转化为我们的客户将看到的善而言?我认为这是优化和我们的能力,更快地移动与我们最新的酷新东西集成到PC。
PCMag:那么,从设计师的角度来看,使用这种设计真的没有任何其他需要或愿意分享的主要优势吗?
威尔逊:我想这些就是关键。我会说,从设计师、开发者和架构师的角度来看,这些都是有趣的事情。在经济和产品成本等方面,还有更多我称之为无聊的东西,但就打造酷东西而言,这是我看到的价值主张所在。
PCMag:我们的下一个问题实际上涉及到其中一个问题。改用这种生产方式对制造成本和生产时间有何影响?添加额外的资源是否需要新的插入器?
威尔逊:是啊,它会有什么影响?我要说的是,有看跌和看跌。每一块都比整个SoC简单。这使我们能够在将SoC组合在一起时分解SoC的一些测试时间、测试程序和可制造性组件。另一方面,制造业确实需要我们先进的包装能力,Foveros,我说过了,你们也看到了,对吗?这是一种比我们以前更复杂、更先进的包装技术,这为我们的组装过程增加了几个额外的步骤。总体而言,我认为这是积极的。像流星湖这样的全新产品,我们第一次把所有东西都集中在一起。这是一个很大的提升。现在我们有了基线,我可以在我的下一代项目中再次完成这一大动作,或者我可以做不同的组件并抵消这一点。我认为,我们可以通过多种方式利用这一点,最终实现净收益。
PCMag:考虑到所有的讨论都是关于笔记本电脑和移动设备,Meteor Lake对未来的桌面设计是否意味着有别于移动设备的本质上的东西?
威尔逊:问得好,问得好。这对很多人来说都是头等大事。我首先要说的是,这种架构将在我们的客户群中从上到下扩展。从桌面一直到移动设备。对于流星湖,我们将首先推出移动设备。这在很大程度上与,如果你回想一下我做的主题演讲,我们设计产品所依据的四个关键设计原则有关,这些原则实际上首先是针对移动领域的。我们建造的最省电的SoC…我们希望在移动设备上做到这一点。2倍的集成显卡功能-将独立显卡融入到集成外形中-适用于移动设备。人工智能同样适用于这两种情况。我想说,但由于该产品的价值主张,也就是我们试图打造的东西,我们首先瞄准了移动设备。但您也会看到该体系结构从上到下、从上到下扩展到桌面。
PCMag:关于这一点,你可能不能透露太多细节,但是–路线图显示英特尔3、英特尔20A和英特尔18A就在不远的地方,我们可以预期这些芯片节点会有什么样的改进,它们会攻击不同的细分市场吗?我们之所以这样问,是因为听起来你会遇到一点进程僵局……
威尔逊:四年内五个节点肯定是一个激进的计划。
PCMag:是的,是的。
威尔逊:所以你的问题是,不同的流程节点会针对不同的细分市场吗?我们会陷入僵局吗?我想对第一个订单说–当然不深入细节–这些流程节点中的任何一个都不是导致我们针对一个细分市场与另一个细分市场的根本原因。
我想你会看到的,就像我们首先在移动设备上推出流星湖一样;我们过去首先推出了桌面,这是一个不同的项目。这在很大程度上是一个设计、体系结构和产品定义的决策,而不是真正绑定到流程节点。因此,我不会解释关于流程节点的任何内容,我们首先从这些流程节点中的哪个段启动。
当然,他们中的每一个,你会发现我们会首先推出一些细分市场,因为我们不会一次性推出我们的整个路线图,对吗?市场无法消化这一点。我们的客户不能那么快地消费它。因此,你会继续看到我们,取决于我们在什么时候优先考虑什么产品,以及我们路线图的哪个部分,我们可能首先推出台式机,也可能首先推出移动设备。可能会先有服务器。但这实际上只是我们正在构建的路线图,并不一定是“这个过程针对这个特定的细分市场进行了调整。”
PCMag:很公平。
威尔逊:我要补充的另一件事是:如你所知,其中几个节点是IDM 2.0的代工节点,对吗?Intel 3、Intel 18A。因此,这些不仅仅是英特尔的节点,那些是广泛的……我们向世界敞开大门,以这些代工节点为基础。这就是为什么我们肯定不会以任何一个细分市场为目标的原因。它们也将成为铸造厂客户的绝佳节点。
PCMag:跟进一下,今天提到的箭湖、月球湖、黑豹湖是怎么回事?这些建筑会有细分吗?
威尔逊:那么这些都是客户产品,对吗?帕特展示的那张幻灯片是我们的客户路线图。然后我们就有了不同的服务器路线图。除此之外,我只想说:我会把一些悬念留给我们未来的发射活动,关于我们将首先瞄准什么,以及在那里。
PCMag:更多关于流星湖的建筑–这里是显微镜下的更多。在新的磁贴设计中,除了计算磁贴之外,是否还有其他磁贴可以绑定到更低的级别,或者其他磁贴是否或多或少受到通过/失败的影响?它真的是这样运作的吗?我们是否误解了装箱和质量保证流程的工作方式?
威尔逊:问得好。有多种方法可以回答这个问题。所以……我要说的是,任何一块瓷砖都不是最基本的。这对知识产权来说是更基本的。绑定亲和力遵循IP,而不是磁贴。也许我应该这么说。
当然,我们还没有透露我们SKU堆栈的所有细节,但你会看到,随着我们推出Meteor Lake,我们在不同的细分市场中有多种配置-在即将到来的未来细分市场,也有不同的配置。所以你肯定会看到打包配置……IA[英特尔架构]核心是每个人最喜欢的东西,那里什么都没有发生。我们将继续利用这一点。但你已经看到我们在过去的不同领域发布了不同的图形堆栈。可能是媒体或成像。所有其他区块都有对它们有价值的部分,也有可能没有价值的部分。我们一直在关注这一点。但对于任何一种磁贴来说,我们可以或不能基于该磁贴进行绑定,这一点都不重要。这更多地取决于内容和我们围绕是否将IP打包是否有意义的选择。
PCMag:很公平。所以,对于流星湖上的一些单独的瓷砖,Compute和SoC瓷砖,我们有几个问题。SoC Tile上的低功耗岛上的新低功耗内核将处理哪些类型的实际应用程序,而Compute Tile上的高效内核则是如此?这说得通吗?
威尔逊:是啊,问得好。思考这个问题的方法–也许我会从一般的角度出发,然后我会详细说明我们希望在流星湖上降落在哪里–我们已经降落在哪里。你会看到其中的一些,我们在马来西亚的ITT上有一个相当酷的演示。我们这里可能也有。
因此,P核、E核可以看作是专为高强度计算应用而设计的高强度计算核心。P-core,你知道:毫无疑问,单线程的性能领先地位。这叫轻线程工作负载,只想要最好的单线程机器,这就是我们的P-core,对吗?
我们现在有很多工作负载是多核、多核类型的工作负载。当然,数据中心正在向PC迁移。Compute Tile中的E-core,以及我们在首次实例化混合[架构]时在“Alder Lake”上添加的E-core,为这些多线程工作负载带来了巨大的性能提升,对吧?我们在流星湖上的支柱之一是建造有史以来最省电的SoC。因此,在这种情况下,我们退一步说,“嘿,今天有一大类工作负载需要一定量的IA计算,但远不及我们的E-core或P-core所能提供的高强度计算。”这就是在SoC瓷砖中诞生低功耗E-core的原因。我们说,“嘿,我们可以为需要一些计算但只需要足够计算的整个工作负载实现更高的能效-然后,该计算中可能的最低功率是多少?”
以常见的视频回放流媒体场景为例。整个工作负载都得到了控制,并落在了流星湖的SoC E核上。该工作负载是非常媒体密集型的。该媒体块位于SoC磁贴中,而且它也是内存密集型的,需要对内存进行大量读写操作。显示也是如此。这些都是流星湖上的SoC瓷砖。在SoC磁贴中放置这些E-core允许我们在该工作负载中完全关闭Compute Tile的电源。因此,我们不会花费电力来唤醒它,关闭它的电源,唤醒它,关闭它的电源,使用高性能的环路结构和LLC[低级缓存]和内核等诸如此类的东西。
这些E-core类似于Compute Tile中的东西–事实上,在架构上,它们与Compute Tile中的E-core相同。但我们已经对它们进行了优化、设计和融合,以便在低电压下优先考虑低功耗,而不是针对MT[多线程]进行计算。这使我们能够在一个更有效的点上运行它们。视频回放,流媒体是每个人都理解和知道的。但这种类型的工作负载将在这些SoC核心上运行。
PCMag:这就引出了我们的另一个问题:你能在多大程度上推动低功耗视频播放?是否支持当今常见的所有分辨率、比特率和刷新率?或者,比如说,有没有一个转折点,你需要转移到Compute Tile?
威尔逊:有。所以你可以自己测试一下,看看。我想我们演示的是1080便士。如果你连接了一台8K的显示器,你有24位的颜色,我猜工作量会转移到像Compute Tile上的E-core这样的东西上。当然,在某个时间点上,工作负载将迁移到核心,以便为其提供必要的计算能力。但是标准的,“我有我的笔记本电脑,我正在用1080p,甚至4K的显示屏和你说话”,我希望它能在SoC产品上运行。
PCMag:现在,会不会有这样一种情况,PC可能会启动P核、E核和低功率E核,以实现“所有发动机,全速油门!”情况?
威尔逊:当然可以。我会说,是的,这绝对是一个有效的工作量。这些都是内燃机核心。它们在操作系统中显示为IA核心。你打开你的任务管理器,你可以看到他们全部。而我们实际展示的视频回放演示,我们实际上打开了Windows任务管理器,并显示了两个SoC核心是唯一有任何活动的,对吗?因此,从软件的角度来看,它们看起来就像一个核心,就像其他任何东西一样。
现在,我要说的是,在多线程、多线程的工作负载中,您将在Compute Die上做很多这样的事情。将这两个核心添加为您的最后两个核心,这两个核心针对低功耗而不是针对性能进行了优化,您不会看到前20个线程和这里的最后两个线程之间的显著增量,这些线程的计算密集度不如您在那里启动的第一个线程。所以,不要把它看作是,“嘿,这就是我对MT性能的又一次提升!”这不是这些核心的目的,对吗?我们构建了Compute Tile来管理卓越的MT性能。这些都是特制的。因此,它们当然可以并行运行,但如果是这样,您将不会看到根本的性能差异。
PCMag:另一个关于E-core的问题–或者说,我应该说是低功率E-core。除了这一次适应新内核之外,线程导向器还做了哪些其他更改?它是否更精细地将测试分配给不同的核心,或者,鉴于您拥有这种新的核心,是否有任何类型的高级线程控制器增强可以谈论?
威尔逊:我们肯定对Thad Director做了几个增强。我可以给你一个高层次的概述,然后如果你想深入了解细节,我可能不得不让Rajshree[Rajshree Chabukswar,一名情报人员]参与进来。她在马来西亚ITT上做了一次演讲,你可以和她交谈。她是专家。
但从根本上说…是的。鉴于你有一个P核和一个E核,所以操作系统有两个选择。那么,我们现在为操作系统增加了第三个选项,对吗?因此,我们绝对需要向操作系统提供调度提示和指导,以对工作负载类型进行分类,从而说,嘿,这是您的工作负载类别。这应该会落在SoC的E核上。不同的类型,这应该落在您的计算瓷砖E-核心或计算瓷砖P-核心。Thread Director的目的是查看工作负载的配置文件,并帮助操作系统确保将其安排在核心上,从而为您提供最佳的功率和性能权衡。
这样做需要很多算法,在什么情况下我们将工作负载从SoC E核迁移到Compute Tile E核,甚至迁移到P核,反之亦然。你想深入了解这些工作量的血淋淋的细节,我会把我的好朋友拉杰什里叫来,让她告诉你所有的细节。我不会假装知道所有这些。
但在你的问题的核心,是的,线程导向器有重大的增强,以帮助操作系统充分利用这些核心的所有功能。
PCMag:在这种情况下,Win 10和Win 11有什么不同?如果你在其中一个或另一个下面运行流星湖,有显著的区别吗?至少在最初的笔记本电脑上,你可能只会在Windows 11上看到它,对吗?但最终,你会有一些人…
威尔逊:你知道吗?这是一个非常好的问题,我不得不承认我对这一点一无所知,从这个意义上说,我们……显然,流星湖将在Win 10和Win 11中顺利运行。我们完全验证了这两个。就你所看到的它们之间的细微差别和差异而言?事实上,这是个好问题。让我们回到你的问题上来。
PCMag:我们关于计算和SoC磁贴的最后一个问题是:如果对SoC上的内存控制器进行了任何更改,您能简要介绍一下吗?
威尔逊:当然。所以内存控制器,最大的变化基本上是迁移到最新的内存技术。我们在流星湖上同时支持DDR5和LP5。我们会同时拥有这两个系统。在LP5上最高支持7467,在DDR5上也支持下一代速度。这些都是主要的。我们也做了一些能效改进。其他一些改进,但主要是对流星湖即将推出的最新一代内存技术的支持。
PCMag:那么,让我们来看看NPU。快速问题:为什么要把NPU放在SoC瓷砖上,而不是放在其他瓷砖上?
威尔逊:问得好。这实际上只是归结为一个设计决定,一个架构决定。所有这些的关键点,如果你遵循我们对我们的,我们所说的“下一代非核心”所做的根本架构改变,对吗?SoC机箱。关键之处在于,它们在交换矩阵上都有自己的独立连接点,并可访问完整的系统内存带宽。除此之外,问题变成了,只有设计决定哪个IP放在哪个瓷砖上。这是第一次将NPU实例化到我们的客户端PC中,并且重点是该NPU中的节能功能,因此将其放在SoC块中是有意义的。
PCMag:所以没有什么像带宽或接近芯片的其他部分或类似的东西?
威尔逊:没有。再一次,我会说,是的,你现在有了一台真正的AI PC,我会称之为真正的XPU,对吗?我现在有三个最喜欢的孩子:CPU、GPU和NPU。它们都看重相同的东西:内存的低延迟、内存的高带宽,但程度不同。但他们都是业绩代理。考虑到这一点,我们对所有这些进行了优化。
PCMag:那么对于消费者–也就是我们的大多数读者–你认为什么类型的应用程序或工作流在短期内会从NPU的存在中受益最大,这些应用程序或工作流将接触到他们的日常计算生活?
威尔逊:问得好。有几个地方我们特别关注了流星湖的体验。其一是合作。另一个是内容创作。协作,这是我过去向一些人描述的例子之一:以[微软]团队为例。随着疫情的蔓延,它确实从根本上开启了在线协作的新纪元。就像我们在这里说话一样,对吧?
PCMag:当然可以。
威尔逊:你们可能会像我一样经历–几乎每个工作日–我一天要多次使用团队。这很棒,但并不理想。事实上,我们只是把笔记本电脑搬到这里来向人们展示一些东西,而我们在这里有一个虚假的背景。如果你在Zoom上,你曾经不得不拿着一个物体,试图让它展示给人们,我们都看到过有人跳小鸡舞,试图让它展示出来,而不是消失在背景中,对吗?这就是一个完美的例子。人工智能的一个完美用例:拍摄并增强,更好地检测物体,或者更好地,在夏威夷或任何你想在拨入会议时假装坐着的地方,更清晰地显示你的虚假背景。
另一个是,你知道,迈克尔,我们只是在这里[亲自]看着你,眼神接触矫正。[我们的一名记者和蒂姆·威尔逊在房间里,其他人在一个团队电话会议上。]另一个常见的例子是你有多个屏幕,你在这个屏幕上演示,但你的相机在另一个屏幕上。你看到的是你的素材。实际进行翻译的能力,在[视野]中跟随你。在协作领域有各种类似的体验,我认为NPU、AI功能和PC近期将从能力的角度进行转换。然后在一个能效点为你提供这种能力,当你尝试做人工智能的事情时,你仍然有超过5分钟的电池寿命,对吗?
PCMag:好的,明白了。
威尔逊:这是一个关键的例子。另一个是内容创作空间,帕特展示了一个有趣的视频,在那里创作者可以拿着一个音频片段或声音说,嘿,我想把它翻译成不同的声音!或者,假设我有一个我想要创建的形象。我想创造一个夏威夷的形象,我想要它有棕榈树,我想要它有卡阿纳帕利海滩,一张卡阿纳帕利海滩的照片,我不想让它的地平线上有任何船只。人工智能可以创造出这样的东西,对吗?无论是音频,还是视频,还是图像。创造者天生就是有创造力的。他们找到了各种各样的事情要做。在我看来,这是我最想举的两个短期内的例子。
我想说的另一件事是:它仍然有点像狂野的西部。似乎每周,每隔几周,就会有一个新的例子,一个新的用例,一个新的,“嘿,看看有人刚刚用ChatGPT或AI做了什么!”我认为我们正处于这种冒险的开始阶段。
PCMag:同样,考虑到人们习惯使用的大多数流行的LLM最初是通过云计算和服务器硬件实现的,最终用户对NPU支持的AI工具的质量、准确性或速度有什么期望?
威尔逊:你正在研究人工智能的一些架构细节,这些细节超出了我的深度–我们总是可以请来专家–但我不认为在准确性或能力方面有根本的权衡,就像计算能力一样。是的,很多事情都发生在云中。就个人而言,我看到了一种推力和一种拉力。来自云提供商的推动,他们现在开始说,“天哪!我们有10亿人都在尝试这样做。世界上没有足够的数据中心让我们处理这个问题。我们必须把一些数据中心推到边缘。”
然后有点–好吧,不止是一点点–从边缘拉出来说,“嘿!我不想每次我想要能够使用我的人工智能时都必须访问云!”也许我甚至没有连接到Wi-Fi,也许我正在离线工作。我不想真的非得这样。大多数时间我都在上网,但偶尔我在飞机上,我在一个我没有连接的地方。我不想受此束缚才能使用人工智能。
我认为,推向边缘或云端不会是精确度的函数。无论在哪里运行,LLM模型都是算法的函数。这将更多地取决于什么在边缘高效、良好和更好地运行,而不是我需要在云中的哪里进行计算。这就是为什么我认为这将会发展。
PCMAG:对于NPU,我认为NPU是分开的。它有两个计算引擎,对吗?
威尔逊:我们有两块瓷砖。你有两块瓷砖,是的。
PCMag:所有版本的流星湖、流星湖家族都是这样吗?
威尔逊:所以,我们会留下一些悬念,当我们推出时,但我会说人工智能将被启用-如果你购买了流星湖,你可以相信你已经在流星湖上启用了人工智能。
PCMag:最后一个问题:你如何区分英特尔在NPU上做了什么,苹果在神经引擎上做了什么,或者AMD在Ryzen AI上做了什么?它们是不是在某种程度上都是一样的,或者你想要强调的关键区别是什么?
威尔逊:出于很多原因,我会避免猜测我们的竞争对手在用他们的人工智能引擎做什么。我会简单地说,我们对NPU、AI和Meteor Lake的关注实际上是围绕着我们对PC生态系统的观察,与微软和我们的软件合作伙伴合作,以确保他们正在构建的应用程序中的AI功能和体验将在Intel PC上的Meteor Lake上运行良好。我会想象整个生态系统的经历,有相似之处,也有一些不同之处,但推测其他人到底在朝哪个方向发展,实际上你们可能比我做得更好。
PCMag:很公平。因此,我认为我们已经超过了时间。蒂姆,非常感谢你抽出时间来。非常好的谈话。
威尔逊:我的荣幸。很高兴能和你们聊天。
有话要说...