![]()
记得关注公众号⭐️,关注推送就不会错过。现在,另一家公司想要击败 NVIDIA。据一家名为 Tachyum 的公司介绍,该公司新发布的 2nm Prodigy 芯片可提供 1024 个核心、6GHz 时钟频率、1GB 组合缓存,并支持超高速 DDR5 内存。理论上,它可以轻松应对Nvidia的Rubin Ultra。 Tachyum表示,该公司的Prodigy 2NM处理器可以在单个插槽中实现多达1024个64位核心,从而将性能提高到一个新的水平。这些内核的运行频率高达 6.0 GHz,并且可以扩展到具有多达 8192 个 CPU 内核的 16 插槽系统(1024 内核 SKU 支持 8 插槽配置)。 Tachyum 声称 Prodigy 2 将成为第一款提供超过 1,000 pflops 性能理解的芯片,而 Nvidia Rubin 的性能为 50 pflops。换句话说,该公司的芯片比 Nvidia Rubin Ultra 快 21 倍。他们还指出 ProDigy Ultimate 的 AI 机架性能e 比 Nvidia Rubin Ultra (NVL756) 高 21.3 倍,而 Promium 的 AI Rack 性能比 Nvidia ruby (NVL144) 高 25.9 倍。但他们并没有解释 Prodigy Premium 和 Prodigy Ultimate 之间的具体区别。我们先来看看这款已经被预览并多次推迟的芯片。解码tachyum芯片 尽管他们没有详细描述这款芯片,但我们可以从相关报道中得到很多提示。 Tachyum还强调,多年来,该公司不断升级其Prodigy设计,以满足服务器、人工智能和高性能设备不断变化的需求。计算市场,整数性能提升高达5倍,人工智能性能提升高达16倍,DRAM带宽提升8倍,芯片间和I/O带宽提升4倍,支持16个学会和I/O带宽提升4倍,支持16个学会和I/O带宽提升4倍带宽,4倍支持16个协会,能效提高2倍,同时降低每个核心的成本。现在,随着Prodigy芯片升级至2nm工艺,功耗大幅降低。虽然2nm晶圆价格昂贵,但减小芯片尺寸仍然可以降低成本。 Prodigy 封装中的每个芯片都包含 256 个高性能定制 64 位内核。由于许多芯片共享一个封装,因此降低功耗至关重要。在最近2.2亿美元投资的支持下,2nm神童芯片正准备流片。接下来我们来看看这款芯片的规格:规格概述:2NM架构(尚未量产),最高1024个64位核心,最高6GHz时钟频率,最高1GB LLC,最高1600W TDP,支持速度最高DDR5-17,600MT/S,支持48TB DDR5内存内存容量tb DDR Stripes 7.0 ch。 Tachyum表示,Prodigy 2NM芯片的64位微架构将支持最新的矩阵和矢量扩展,专为高性能人工智能而设计l 智能和高性能计算应用。它采用乱序执行架构,每个时钟周期可以执行8条指令。他们指出,该芯片本身包括一个 128 kb 指令缓存(I-cache)、一个 64 kb 数据缓存(D-cache)(均支持 ECC)和 1 GB L2+L3 缓存。这些 SKU 提供 32、64、96、128、256、320、384、448、512、768 和 1024 核心配置,TDP 范围为 30W、70W、140W、150W、300W、420W、550W、645W、 800W、1000W 至 1600W。 Prodigy 2nm 芯片将支持多达 24 个 DDR5 通道,速度高达 17,600 MT/s,每插槽最大容量为 48 TB。 I/O方面,将提供128条PCIE 7.0线,总共64个PCIE控制器。 DDR5-17600和PCIe 7.0的规格在现有服务器市场并不常见,所以今天提到的tachyum平台不太可能在2027年之前面世,甚至到2030年,如果能推出类似的产品也将是一个奇迹。在之前的报道中,塔奇百胜宣布,该公司的Prodigy处理器将采用多芯片设计,系统级封装(SIP)环路中的每个计算芯片将拥有256个通用核心。这意味着 SIP 上有更多的内核,从而兑现了公司的承诺:“高性能 X86 处理器的性能是高性能 X86 处理器的 3 倍,高性能 HPC 通用图形处理单元 (GPGPUS) 的性能是 6 倍。”不过,这种性能承诺存在一个问题:该公司尚未最终确定 CPU 规格,因此还没有完成芯片的流片,其实际性能还有待观察。既然规格介绍完了,我们就来看看Tachyum公布的一些性能数据。首先,Tachyum 将其 Prodigy 2nm 芯片与预计将于 2027 年发布的 Nvidia Rubin Ultra GPU 平台进行了比较。Tachyum 强调,Prodigy 通用处理器可以提供更高数量级的 AI 性能,是最好的 x86 处理器的 3 倍和 6 倍。是最快 GPGPU 的 HPC 性能的两倍。 Prodigy 消除了对昂贵的专用人工智能硬件的需求,并显着提高了服务器利用率,显着降低了数据中心资本和运营成本,同时提供了前所未有的性能、功耗和经济性。 Tachyum表示,除了所有软件开源外,Tachyum还开放其内存技术,使用通用组件将基于DIMM的带宽提高10倍,并可供内存或处理器公司授权,包括采用JEDEC标准,以实现高渗透率和低成本。 2023年,Tachyum发布了可授权Tachyum AI(TAI)数据类型,Tachyum处理核心单元(TPU)也开放许可。 Tachyum 目前正在推动 Architecture Set Architecture (ISA) 的开源实现。基于这些领先的芯片,Tachyum 创建了两种解决方案。 Prodigy Ultimate 结合了 1024 个高性能核心、24 个 DDR517.6GT/S 内存控制器和 128 个 PCIe 7.0 通道; Prodigy Premium配备16条DRAM通道,核心数量从512到128不等,可扩展至16路系统。入门级神童有 8 个或 4 个 DRAM 控制器,内核数从 128 到 32 个不等。正如 Tachyum 所说,传统的大规模人工智能解决方案可能成本超过 8 万亿美元,需要超过 276 吉瓦的电力。相比之下,Tachyum 解决方案预计以 780 亿美元和 1 GW 电力的成本实现类似的功能,使其能够被许多公司和国家采用。 Tachyum认为,该系列产品能够提升各个性能和应用领域,包括大规模人工智能、亿亿次超级计算、高性能计算(HPC)、数字货币、云计算/超大规模计算、大数据分析和数据库。 Tachyum强调,Prodigy卓越的功能、可扩展性和价格定位确保了快速的市场推广渗透。 Tachyum 提供开箱即用的本机软件系统、操作系统、编译器、库、多个应用程序和 AI 基础设施框架。它还允许运行未经修改的 Intel/AMD x86 二进制文件并将其与本机应用程序混合。这确保客户从第一天起就可以使用 tachyum 系统。 Tachyu是一家火爆的通用芯片研发公司,M公司总部位于加州圣克拉拉,在斯洛伐克首都布拉迪斯拉发设有研发实验室。其团队拥有众多经验丰富的工程师和管理人员。其中,联合创始人兼首席执行官Radoslav Danilak早在互联网泡沫初期就设计了自己的超长指令字(VLIW)处理器。几年后,他为一家名为 Gizmo Technology 的公司开发了一种具有 64 位处理和内存的乱序 x86 处理器实现。后来担任东芝公司首席架构师,负责东芝7901的开发芯片。该芯片是 PlayStation 2 游戏机中使用的 MIPS R5900 情感引擎的变体,预计将用于各种东芝微控制器和电子产品中。 Danilak 还在 Nishan Systems 参与了一个为期一年的项目,旨在构建一个集成了 20 个不同芯片功能的单芯片网络处理单元 (NPU)。之后,他担任Nvidia的高级架构师,负责设计NFORCE 4 GPU功能和第一代Tesla GPU加速器“Fermi”。 2007年,正当GPU加速浪潮兴起之际,Danilak离开了Nvidia。他创立了闪存存储制造商Sandforce并开发了自己的闪存控制器。 2010年,Sandforce以3.77亿美元的价格卖给了LSI Logic。此后,Danilak 与他人共同创立了全闪存阵列制造商 Skyera,该公司于 2015 年夏天被西部数据收购,收购金额未公开。此后,他四处寻找新的创业灵感,与 M 共同创立了 Tachyum 公司。ullendore 和 Igor Shevlyakov 于 2016 年 9 月。Mullendore 曾在 Nishan Systems 担任高级架构师,在互联网泡沫后,随后工作于存储区域交换机制造商 McData,该公司最初属于 EMC,后来被 Brocade Communications 收购。穆伦多尔接管后继续留任一段时间。随后,Mullendore 加入 Sandforce 担任首席架构工程师,跟随 Danilak 加入 Skyera,现在在 Tachyum 工作。 Tachyum 的另一位联合创始人 Shevlyakov 于 20 世纪 90 年代初作为软件工程师进入该行业,然后在互联网泡沫初期在多家专注于编译器开发的俄罗斯初创公司工作。在他的巅峰时期,从1999年到2001年,他是实时操作系统Wind River的高级编译工程师。 Shevlyakov 随后在 Microunity 工作了十多年,开发了一款名为 BroadMX 的 RISC/SIMD 处理器,专为网络处理任务而设计。在 Microunity,他将 GNU 开源工具链引入处理器。随后,他与 Danilak 和 Mullendore 一起加入了 Skyera,将 GNU 工具链集成到公司内部芯片中以控制闪存,并参与了全闪存阵列中闪存转换层的开发。被西部数据 Skyera 收购后,舍夫利亚科夫仍留在 Tachyum,与他的联合创始人一起工作,负责 Tachyum 的软件开发。业务开发副总裁肯·瓦格纳 (Ken Wagner) 也是联合创始人,曾在多家 Silicon Chip 初创公司工作过。 Kiran Malwankar 是系统工程副总裁,也是横向扩展存储设备制造商 Pavilion Data Systems 的创始人。 Fred Weber 是超级计算机制造商 Encore Computer 的联合创始人,Kendall Square 是 AMD 前首席技术官,创建了 64 位 Athlon 和 Opteron 架构,担任该公司的顾问。曼彻斯特大学计算机科学教授 Steve Furber 也在船上,他在 20 世纪 80 年代设计了第一个 32 位 ACORN RISC 机器处理器,称为 ARM。分布式系统专家 Christos Kozyrakis 是斯坦福大学教授,经常与 Google 合作,也是该公司的顾问。近十年来,神童芯片的设计已被推迟多年。最初,该公司拥有一个内部系统 C 模拟器,用于内部开发和基准测试。 2020年初,该公司表示该芯片将采用台积电的7纳米工艺进行分片和制造。先进的制造工艺允许在 290mm2 的设备中组合大量组件。这里展示的设计来自对连接电路模块的电线的深入研究以及组件比例的正确排列,tachyum 相信这将吸引超大规模数据中心、高性能计算中心以及机器学习和推理集群。丹尼拉克说,问题在于电线速度变慢。以下是一些典型的图表:“我们在时钟频率方面遇到了性能瓶颈,并且每个内核的性能提升并不显着,”Danilak 说。 “核心数量在增加,但由于热问题,我们也在降低时钟频率。所有晶体管的速度都在增加,但问题是导线越来越细、电阻越来越大,因此导线延迟也在增加。过去芯片的延迟是每毫米 100 皮秒,但现在每毫米的延迟就像 1000 皮秒一样。“当然,导线的电阻会产生热量并导致延迟,所以这个技巧,Danilak 认为,就是保持电线长度尽可能长。这使得芯片的时钟频率比以前更高,同时还减少了总计算时间(获取数据的时间加上处理数据的时间),从而可以完成更多的工作。连线(如缓存层次结构是常见处理器中的计算延迟),这需要一些智能指令akers 高性能计算和人工智能。 “此时的芯片核心是这样的:L1缓存相对于其他核心设计略小,数据缓存和指令缓存均为16KB,但核心内的256kB L2缓存和核心内的512KB L3缓存(两者共同形成覆盖整个芯片的32MB共享L3 Cache)完全正常。而且矢量流水线增加了5级。目前,预计明年第一季度发布。”关于影片的逻辑,我可以把这些内容简化一下给大家看,据介绍,Prodigy指令集架构(ISA)结合了RISC和CISC架构的元素;据Tachyum介绍,ISA避免了传统CISC处理器常见的复杂、冗长和低效的可变长度指令,所有指令都标准化为32位或64位,部分指令还包括内存访问功能,以进一步提高性能。ce. Tachuym 的 prodigy fpgas 具有内置性能计数器,可以实时监控和分析运行时事件。该公司表示,这些工具可帮助程序员和工程师识别性能瓶颈并优化代码以提高效率,使该处理器成为要求苛刻的计算任务的理想选择。本手册提供了具体的优化技术,包括管理调度约束、优化内存操作、对齐分支和指令以及避免决策挑战。此外,它还提供了有关处理缓存操作、加载/存储对齐以及访问特殊寄存器的指导,确保开发人员可以调整软件以获得最佳性能。 Radoslav,Tachyum 创始人兼首席执行官“软件程序员、测试工程师、编译器开发人员以及系统和解决方案工程师很高兴有机会更深入地了解 Prodigy 如何为高效人工智能处理、云计算提供固有的性能优势。Danilak 博士表示,“Prodigy”的集成能力将帮助用户实现卓越的行业计算能力,从而更快地获得洞察、更快地进行研究、更快地生成结果。“是的,今年 10 月,Tachyum 披露,一位欧洲投资者将在一个月内划转 2.2 亿美元的 Tachyum 账户投资资金。此举将帮助tachyum成为人工智能市场的领先推动者之一。投资者还签署了价值5亿美元的Prodigy Chips采购订单