索尼做过最美的梦:是赶超 Intel

  如果现在说,日本半导体公司要超越英特尔,恐怕很多人都会付之一笑。

  虽然在去年被三星超越,但英特尔仍然是这颗蓝星上最强的半导体厂商之一,至于日本半导体厂商,不论是做存储的铠侠,还是做传感器的索尼,或者是近年发展迅速的瑞萨,连全球半导体厂商的 TOP 10 都没挤进去,可谓是名落孙山。

  不过大家都承认的一点是,日本半导体祖上还是阔过的,把时间回溯到上世纪 80 年代,几家日厂可以说是叱咤风云,飞利浦、英特尔、摩托罗拉……都不过是日本半导体的手下败将耳。

  但日本半导体就像一颗天空中划过的流星,在上世纪 80 年代的短暂辉煌后,又在美国的围追堵截中败下阵来,1985 年,美国与日本签订《广场协议》,日元对美元的大幅升值,导致了日本经济的泡沫逐渐破碎,对日本国内的半导体行业造成了一波沉重打击。

  1986 年初,美国商务部裁定日本存储器存在不正当竞争、低价倾销,对日本征收 100% 反倾销税;1987 年 6 月,美国通过 " 东芝制裁法案 ",取消一系列采购合同,并禁止东芝的所有产品向美出口 2 至 5 年;1991 年,美日再次签订了一份为期五年的《新半导体协定》,美国要求外国半导体在日本的市场份额必须达到 20% ……

  各类不平等协定和制裁法案,让富士通、NEC、日立、东芝和三菱在内的日本半导体五大巨头由盛转衰,将这个潜力无限的市场拱手让给了美国,1996 年,美国半导体占据 30% 以上的全球市场份额,而日本半导体已经不足 30%,两国之间的差距逐渐拉大。

  为了帮助日本本土半导体厂商走出困境,日本企业还进行过一番自救型的调整,1999 年,NEC 和日立分别剥离旗下 DRAM 业务,成立了新公司尔必达(Elpida),后续三菱电机的 DRAM 部门也并入进尔必达,意在对抗美国 DRAM 企业。

  不过,此时的日本企业并非只有守成之士,还有不甘于平凡的日本企业野心勃勃,打算学习勾践卧薪尝胆,通过梭哈一把,再度登上半导体世界的王座。

  Cell 处理器的诞生与雏形

  2000 年,伴随着次世代游戏主机 PS2 在全球范围内的大获成功,风头正盛的 SCE(索尼电脑娱乐)开始为下一代主机做准备,而 CEO 久夛良木健的脑袋中萌生出一个大胆的想法,能不能通过与美国企业合作,打造出类似英特尔和 PowerPC 一样的通用处理器,不仅可以用在下一代主机上,还能给其他数码家电乃至服务器使用,一旦成功,SCE 就能彻底统治主机市场,赢得下一个十年不再是梦想。

  这种想法一旦冒出来,就在久夛良木健心底里扎了根,改变半导体市场格局,赶超行业龙头英特尔……未来的种种美好愿景仿佛已经在向 SCE 招手了。

  2000 年,索尼电脑娱乐(SCE)、东芝和 IBM 一同签署协议,成立了 STI 联盟,并将研发中心设立在得克萨斯州的奥斯汀市,该联盟商定,在接下来的 4 年研发周期内,索尼将提供资金预算,IBM 主要负责处理器研发,东芝则负责后续处理器和相关存储芯片的生产。

  这一研发,就是四五年,索尼前后投入了数十亿美元的研发资金,几乎耗空了 PS1 至 PS2 所攒下的家底,而这颗被称为 Cell 的处理器却迟迟不能问世。

  不过这丝毫不影响索尼对外的大吹特吹,2003 年,久夛良木健在接受日本《PCWatch》专栏采访时表示,足够数量的 Cell 处理器串联在一起,就可以达到甚至超过 " 地球模拟器 "(地球シミュレータ,NEC 制的超级计算机,在当时是世界上最快的计算机之一)的性能。

  能够模拟器地球的处理器,这一下子就把人的胃口吊起来了,大家都把目光投向了这索尼,想要看看这颗媲美超算的处理器究竟有何过人之处。

  好在功夫不负有心人,2004 年 11 月,IBM、索尼公司、索尼电脑娱乐公司和东芝公司首次披露了代号为 Cell、被高度期待的高级微处理器的一些关键概念,这是四家公司为新一代计算应用及数字消费电子产品联合开发的一种微处理器。

  在发布会上,四家公司最终确认 Cell 是一种多核心芯片,包含一个 64 位电源处理器核心和多个协作处理器核心,能够进行大规模的浮点处理,其专为计算密集型和丰富媒体宽带应用而优化,包括电脑娱乐、电影及其他形式的数字内容等。

  根据发布新闻稿,Cell 处理器在设计上的一些主要优势包括:

  多线程、多核心结构

  同时支持多种操作系统

  提供给主内存及辅助芯片(Companion Chips)的丰富双向总线带宽

  灵活的板载 I/O ( 输入 / 输出 ) 接口

  用于实时应用的实时资源管理系统

  板载硬件,支持安全系统,可实现知识产权的智能保护

  采用了 90 纳米的绝缘硅(Sillicon-on-insulator, SOI)技术

  " 大量和丰富的内容,如多信道高清广播节目及高分辨率 CCD/CMOS 成像设备拍摄的百万像素数字静态 / 移动图像等,要求大容量实时媒体处理功能。将来,所有格式的数字内容都将被融合在一起,整合到宽带网络上,从而开始出现爆炸式增长。"

  索尼公司执行副总裁兼首席运营官、索尼电脑娱乐公司总裁兼集团首席执行官久夛良木健讲道。" 要自由实时地访问和 / 或浏览浩如烟海的内容,在三维环境下更加高级的图形用户界面在将来会成为‘关键’。要处理如此丰富的应用,当前的 PC 结构无论是在处理功率还是在总线带宽上都已接近了极限。"

  四家公司都为这颗 Cell 处理器拿出了最大的诚意:IBM 计划于 2005 年上半年在纽约 East Fishkill 市的圆晶生产工厂开始 Cell 微处理器的试生产;

  索尼希望于 2006 年推出装有 Cell 处理器的宽带内容及高清晰电视(HDTV)系统;

  索尼电脑娱乐也希望推出其装有 Cell 的新一代电脑娱乐系统即 PS3,以实现电脑娱乐体验的革命性变化;东芝为 Cell 设想了多种应用,希望于 2006 年推出其第一种基于 Cell 的产品——一种高清晰电视系统(HDTV)。

  2004 年,Cell 处理器发布的前夕,野心勃勃的久夛良木健甚至找上了苹果 CEO 史蒂夫 · 乔布斯,向他推销 Cell 处理器,希望能这款跨时代的处理器能搭载在下一代 Mac 上,希望 Cell 的生态能够拓展至个人电脑与桌面端之上。

  不过乔布斯没有给他面子,直接拒绝了这个提议,他丝毫不掩饰对 Cell 设计的失望,表示 Cell 甚至还不如用了这么多年的 PowerPC,后面的事情相信大家也知道,苹果在第二年的全球开发者大会上宣布转投英特尔和 x86 的怀抱,彻底断了索尼的念想。

  但久夛良木健没有灰心,因为索尼还有 PS3 这一次世代主机的大杀器,PS1 和 PS2 两代主机在全球卖了上亿台,只要 Cell 芯片的 PS3 一出手,别管你是英特尔还是苹果,都得在索尼面前俯首称臣。

  Cell 处理器的独特与 " 强大 "

  前面讲了这么多关于 Cell 芯片的内容,索尼、IBM 和东芝都信心十足,但它究竟强大在何处,恐怕大家还没有一个具体的概念。

  2005 年,Cell 芯片研发接近完成,开始试产首批芯片,其采用 90nm 工艺,搭载 4 个频率高达 4GHz 的 PPE 主核心(Power Processor Element,简称为 PPE,由 PowerPC970 简化而来),以及 32 个总计 1TFloaps 算力的基于 SIMD 的协处理器(Synergistic Processor Element,以下简称 SPE),整体性能丝毫不逊于顶级的桌面端处理器,甚至摸到了服务器芯片的门槛。

  此外还整合了 XDR 内存控制器,可配合 25.6GBps 带宽的内存系统,而它的前端总线也采用 96 位、6.4GHz 频率的 FlexIO 并行总线(原名称为 "Redwood",RAMBUS 公司所开发),这也是有史以来速度最快的计算机总线。

  不过,4 颗 PPE 加上 32 颗 SPE 这种搭配,让芯片面积与功耗达到了一个很高的程度,而多核心设计也影响了最终的量产良率。

  (劳伦斯伯克利国家实验室针对 Cell、 AMD Opteron,英特尔 Itanium2,以及 Cray X1E 的性能对比)

  IBM 也给出了具体的技术解析,CELL 作为一种微处理器,介于传统桌面处理器(如 Athlon 64 和 Core 2 系列)和专业的图形显卡(如 NVIDIA 和 ATI)的混合体,在预期当中,Cell 不仅能用于娱乐设备、高清晰度显示器以及高清电视系统,也能用于数字成像系统(医疗、科学等)和物理模拟(如科学和结构工程建模)等方面,可谓是一颗全能处理器。

  Cell 处理器具体被分成四个部分:外部输入和输出结构,被称为 Power Processing Element(PPE)的主处理器(一个双向同步多线程的 PowerPC 2.02 内核),八个功能齐全的协处理器,被称为 Synergistic Processing Elements(SPE),以及连接 PPE、输入 / 输出元素和 SPE 的专用高带宽循环数据总线,称为 Element Interconnect Bus(EIB)。

  为了实现高性能计算, Cell 处理器需要利用 EIB 将 SPE 和 PPE 连接起来,通过完全缓存一致性的 DMA(Direct memory access,直接存储器访问),访问主内存和其他外部数据存储。

  而为了充分利用 EIB,并使计算和数据传输相结合,处理元件(PPE 和 SPE)中的每一个都配备了一个 DMA 引擎。由于 SPE 的加载 / 存储指令只能访问自己的本地 scratchpad 存储器,因此每个 SPE 完全依靠 DMA 来传输数据到主存储器和其他 SPE 的本地存储器。

  该架构的主要设计是使用 DMA 作为芯片内数据传输的核心手段,以期在芯片内的数据处理中实现最大的异步性和并发性。

  此外,能够运行传统操作系统的 PPE 对 SPE 有控制权,可以启动、停止、中断和安排 SPE 上运行的进程。为此,PPE 拥有与 SPE 的控制有关的额外指令。与 SPE 不同,PPE 可以通过标准的加载 / 存储指令读写 SPE 的主存储器和本地存储器。

  尽管有完整架构,但 SPE 并不是完全自主的,需要 PPE 对其进行启动,然后才能进行工作。由于整个系统的大部分计算力来自协处理器,一方面要使用 DMA 作为数据传输的方法,另一方面每个 SPE 又受限于较小的本地缓存,这对那些从未接触过 Cell 软件开发人员是一个非常大的挑战,需要对运行的软件进行非常细致的调整,才能最大程度地开发出这颗处理器的潜能。

  事实上,IBM 交出的这份答卷看似优秀实则复杂,光是要弄懂这颗处理器和其他普通处理器的区别就要花费不少功夫,而原型芯片过于庞大的规模也导致了最终量产一拖再拖,最终索尼迫于现实压力,无奈地向 Cell 挥起砍刀。

  这一刀砍下去,就砍掉了不少性能,最终发布的首款 Cell 处理器只搭载了一个主频为 3.2GHz 的 PPE 主核心与 8 个 SPE 协处理器,为了保证生产良率,还屏蔽了 1 个 SPE,还有一个 SPE 被分配给操作系统和音频,游戏只能调用 6 个 SPE,其集成了 2 亿 3400 万个晶体管,采用 IBM 的 90 纳米 SOI、Low -K 工艺制造,核心面积为 221 平方毫米,芯片规模与 Intel 的双核 Pentium D 相当。

  不过也不用太悲观, Cell 芯片实际上并不是单纯的 CPU,而是包含了一部分 GPU 的功能,SPE 协处理器理论上可以对物理、音频、光源进行几何运算,甚至模拟 GPU 不支持的后处理特效,如曲面细分,computer shader 等等,已经有了今天英伟达 GPU 中 CUDA 核心的雏形。

  而在 Cell 开始研发时,索尼所希望的,就是用一颗 Cell 负责 CPU 的功能,另一颗 Cell 肩负起 GPU 的职能,看似异想天开,实际上并不是完全没有可能,日后还有 Leadtek 等厂商发布了基于 Cell 的 PCI-E 卡,用来加速视频解码。

  另外,由于 IBM 开发之初就考虑到了服务器的需求,还用上服务器级别的 256MB XDR 高性能内存,因而 Cell 不仅浮点运算能力强劲,还对并行运算和分布式运算支持良好,只要有足够数量的搭载了 Cell 的 PS3 主机,就能组成超级计算机,这一点可以说是让其他桌面端处理器望尘莫及。

  照理说,PS3 在 Cell 芯片的指引下,已经是立于不败之地了,在索尼原本的设想中,称霸主机市场不用多说,抢占桌面市场更是指日可待," 索尼大法好 " 这句调侃仿佛已经变成了现实。

  然而,索尼所有的美梦都在 PS3 发售的那一刻开始破灭。

  Cell 处理器的折戟和湮灭

  为什么会破灭,原因还是出在 PS3 这台主机上。

  前面我们有提到,Cell 可以承担一部分 GPU 的职能,但这并不意味着能直接把 Cell 当成 GPU 来用,图形计算最终还是交给 GPU 来负责,IBM 自然是不生产 GPU 的,索尼只能求助于当时的两大显卡厂商 NVIDIA 和 ATI,加班加点地在 PS3 里塞入了一张定制的 RSX,其基于 Geforce7800 系列改造而成,性能介于 G70 和 G72 之间。

  但此时已经临近发售日期,Cell 芯片的 256M XDR 内存,只能由 CELL 自己使用,RSX 这颗 GPU 核心没办法共享这部分内存,为了赶快上市发售,索尼又额外塞入了 256M GDDR3 显存,一来一去,这成本已经高上了不少。

  不止如此,为了兼容上一代 PS1 和 PS2 主机,索尼还额外塞进了一块 EE+GS 的芯片,用硬件兼容来保证上一代游戏能完美运行在 PS3 上,又是一次出血。

  另外,索尼和松下电器等企业在 2004 年成立了 " 蓝光光盘联盟 ",意在推动下一代光盘格式的普及,与 HD-DVD 推广协会分庭抗礼,PS3 此时又承担着推广蓝光光盘,帮助索尼打赢光盘格式的重任,同时上一代 PS2 因为支持 DVD 而大获全胜,加上蓝光光驱也在情理之中。

  这样一套加法算下来,PS3 的成本已经到了相当恐怖的程度,根据拆解报告,每颗 Cell 芯片的成本约为 89 美元,RSX 显卡的成本约为 129 美元,蓝光光驱的成本约为 125 美元,EE+GS 的成本约为 27 美元,光是芯片和光驱的成本就已经来到了 370 美元,总成本甚至来到了 805-840 美元。

  要知道 PS3 的起售价也不过 499 美元,这还没算上前期研发和后期营销成本呢,卖一台净亏 300 多美元,索尼家底再厚也经不起这样的折腾。

  而由于各种芯片的不断加入,PS3 的功耗也来到了一个恐怖的程度,在玩蓝光游戏时,PS3 的总功耗轻松突破了 200W,即使在菜单的待机页面,功耗也会保持在 170W 左右。

  售价的高昂还在其次,Cell 这颗被索尼寄予众望的芯片,真的发挥出之前宣传中的实力了吗?

  实际上,围绕 Cell 芯片的最关键的六个 SPE 协处理器,一共有三种开发模式,其中能最大程度开发协处理器潜力的模式,也是最难开发和优化的一个模式,需要开发者自己绕过操作系统,API 和运行,直接对 SPE 进行操作开发,效率低得可怕,其中六个 SPE 中只有四个支持这种模式,从 PS3 诞生到停产,就没有多少游戏是在这种模式下开发的,在双核处理器大行其道的 2006 年,Cell 芯片这种本质仍为单核的处理器成为了开发人员的噩梦地狱。

  更让人感到讽刺的是,索尼最大对头——微软,在 Xbox 360 上也用了 IBM 的处理器,不过微软没有像索尼一样煞费苦心地研发,而是直接像 IBM 定制了一颗集成了三个 3.2GHz 的 PowerPC 核心的 xenon 处理器,而这些核心不是别的,恰恰是 Cell 的 PPE 主核心。

  另外配备了 ATI 的 R500 显卡,整体架构非常接近 PC,开发难度大幅下降,大量 PC 游戏只需要简单移植就能登陆 Xbox 360,对比 PS3 简直是天壤之别。

  不过 PS3 整体并非没有可取之处,依靠着对并行运算和分布式运算的良好支持,在其他地方倒是能发光发热。

  2010 年美国空军研究实验室(The Air Force Research Laboratory,AFRL)组建了一套物美价廉的超算,其由 1760 台 PS3、 168 个独立图形处理单元及 84 个协调服务器组成,其代号为 " 秃鹰群 "(Condor Cluster),用于处理卫星图像、雷达以及研究 AI,AFRL 还向一些大学以及研究机构开放了秃鹰群的部分算力,据透露,这个超算总耗资约 200 万美元,运算性能为 500TFlops,成本和耗电量均只有同等运算力常规超算的十分之一。

  另外,索尼还在 2007 年宣布 PS3 正式加入 Folding@home,这是一个研究蛋白质折叠,误折,聚合及由此引起的相关疾病的分布式计算工程,用户可以让自己的 PS3 在闲置时执行 Folding@home 分发的运算任务,截至 2008 年 9 月,参与的 PS3 游戏机提供了 1.2PFlops 的运算能力,占当时运算总数的近 35%。

  但 Cell 的步伐也仅限于此了,从发布到停止支持,除了 PS3、IBM 服务器和超算、东芝电视外,就再也没有电子产品用过这颗奇葩设计的处理器,走入桌面端更是完全没实现过,这款研发了四五年的处理器在半导体市场中以一个非常不体面的姿态入了土。

  当然 Cell 的部分构想我们今天也能在各种处理器上找到,英伟达的 CUDA 核心, AMD 的 APU,苹果最新的 M 系列芯片,或许它们的部分灵感就出自 IBM 和索尼研发的这颗失败芯片呢?

  曾为 PS3 开发独占画质代表作《杀戮地带》的 Guerilla Games 技术总监还曾在 2021 年缅怀了一下 Cell,认为这颗处理器仍然要比 Intel 任何一颗 CPU 都要强大,它领先于时代 ,但就是在可用性与平衡性上难以把握。

  所谓超前一步是天才,而超前两步乃至三步的,往往就变成了先烈,这句话用来诠释 Cell 的历程再合适不过了,或许日本厂商在半导体上的野望,那股赶超美国的决心,随着 Cell 的远去,也逐渐没了踪影吧。