一站式电子元器件采购平台

华强商城公众号

一站式电子元器件采购平台

元器件移动商城,随时随地采购

华强商城M站

元器件移动商城,随时随地采购

半导体行业观察第一站!

芯八哥公众号

半导体行业观察第一站!

专注电子产业链,坚持深度原创

华强微电子公众号

专注电子产业链,
坚持深度原创

电子元器件原材料采购信息平台

华强电子网公众号

电子元器件原材料采购
信息平台

为何YouTube、字节、快手们纷纷自研云端视频处理器?

来源:芯智讯 作者:芯智讯 发布时间:2022-08-25

摘要: 近年来,随着抖音、快手等众多视频应用的火爆,以及用户对于高质量视频的需求的不断增长,云端服务器当中的CPU 和 GPU 已无法满足处理海量视频数据需求。对此,字节跳动早已开始自研云端视频处理器(VPU),快手也于今年8月曝光了自研的云端智能视频处理器SL200。而作为全球最大的视视频应用YouTube也早已开始自研云端智能视频处理器,并且目前已经演进到了第二代。

微信图片_20220826094650.png

近年来,随着抖音、快手等众多视频应用的火爆,以及用户对于高质量视频的需求的不断增长,云端服务器当中的CPU 和 GPU 已无法满足处理海量视频数据需求。对此,字节跳动早已开始自研云端视频处理器(VPU),快手也于今年8月曝光了自研的云端智能视频处理器SL200。而作为全球最大的视视频应用YouTube也早已开始自研云端智能视频处理器,并且目前已经演进到了第二代。

近日,外媒 protocol 报道了谷歌旗下YouTube自研云端视频处理器的相关细节。

大约七年前,谷歌工程副总裁Partha Ranganathan 就意识到摩尔定律开始失效,这也带来了一个相当大的问题:他此前期望芯片性能每 18 个月翻一番而不会增加成本,并帮助组织了谷歌每年在计算基础设施上花费的数百亿美元的采购计划。但 Ranganathan 发现,随着摩尔定律的放缓,每四年仅能获得两倍的提升,而且看起来这种差距在不久的将来会进一步扩大。

所以他和谷歌决定做点什么。该公司此前已经投入数亿美元来设计自己的人工智能定制芯片,称为张量处理单元或 TPU。目前谷歌现在已经推出了四代以上的 TPU,这项技术使该公司的人工智能努力领先于竞争对手。

但在谷歌开发 TPU 时,发现人工智能并不是唯一可以改进的计算类型。当 Ranganathan 和其他工程师退后一步,研究其数据中心中计算最密集的应用程序时,他们很快就清楚他们接下来应该处理什么:视频。

“我是从‘我们想要研究的下一个大杀手级应用程序是什么?’的角度来看的,”Ranganathan 说。“然后我们查看了相关需求,我们发现转码占用了我们计算周期的很大一部分。”

谷歌旗下的YouTube是其迄今为止最大的视频相关计算消费者,但它用于在其平台上摄取、转换和播放数十亿视频的芯片类型并不是特别擅长这项工作。转码部分特别棘手,需要强大的芯片才能有效地完成。

因此,将视频转换或转码为最终将播放它们的数千台设备所需的正确格式,让 Ranganathan 觉得这是一个需要花一些时间解决的好问题。转码是非常计算密集型的,但同时,任务本身也很简单,可以设计所谓的专用集成电路或 ASIC 来完成工作。

芯片行业分析师 Mike Feibus 表示:“对于像转码这样的非常具体、高强度的工作负载,他们(选择自研专用的AISC)可以从中获得巨大的收益。”

为了让管理层在 2016 年批准该项目,Ranganathan 的同事 Danner Stodolsky 向负责监督公司庞大基础设施的 YouTube 副总裁 Scott Silver 发送了即时消息。 Scott Silver说,他要求约 40 名员工和数百万美元预算来实现这一目标。

“这非常非常快,因为从经济和工作量以及我们正在做的事情来看,这很有意义。”

Scott Silver 回忆说,这个想法很有意义。在与 YouTube 首席执行官 Susan Wojcicki 进行了 10 分钟的会面后,YouTube 的第一个视频芯片项目获得了绿灯。

“这非常非常快,因为从经济性和工作量以及我们正在做的事情来看,这很有意义,”西尔弗说。

YouTube去年在一篇技术论文中首次向公众披露了该芯片,该芯片以希腊神话中的多眼怪物命名的 Argos,在这份论文当中,YouTube吹嘘其 Argos芯片在转码计算性能方面实现了 20 到 33 倍的提升。如今,谷歌已将其第二代 Argos 芯片部署到全球数千台服务器上,并且未来还有两次迭代正在进行中。

DIY SOC

谷歌自研的 YouTube 芯片是科技巨头中日益增长的自研芯片趋势中的一部分。亚马逊已经构建了它的 Graviton服务器处理器,微软正在开发基于 Arm 的服务器处理器,Facebook 也有一个芯片设计部门。此外,中国的阿里巴巴、腾讯、百度、字节跳动等众多的互联网厂商也都有推出或正在研发自己的芯片,这些例子不胜枚举。

一个普遍的趋势是,大型科技公司芯片都在自研芯片,因为这是一种明显的省钱方式。大多数头部芯片公司的毛利率都在 50% 以上,因此对于本身对于芯片有大量需求的科技企业,通过自研芯片理论上可以节省大量资金。

但根据 D2D 咨询公司负责人 Jay Goldberg 的说法,情况并非如此。一方面,经济学没有意义——为了节省芯片采购支出,而花费大量精力聘请和培养芯片设计师是不值得的。一个新的先进芯片可能要花费数亿美元来简单地构建一个原型,然后再花费数千万美元来完善它。

“我们的重点并不是真正的省钱。”西尔弗说:“我们喜欢省钱,但我们真正想做的是为观众提供同样好的——如果不是更好的话——质量体验。”

动机其实很简单:大型科技公司正在设计自己的芯片以创造战略优势。

“通常这意味着你有一些软件想要绑定到芯片上,你会获得很大的性能提升,”Goldberg 说。最早和最著名的例子之一是谷歌的 TPU,它开发它是为了解决其数据中心的人工智能任务。

对于某些工作负载,“TPU 将他们必须建立的数据中心的数量减少了 50%。”Goldberg 说:“以每个 10 亿美元的价格计算,可以节省很多钱。” 在节省数据中心建设资金的同时,它还为谷歌云提供了微软 Azure 和 亚马逊AWS 当时所没有的东西。

但自研芯片背后的另一部分动机可以追溯到过去 20 年芯片行业的重大整合。大约 20 年前,有数十家公司争相制造大型科技公司想要的芯片,激烈的竞争导致许多竞争设计可供选择。

但是,随着半导体业的持续并购整合,如今,大多数类别中只有一两家大型芯片制造商——尤其是数据中心处理器——这意味着云巨头无法获得完全符合他们需求的芯片。这也迫使他们使用英特尔和英伟达等公司制造的通用处理器,这些处理器虽然也还不错,但相对同质。

“这里真正危在旦夕的是控制半导体公司的产品路线图,”Goldberg 说。“所以他们建立了自己的路线图,他们控制了路线图,并通过这种方式获得了战略优势。”

只需按下“播放”

YouTube 将 Argos 芯片称为视频编码单元或 VCU,它的主要工作是将每分钟上传到网站的 500 小时视频转换为适用于观看 YouTube 的众多设备,从智能手机到电视再到笔记本电脑。有时这意味着每个视频有多达 15 种变体。

尽管自研芯片的目的很简单,而且 Ranganathan 和工程师团队清楚地知道他们希望它完成什么,但设计一块芯片并不是一件小事。仅 YouTube 运营所需的规模就带来了巨大的挑战,迫使团队从芯片本身开始思考设计,一直到 YouTube 如何布置芯片所连接的电路板,以及数据中心机架的设计以及它如何配置每个集群。

“如果加速器集成到其中而没有人使用它,所以?” 兰加纳坦说。“你可以制造出惊人的硬件。但如果你不以我们的软件同事可以使用它的方式构建它,使它实际上可以工作——还有编译和工具、调试和部署等等。”

对 Ranganathan 来说,创建硬件只是任务的一部分:“它只是冰山一角,”他说。深入研究如何将 Argos 芯片集成到公司的数据中心并以 YouTube 的规模运行它们需要软件和硬件工程师之间的密切合作。

因此,Argos 是一块由软件定义的硬件,这意味着在芯片上工作的工程师可以使用所谓的高级综合技术来更快地迭代设计。谷歌开发了自己版本的高级合成软件 Taffel,用于帮助制造 TPU 和 Argos 处理器。

“[T] 他使用以软件为中心的方法来设计硬件的想法是我们在 Argos 中非常努力地推动的东西,”Ranganathan 说。

“这里真正关键的是控制半导体公司的产品路线图。”

Ranganathan 引用的其他“硬件-软件”密切协作的例子之一是工程师如何解决在现场出现故障的 VCU 单元以及一个称为“黑洞”的问题,即在芯片部署失败后浪费资源。从本质上讲,该团队想出了一种检测故障和重新路由流量的方法。

Argos 芯片的第一个版本只是旨在利用 YouTube 正在转码的现有视频工作负载并以更便宜的方式完成它。这些节省让 YouTube 可以开始将更多视频转码为使用更少数据但提供相同图像质量的优质视频编码格式。较小的文件带来了巨大的好处:它们的存储和服务成本更低,它们允许运营商使用更少的带宽,并且它们为消费者提供更快的加载时间。

“我们真正想做的事情是将所有上传到 YouTube 的视频,并将它们转码为各种可能的格式,并获得最佳体验,”Silver 说。“这个问题很棘手。这样做的结果是,它咬掉了那个苹果。”

与用于为数据中心供电的大多数芯片类似,Argos 芯片的存在将完全不会被数亿观看 YouTube 或使用谷歌其他视频产品的人注意到。Silver 表示,该公司没有观察到对 YouTube 在全球运营的任何市场中引入 VCU 的反应。

但这不完全是重点。因为YouTube使用谷歌的定制芯片来实现对于最早在互联网上运营的公司来说完全无法想象的事情。

尽管如此,谷歌制造的一代 VCU 可以与英伟达、AMD 或英特尔制造的芯片竞争,这还不够。谷歌需要领先半导体巨头数年才能开始让定制芯片的提议变得有意义。否则,等待其中一个人这样做更有意义。

但对于 YouTube 来说,设计一块真正适合某个目的的芯片,而将更复杂、更不确定的问题留给可以处理任何类型计算的昂贵芯片则更有意义。

“如果你考虑机器学习训练或推理——这些就像非常大和有趣的工作负载,CPU不能很好地胜任,”Silver 说,“你可能会争辩说,GPU 可以很好地为它们提供服务。但如果你的大多数的算力都在对视频进行转码,这个效率是够好的,而你每年将为此多付出数千万或数亿美元的费用,那么很明显,你有很大的动力通过自研ASIC来做到这一点。”

编辑:芯智讯-浪客剑   来源:protocol


声明:本文观点仅代表作者本人,不代表华强商城的观点和立场。如有侵权或者其他问题,请联系本站修改或删除。

微信扫一扫,一键转发

关注“华强商城“微信公众号

相关阅读
  • 订单量暴增30倍!这家储能系统集成厂商产能严重不足

    “双碳”战略大背景下,全球能源结构调整势在必行,而储能技术是解决大比例风光清洁能源时空分布不平衡,提升传统电力系统灵活性、经济性和安全性的最优方案之一,已渐成刚需。最近,芯八哥“走进产业链”栏目记者采访了来自陕西西安的国内储能领域快速发展的

  • 出货量超千万颗!这家国产碳化硅厂商批量供货比亚迪

    在新能源时代,随着量产和技术成熟带来的成本下降,碳化硅即将迎来属于它的黄金发展期。最近,芯八哥“走进产业链”栏目记者采访了国内碳化硅器件龙头企业—泰科天润的营销副总秋琪。探讨在碳化硅器件火热的背景下,当前泰科天润企业的发展情况以及对行业未来

  • 存储芯片研发与封测一体化布局,这家厂商如何脱颖而出?

    万物互联时代,数据呈指数级增长,深刻改变着人们的工作和生活,加速人类社会向数字化转型。而在数字化浪潮中,存储器的作用至关重要,正扮演着数字未来“新基建”的角色。最近,芯八哥“走进产业链”栏目记者采访了深圳佰维存储科技股份有限公司(简称“佰维

  • 车规单型号IC出货超百万片!该智能座舱厂商打进比亚迪供应链

    汽车智能化,智能座舱先行。随着新能源汽车 “新四化”的不断演进,先进的数字座舱正逐步成为下一代汽车的标配和重要差异化特性。最近,芯八哥“走进产业链”栏目记者采访了国内领先的汽车智能座舱厂商—开阳电子的市场总监徐波。探讨在智能座舱芯片渗透率加

  • 年销售将突破1亿!这厂商工控IGBT可与国际大厂pin to pin替换

    IGBT是由MOS、BJT组成的复合全控型功率半导体,兼具MOS输入阻扛高、BJT导通电压低的两大优势,适用于高压、大电流领域,被誉为电力电子行业的“CPU”。最近,芯八哥“走进产业链”栏目记者采访了国内一家快速发展的IGBT新兴企业—森未

  • 量产200+型号,交付超3亿颗!拆解MCU厂商的订单密码

    近年来,新冠疫情和国际环境变化交织共振,全球半导体供应链出现阶段性及结构性的失调。尽管面对复杂多变的国际贸易环境与供应链受限的状况,灵动微电子持续加大研发投入,坚定推进产品和技术创新,重点布局并研发与市场高度契合的新产品,使得公司迎来快速发

  • 闻泰科技半年报超预期:半导体业务净利大涨31.72%,产品集成业务迎来新动能

    8月26日A股收盘后,闻泰科技公布了2022年上半年财报。根据财报显示,公司上半年营收达284.96亿元,同比增长15.05%;实现归母净利润约11.82亿元,同比小幅下滑4.11%,扣非净利润约11.62亿元,同比小幅下滑1.71%。如果单看二季度的数据的话,其二季度归母净利润为6.79亿元,环比增长35%,这也反映了闻泰科技的归母净利润正在逐季改善。

  • 强制员工休假被批违法,群创紧急回应

    8月24日消息,由于近期面板市场持续供过于求,面板价格也持续下行,一些面板厂纷纷调降产能利用率降至5至7成,在此背景之下,面板厂也鼓励员工休假。群创于8月24日发布公告,公布了公司的休假规划,内部系统将统一扣除假期,强制员工休假。

  • 服务器远端管理控制芯片大厂信骅:确有客户下修订单,三季度营收或将环比下滑19.2%

    8月24日消息,据中国台湾媒体报道,近期服务器市场杂音不断,外资开始看淡后市,远端服务器管理控制器芯片(BMC)龙头信骅董事长林鸿明昨(23)日对外首次证实,近期确实有客户下修订单,三季度业绩将中止单季营收创新高走势,预估介于一季度和二季度之间,环比将下滑19.2%以内。

  • 理想汽车功率半导体新基地开建:2024年投产,年产240万只碳化硅半桥功率模块!

    8月24日消息,理想汽车功率半导体研发及生产基地在江苏苏州高新区正式启动建设,这标志着理想汽车正式启动下一代高压电驱动技术的自主产业链布局。理想汽车功率半导体研发及生产基地是理想汽车自研核心部件的战略布局之一,主要专注于第三代半导体碳化硅车规功率模块的自主研发及生产,旨在打造汽车专用功率模块的自主设计和生产制造能力。

  • 嵌入式开发 | RTOS任务堆栈大小与代码量有关吗?

    有小伙伴问了这样的问题:我有个任务中的代码量很多,是不是这个任务的堆栈需要分配很大才行?其实,并不是代码量越大,就分配更多堆栈空间,主要取决于你任务中包含的“临时变量”。市面上很多RTOS的任务都是需要提前分配堆栈大小,也就是在创建任务的时候分配好堆栈的大小。

调查问卷

请问您是:

您希望看到什么内容: