超级U盘 作者:纸火花
第513章 一块砖
128核听起来很多,其实也就那么回事儿。
不过是11个全志a31s的核心数罢了,人家毕竟是传说中的“四核八显12核心”!
说起来,gpu因为要在尽可能短时间内完成大量图像渲染任务,更加重视并行计算能力,向来有配备大量并发管线的传统。像是a31的八显,说的就是其内部有两颗sgx544gpu模块,各有4个被称为通用可拓展着色引擎us色2的渲染单元,结果本来只是双gpu的芯片就被奸商吹成了八显一开始还有些遮掩,只说是“八显”不说“八核显卡”,后来就彻底放开了。
而作为移动s里面显示性能最强的女idia,他们家最新的平板s产品tegrak1,更是因此而变成了逆天的192核显卡,似乎眼看着就要吊打桌面显卡了。
实际情况却不是这样,整个k1的热设计功耗只有5瓦,和桌面显卡暂时还没有比较的可能,至少只有96个uda核心的双敏大狂牛gt440-4gb就能将其轻松秒杀。
狂牛系列显卡向来以看起来吓人的超大显存和不够给力的中低端gpu而着称于世,大显存成了奸商欺骗消费者的利器,弱核心廉价低速dd显存又成了硬件老鸟嘲笑厂家和小白用户的武器。然而,只有笑而不语的打金工作室老板才知道“好马配好鞍,打金用狂牛”,这卡其实还是很牛的。
对于普通人来说,以gf108gpu的速度,正常情况下根本用不完4gb显存。但是对于网游工作室来说,这种低价大显存显卡简直是为其量身定制的,他们并不在意画质什么的,反正为了流畅多开都是最低画质的,这种时候这种用内存颗粒充当低速显存的显卡就显得非常实用了,hld住十几个甚至几十个网游客户端毫无问题。
只可惜,现在毕竟是免费网游的天下,这些游戏普遍有着经济系统不健康道具贬值特别快的通病,以至于很多工作室选择了转行,改去玩计算力挖矿了。比起还需要安排小弟照看一二的网游多开打金业务,时下流行的计算力挖矿就更加简单了,只要网络和电力保持通畅,电脑开机就能给老板赚钱。
在国内最出名的两大计算力挖矿品牌,一个是国外最流行的逼tin比特币,另一个则是蜜蜂p币,或者说蜜蜂粮票。和价格随行就市的比特币不同,蜜蜂p币的价格一直保持稳中有降的趋势,虽然赚不了大钱但也不会像比特币那样因为价格大起大落而倒霉赔钱,沦为炒家收割的对象。
不过无论是挖比特币挣美元,还是跟着蜜蜂混赚点电费钱,都对计算机,尤其是gpu的计算能力有比较高的要求,尤其是比特币挖矿,一开始都是各种中高端显卡在挖,用到快废就折价卖二手,很是坑了一批贪便宜半价买高端显卡的玩家。以狂牛一般偏弱的gpu,自然是没有当“矿卡”的命。于是,以卖牛为生的双敏,卒。
不管是a记的sp流处理器,还是n记的uda通用并行计算单元,亦或是intel家xenphi的x86核心,都不是单独的“核”。论起结构的复杂度,完全不能和马竞的ipu相比较。毕竟前面三者都要考虑量产成本的问题,太过复杂的电路设计会导致生产工序的冗长和低容错率,自然是智者不为的。
实际上,马竞的ipu更像是威力加强版本的intel至强处理器。
intel下半年发布的,目前地球上最强大的量产pu至强e5-2699v3拥有18个物理核心,每颗核心独享32+32kb高速l1缓存和256kb的l2缓存,再集体共享“高达”45b的l3缓存。
芯片设计师们当然知道冯诺依曼瓶颈,于是很早就开始给pu配置了ahe高速缓存,且一般使用sra静态随机存储器,相比于内存条常用的dra动态存储器,前者的优点是不需要设置刷新电路,读写速度快,缺点则是电路集成度低、成本高。
无论是高成本,还是低集成度,对于pu来说都是要命的,因此也就不难解释为什么时至今日,pu的l1/l2一二级缓存的容量依旧以kb为单位了,倒是使用dra的l3缓存,倒是可以做得大一点也不能太大,毕竟芯片面积上每一毫米都是珍贵的。
当代u皇2699全部三-级缓存加起来也只有50b的容量,对于应用程序来说自然是不够用的,当没有在缓存中找到数据,系统还是得去内存甚至更慢的硬盘当中去搜寻,自然进一步拖慢了速度。
而这些问题对于马竞来说,基本上都不是问题了。第一代ipu芯片的具体型号是128-16/16,指的自然是128颗运算核心,每颗都被分配了16b一级缓存,然后再集体共享2gb三-级缓存,即核均16b。
之所以能够做到这一点,一来是某人掌握黑科技,可以熟练地制造碳基芯片,唯一的问题就是“人工生产”导致产量太低,二来也是因为ipu的设计思路是全新的,不论是pu还是gpu,以及动物神经系统,都是其参考借鉴的对象。比如显卡领域目前研发热点的hb高带宽显存技术就被马竞借鉴了去。
既然基于内存都3d堆栈了,处理器部分更加不能继续平面化。实际上马竞在3d晶体管方面比intel和三星还要激进,毕竟人家要考虑工艺实现问题,而马竞却可以随便开脑洞,失败也不过是浪费几天时间罢了。
和动物们的神经系统相比,ipu128个自带“记忆”能力的计算核心并不算多,但是也基本够用了。马竞之前有测试过不同数量的方案,总得来说核心越少、“内存”越少效果越差,反之则约好。不过随着核心数的堆砌,以及“内存”的扩容,晶体管数目迅速增加,相应的芯片的厚度、面积和发热量也要增加,最终只能折衷选择了128-16/16这个方案。
人类大脑皮层平均厚度不到3毫米,但布满褶皱沟回,全部展开后总面积高达2200平方厘米,其中据估计含有约140亿个神经细胞。并且人的脑细胞数量每天还在减少,同样据估计每天有10万脑细胞阵亡,并且不会得到补充。好在“生物脑计算机”的自我纠错能力可比电子计算机强多了,死亡的脑细胞会被其他细胞迅速代替,通常不会动不动给你一个蓝屏死机。
显然,神经元之间的复数连接起到了非常强大的冗余备份能力,而且大脑作为一个活系统,虽然神经元很难增生,但却可以建立新的突触连接,以自动适应各种不同情况,通常说的脑子越用越灵便是这种情况,患者脑部的自发变化同样也算。当然要是过度用脑,或者病情发展太快太严重,超过了大脑的自主调节范围,还是会出现各种问题的。
马竞在设计ipu的立体晶体管构架时,就有在刻意模仿动物神经网络,一来借助立体架构增加晶体管密度,二来也有构建芯片内“神经网络”的意思。
这个网络还非常简单粗糙,根本不能和各大巨头们研究人工智能时搭建的计算机神经网络相比拟,不过马竞却非常看好它的发展,毕竟芯片内通讯的速度和能耗都要优于计算机间通过网线进行通讯。
尤其是用于一些“简单”场合时,效果比大型系统还要好。现在蜂园里面乱跑的动物们,已经可以做到“双兔傍地走,安能辨我是假真”的地步,蜜蜂客服中心人工客服岗位也不增反减。至于其他的人工智能应用同样有上佳表现,无论是语音识别合成、语义识别、机器翻译,还是图像识别合成、模糊计算、ai模拟等等方面都有hld得住。
不过产量和能耗都很让马竞蛋疼,一方面产量太低只能自用,另一方面因为晶体管数量太多,整体的能耗也有些大,暂时还不能放到移动设备里面去。马竞倒不是急着把ipu塞进人造动物体内,跑去进而宠物抢市场,他真正在意的是把ipu用在下一代pt2以及小马电动车、飞马飞行器上面去。
游戏机当然是需要大量人工智能以及人机交互技术的,作为智能交通设备的后两者同样也需要更加机灵的脑子。不过可惜,现在的锂离子电池容量不够给力,把功耗超过100瓦的ipu装进去以后续航会变得很坑爹。
前面提到的地上最强pu,至强e5-2699v3集成了约57亿晶体管,核心面积662毫米,热设计功耗(tdp)为145瓦。
tdp是一个安全值,芯片厂家用此表示自家芯片最大发热程度,从而给其他关联厂商进行参考,避免散热器不给力系统过热乃至融化变形等意外的发生。所以tdp通常比芯片本身的最大功耗还要大一些,而如今主流芯片大多搭载有降频节能技术,实际运行功耗可能只有tdp的三分之一甚至更低。
因为碳管尺寸只有不到5纳米左右的缘故,马竞在ipu里面足足塞了大约200亿个晶体管,不过即便如此每个核心单元平均的晶体管数目也才只有一亿六千万,别说和intelx86pu相比,就算是和ar移动处理器相比,也都是处在比较低的水平。比如最新的苹果芯a8作为双核pu加四核gpu的组合,却拥有20亿晶体管数量,平均每个核心拥有超过3亿晶体管。
当然这种比较实在过于粗略,现实中的手机处理器因为是s的关系,不但要集成pu、gpu以及很占地方的sra缓存,还要腾出很大面积给诸如dsp、isp之类的专业处理器,用在pugpu上的面积其实颇为有限,整体来说核均晶体管数量自然不能像桌面pu一样堆得那么猛。
而且晶体管越多,必然的发热也会越多。即便已经用上了电阻更小的碳晶体管,但先进材料带来的功耗优势还是被超大的晶体管数量给拉平了,这也是为什么只做到128核的一个原因。
绕是如此,当魏伟终于见到了期待已久的ipu,还是忍不住惊讶地反复问了句有没有拿错?
因为马竞拿给他的ipu,并不是他之前想象的一块芯片,而是一块带有pi-e金手指的拓展卡简单来说,就是一块长得非常非常像高端显卡的这么一块板砖。
占据ai卡绝大部分厚度的其实是铝镁合金制作的水冷散热系统,不但内里芯片被盖住看不见,就连板载内存/闪存也看不见尽管已经有了总计高达4gb的芯片内内存,但是唯恐不够用的马竞还是在板子上面堆了8gb的dd内存和128gb的闪存芯片。
虽然全金属外壳显得颇有科技感和未来感,但是架不住显卡厂商早这么干了,这块ai卡的外观又过分像显卡,以至于魏伟拿在手里看了几下也索然无味将其弃之一旁了。
主要还是之前期待值刷得太高了,见到平平无奇的实物,自然难免有些失望。
当然,这也跟他不是卡巴基佬有关系,不然的话这会肯定会拉着跑分、拆机、拍照,然后拿去发帖爆料了。
是以,放下ai卡以后,他立即转移了兴趣,问起了另外一个话题:“这次总算要三马齐聚了吧?”
“应该吧,”马竞无所谓地说道:“这有什么好期待的,作为资深三季王我们就是去打酱油的。”
第513章 一块砖
-
第513章 一块砖
128核听起来很多,其实也就那么回事儿。
不过是11个全志a31s的核心数罢了,人家毕竟是传说中的“四核八显12核心”!
说起来,gpu因为要在尽可能短时间内完成大量图像渲染任务,更加重视并行计算能力,向来有配备大量并发管线的传统。像是a31的八显,说的就是其内部有两颗sgx544gpu模块,各有4个被称为通用可拓展着色引擎us色2的渲染单元,结果本来只是双gpu的芯片就被奸商吹成了八显一开始还有些遮掩,只说是“八显”不说“八核显卡”,后来就彻底放开了。
而作为移动s里面显示性能最强的女idia,他们家最新的平板s产品tegrak1,更是因此而变成了逆天的192核显卡,似乎眼看着就要吊打桌面显卡了。
实际情况却不是这样,整个k1的热设计功耗只有5瓦,和桌面显卡暂时还没有比较的可能,至少只有96个uda核心的双敏大狂牛gt440-4gb就能将其轻松秒杀。
狂牛系列显卡向来以看起来吓人的超大显存和不够给力的中低端gpu而着称于世,大显存成了奸商欺骗消费者的利器,弱核心廉价低速dd显存又成了硬件老鸟嘲笑厂家和小白用户的武器。然而,只有笑而不语的打金工作室老板才知道“好马配好鞍,打金用狂牛”,这卡其实还是很牛的。
对于普通人来说,以gf108gpu的速度,正常情况下根本用不完4gb显存。但是对于网游工作室来说,这种低价大显存显卡简直是为其量身定制的,他们并不在意画质什么的,反正为了流畅多开都是最低画质的,这种时候这种用内存颗粒充当低速显存的显卡就显得非常实用了,hld住十几个甚至几十个网游客户端毫无问题。
只可惜,现在毕竟是免费网游的天下,这些游戏普遍有着经济系统不健康道具贬值特别快的通病,以至于很多工作室选择了转行,改去玩计算力挖矿了。比起还需要安排小弟照看一二的网游多开打金业务,时下流行的计算力挖矿就更加简单了,只要网络和电力保持通畅,电脑开机就能给老板赚钱。
在国内最出名的两大计算力挖矿品牌,一个是国外最流行的逼tin比特币,另一个则是蜜蜂p币,或者说蜜蜂粮票。和价格随行就市的比特币不同,蜜蜂p币的价格一直保持稳中有降的趋势,虽然赚不了大钱但也不会像比特币那样因为价格大起大落而倒霉赔钱,沦为炒家收割的对象。
不过无论是挖比特币挣美元,还是跟着蜜蜂混赚点电费钱,都对计算机,尤其是gpu的计算能力有比较高的要求,尤其是比特币挖矿,一开始都是各种中高端显卡在挖,用到快废就折价卖二手,很是坑了一批贪便宜半价买高端显卡的玩家。以狂牛一般偏弱的gpu,自然是没有当“矿卡”的命。于是,以卖牛为生的双敏,卒。
不管是a记的sp流处理器,还是n记的uda通用并行计算单元,亦或是intel家xenphi的x86核心,都不是单独的“核”。论起结构的复杂度,完全不能和马竞的ipu相比较。毕竟前面三者都要考虑量产成本的问题,太过复杂的电路设计会导致生产工序的冗长和低容错率,自然是智者不为的。
实际上,马竞的ipu更像是威力加强版本的intel至强处理器。
intel下半年发布的,目前地球上最强大的量产pu至强e5-2699v3拥有18个物理核心,每颗核心独享32+32kb高速l1缓存和256kb的l2缓存,再集体共享“高达”45b的l3缓存。
芯片设计师们当然知道冯诺依曼瓶颈,于是很早就开始给pu配置了ahe高速缓存,且一般使用sra静态随机存储器,相比于内存条常用的dra动态存储器,前者的优点是不需要设置刷新电路,读写速度快,缺点则是电路集成度低、成本高。
无论是高成本,还是低集成度,对于pu来说都是要命的,因此也就不难解释为什么时至今日,pu的l1/l2一二级缓存的容量依旧以kb为单位了,倒是使用dra的l3缓存,倒是可以做得大一点也不能太大,毕竟芯片面积上每一毫米都是珍贵的。
当代u皇2699全部三-级缓存加起来也只有50b的容量,对于应用程序来说自然是不够用的,当没有在缓存中找到数据,系统还是得去内存甚至更慢的硬盘当中去搜寻,自然进一步拖慢了速度。
而这些问题对于马竞来说,基本上都不是问题了。第一代ipu芯片的具体型号是128-16/16,指的自然是128颗运算核心,每颗都被分配了16b一级缓存,然后再集体共享2gb三-级缓存,即核均16b。
之所以能够做到这一点,一来是某人掌握黑科技,可以熟练地制造碳基芯片,唯一的问题就是“人工生产”导致产量太低,二来也是因为ipu的设计思路是全新的,不论是pu还是gpu,以及动物神经系统,都是其参考借鉴的对象。比如显卡领域目前研发热点的hb高带宽显存技术就被马竞借鉴了去。
既然基于内存都3d堆栈了,处理器部分更加不能继续平面化。实际上马竞在3d晶体管方面比intel和三星还要激进,毕竟人家要考虑工艺实现问题,而马竞却可以随便开脑洞,失败也不过是浪费几天时间罢了。
和动物们的神经系统相比,ipu128个自带“记忆”能力的计算核心并不算多,但是也基本够用了。马竞之前有测试过不同数量的方案,总得来说核心越少、“内存”越少效果越差,反之则约好。不过随着核心数的堆砌,以及“内存”的扩容,晶体管数目迅速增加,相应的芯片的厚度、面积和发热量也要增加,最终只能折衷选择了128-16/16这个方案。
人类大脑皮层平均厚度不到3毫米,但布满褶皱沟回,全部展开后总面积高达2200平方厘米,其中据估计含有约140亿个神经细胞。并且人的脑细胞数量每天还在减少,同样据估计每天有10万脑细胞阵亡,并且不会得到补充。好在“生物脑计算机”的自我纠错能力可比电子计算机强多了,死亡的脑细胞会被其他细胞迅速代替,通常不会动不动给你一个蓝屏死机。
显然,神经元之间的复数连接起到了非常强大的冗余备份能力,而且大脑作为一个活系统,虽然神经元很难增生,但却可以建立新的突触连接,以自动适应各种不同情况,通常说的脑子越用越灵便是这种情况,患者脑部的自发变化同样也算。当然要是过度用脑,或者病情发展太快太严重,超过了大脑的自主调节范围,还是会出现各种问题的。
马竞在设计ipu的立体晶体管构架时,就有在刻意模仿动物神经网络,一来借助立体架构增加晶体管密度,二来也有构建芯片内“神经网络”的意思。
这个网络还非常简单粗糙,根本不能和各大巨头们研究人工智能时搭建的计算机神经网络相比拟,不过马竞却非常看好它的发展,毕竟芯片内通讯的速度和能耗都要优于计算机间通过网线进行通讯。
尤其是用于一些“简单”场合时,效果比大型系统还要好。现在蜂园里面乱跑的动物们,已经可以做到“双兔傍地走,安能辨我是假真”的地步,蜜蜂客服中心人工客服岗位也不增反减。至于其他的人工智能应用同样有上佳表现,无论是语音识别合成、语义识别、机器翻译,还是图像识别合成、模糊计算、ai模拟等等方面都有hld得住。
不过产量和能耗都很让马竞蛋疼,一方面产量太低只能自用,另一方面因为晶体管数量太多,整体的能耗也有些大,暂时还不能放到移动设备里面去。马竞倒不是急着把ipu塞进人造动物体内,跑去进而宠物抢市场,他真正在意的是把ipu用在下一代pt2以及小马电动车、飞马飞行器上面去。
游戏机当然是需要大量人工智能以及人机交互技术的,作为智能交通设备的后两者同样也需要更加机灵的脑子。不过可惜,现在的锂离子电池容量不够给力,把功耗超过100瓦的ipu装进去以后续航会变得很坑爹。
前面提到的地上最强pu,至强e5-2699v3集成了约57亿晶体管,核心面积662毫米,热设计功耗(tdp)为145瓦。
tdp是一个安全值,芯片厂家用此表示自家芯片最大发热程度,从而给其他关联厂商进行参考,避免散热器不给力系统过热乃至融化变形等意外的发生。所以tdp通常比芯片本身的最大功耗还要大一些,而如今主流芯片大多搭载有降频节能技术,实际运行功耗可能只有tdp的三分之一甚至更低。
因为碳管尺寸只有不到5纳米左右的缘故,马竞在ipu里面足足塞了大约200亿个晶体管,不过即便如此每个核心单元平均的晶体管数目也才只有一亿六千万,别说和intelx86pu相比,就算是和ar移动处理器相比,也都是处在比较低的水平。比如最新的苹果芯a8作为双核pu加四核gpu的组合,却拥有20亿晶体管数量,平均每个核心拥有超过3亿晶体管。
当然这种比较实在过于粗略,现实中的手机处理器因为是s的关系,不但要集成pu、gpu以及很占地方的sra缓存,还要腾出很大面积给诸如dsp、isp之类的专业处理器,用在pugpu上的面积其实颇为有限,整体来说核均晶体管数量自然不能像桌面pu一样堆得那么猛。
而且晶体管越多,必然的发热也会越多。即便已经用上了电阻更小的碳晶体管,但先进材料带来的功耗优势还是被超大的晶体管数量给拉平了,这也是为什么只做到128核的一个原因。
绕是如此,当魏伟终于见到了期待已久的ipu,还是忍不住惊讶地反复问了句有没有拿错?
因为马竞拿给他的ipu,并不是他之前想象的一块芯片,而是一块带有pi-e金手指的拓展卡简单来说,就是一块长得非常非常像高端显卡的这么一块板砖。
占据ai卡绝大部分厚度的其实是铝镁合金制作的水冷散热系统,不但内里芯片被盖住看不见,就连板载内存/闪存也看不见尽管已经有了总计高达4gb的芯片内内存,但是唯恐不够用的马竞还是在板子上面堆了8gb的dd内存和128gb的闪存芯片。
虽然全金属外壳显得颇有科技感和未来感,但是架不住显卡厂商早这么干了,这块ai卡的外观又过分像显卡,以至于魏伟拿在手里看了几下也索然无味将其弃之一旁了。
主要还是之前期待值刷得太高了,见到平平无奇的实物,自然难免有些失望。
当然,这也跟他不是卡巴基佬有关系,不然的话这会肯定会拉着跑分、拆机、拍照,然后拿去发帖爆料了。
是以,放下ai卡以后,他立即转移了兴趣,问起了另外一个话题:“这次总算要三马齐聚了吧?”
“应该吧,”马竞无所谓地说道:“这有什么好期待的,作为资深三季王我们就是去打酱油的。”
第513章 一块砖
-