超级U盘 作者:纸火花
第207章 养蜂人
明亮宽大的白色房间里,祁宇嘉从一排排金属柜子间穿过,双目四顾,耳听八方,随时注意着走过时身边每一只硬盘运转时发出的声音是否发生异常。虽然说控制系统会自动监管所有硬件,自动提示健康状态不良的设备,但是人工检查还是必不可少的,至少能够显得自己很认真和敬业。
这是他每天的例行工作,巡视机房,然后根据管理系统下发的任务要求对机房服务器进行维护更新升级等操作。
这里是蜜蜂科技在鹭岛的核心数据机房,不过却不在本岛上,而是在岛外工业开发区的蜂园里面。这个以前的家具厂,如今却变成了一座虚拟工厂,生产着一个又一个大到星球小到火柴的虚拟物品,这些机房就是虚拟物品制造车间了。
当初之所以放弃原本软件园id的现成条件,选择自建机房,原因就在于这些看起来并不普通的机柜身上。
这里并没有传统的机架式服务器或者新兴正流行的刀片式服务器,而是马竞自己设计的蜂巢式服务器。
也因为这个,祁宇嘉他们机房维护团队给自己起了一个外号“养蜂人”,现实中的养蜂人每天巡视管理几十上百蜂箱,调节蜜蜂的生活环境,采收蜂蜜,而他们的工作跟这些养蜂人真的很像,不过养蜂人的从蜂箱里面拿走的多数是蜂蜜,少数才是死蜂,而他们拿出来的都是一块块坏掉或者淘汰掉的智能硬盘。
严格说起来这种智能硬盘其实是一种不规范的定制版刀片式服务器。它们自带处理器内存硬盘,是一个独立的计算机系统,和刀片服务器每一块“刀片”都是一个独立系统一样。它们同样通过直连数据线以及高速网络互相连接,并且通过管理软件统筹管理联网的各个子系统,共享资源集中力量完成特定任务。而且也都支持“热插拔”,可以通过增减智能硬盘数目来加强或者消减系统运算能力。
不过智能硬盘并不能取代真正的刀片服务器,毕竟只是主频二三百兆精简架构手机处理器加普通p硬盘的组合,和更加昂贵的刀片服务器单元并不能比性能。但是作为数据中心,智能硬盘在存储领域具有极其强大的低成本高性能优势,蜜蜂的所有游戏、软件、影视资源,还有花园公司的个人网盘都是存储在这些蜂巢服务器里面。
本来按照硬盘的扁平外形,这些附加了一块特殊改造手机主板的p硬盘最适合采用类似数据仓库硬盘架的方式集中安装。但是马竞突发奇想,脑洞大开之下,没有选择常见的平行排列层层叠叠安装这些硬盘,而是让它们三个一组以两两夹角120?的形式构成一个个“y”字形,然后最终组装成类似蜂窝的六边形层叠结构,名符其实的找了个蜂巢出来。
之所以这么做,自然不只是为了名符其实,更多则是为了加强散热。
通常手机芯片和p硬盘的发热量都不太大,正常使用时都不必额外配置风扇之类的散热器。但是蜂巢系统因为在小空间内密集堆积大量芯片和硬盘,使得整体发热量大大增加,散热压力也就因此而产生了。
六边形结构本身对气流的扰流效果能够最大限度地加强散热,蜂巢的六边形结构不是昆虫蜜蜂的智能选择,而是它们高体温大密度集聚生活之后的“自然选择”采用其他筑巢方式的蜂类生存生活条件不好,没有竞争优势。
而且六边形结构作为最节省材料的空间结构,也能保证每一块智能硬盘两面都有最大的空余空间可以用来安装额外的散热器。
因为使用集中式水冷散热系统,以及蓄电池直流供电系统的关系,这种蜂巢服务器上面没有一只风扇,整个机房里面只有几千只机械硬盘高速转动以及磁头定位时发出的微弱声音。
祁宇嘉就在仔细辨认着这些声音,一旦有哪里声音不正常了就说明那里的硬盘出现故障或者隐患,需要维护更换,他会用手中的记号笔在声音异常硬盘对应的标签卡上面留下记号,等下就会推着小车过来挨个更换它们。实际上通常能够被他用耳朵听出来有问题的硬盘非常少,毕竟他只是普通人,耳朵没有调音师或者目盲音乐家那么灵敏。大多数时候他们都是依靠管理系统提供的不健康硬件名单进行更换操作的。
自从这个机房建立起来,这里每周都要有一批新硬盘送进来装上去,同样每隔一段也都会有损毁报废或者性能下降淘汰的硬盘被拆下来送出去。
这就是机械硬盘的悲哀之处了,虽然理论上寿命无限,但实际上受到电机、磁头等机械部件寿命的影响,它们在服务器环境高频度大负荷的运行之下,很容易就会出现这样那样的毛病。为了安全和稳定的考虑,就要及时排查,然后将其拆卸淘汰。加上业务扩展会需要更大更快的硬盘,他们有时候也会很忙的。
这个频率并不固定,和公司的业务开展有关系,所以他们的工作强度变化很大,有时候一天很闲可能只需要转几圈就了事,有时候又会很忙碌,甚至需要加班加点。
平时空闲照样有工资,加班还有加班费,所以祁宇嘉他们对自己的工作还是很满意的。不过随着公司业务越做越大、越来越有钱,以及硬盘价格逐渐趋于稳定,这种情况正在逐渐改变。每天例行工作增加了一些安装新服务器新硬盘的工作,而突发加班的情况却是少多了。
要不是智能硬盘上面搭配的手机芯片还在不断升级换代,价格也在不断降低,使得公司没有动力一次性地把数据中心建设到位,他们每天的工作量可能还要更大一些。
蜜蜂智能硬盘上面搭配的手机处理器,大多数都是二手回收货,但因为没有机械磨损,安装前经过仔细检测,现在的运行环境也很“舒适”,所以即使长期高负荷运行之下也很少有芯片出问题报销。
不过即使这些二手芯片都“老骥伏枥”还能再战五百年,但是毕竟“江湖后浪推前浪,一代新人胜旧人”,随着新的性能更高更便宜的芯片源源不断被送进公司,机房里面还是会时不时淘汰一些老旧型号的手机芯片出来。
这些淘汰出来的智能硬盘,就变成了祁宇嘉他们这些“养蜂人”的收获。
完成今天的更新工作以后,祁宇嘉推着小车把从机房取出的智能硬盘送进了检测室里面,那里的同事们会把机械硬盘和手机芯片分开,各自单独检测。出现物理损坏的硬盘和芯片集中起来卖给物资回收公司,不过为了保护数据机密卖掉的硬盘会被要求拆解破坏磁盘片。
而那些检测后功能正常的机械硬盘和芯片又会被重新组装成智能硬盘,刷上普通版系统,在公司内部出售。
蜜蜂的智能硬盘有两种模式,一种是模式,也叫计算模式,盘上芯片承担更多计算任务,另一种是s模式,存储模式,盘上芯片只承担智能读写加速任务。机房里面的智能硬盘是两种模式都有,通常主频高一些的芯片都是模式的,反之则是s模式,但是普通版智能硬盘却都是s模式的,无论其搭载芯片性能如何。
这些公司内部出售的智能硬盘都经过数据粉碎和仔细检测,不会泄密也不会影响正常使用,价格便宜而且性能强大,因此深受好评。不止公司员工自己使用,很多人还会买了送给亲戚朋友,甚至转手卖给其他人。
对于这种情况公司并不会阻止,反而认为这是有利环保的好事情。
通常废旧手机被以几十块甚至几块钱的价格卖给回收旧手机的人以后,就会被按照型号归类,然后分解成零件。检测可用的零件一部分流入该型号手机的维修市场,一部分流到手机配件市场最终被装进山寨手机里面。还有一些更加悲惨的,则会粉身碎骨被拆解炼金。
真的是炼金,从电子芯片当中提炼黄金。
黄金并不是导电率最好的金属,甚至只能排到第三名,20常温下,金属导电率依次增大的排序是银<铜<金<铝<钨<镍<铁。但是黄金却是电子工业最喜爱使用的最高级导电材料,这是因为导电率高于黄金的银和铜,以及仅次于黄金的铝,会因为长期暴露在空气中发生氧化反应,在表面形成一层高电阻氧化膜使得这些材料的电阻发生变化,这会对电子产品的信号处理产生影响。
而黄金性质稳定,纯金在空气中不会发生氧化反应,所以工程师们热衷于使用黄金来制作连接线以及接头插孔,以保证信号传递的稳定精确。尤其是各种pu,其核心是一块激光蚀刻的半导体硅晶片,但是在外围连接硅晶片与封装电路的,却是一根根同样细小的黄金导线。
部分芯片里面含有黄金的事实,引起了废旧物资回收产业,各种专业收破烂人士的注意,他们低价买来一些淘汰的电子垃圾,拆解之后泡进强酸里面,还真炼出了黄金。一公斤intelpu可以炼出3克黄金,售价几百元。
这种拆解方式危害身体污染环境为法律不容,所以主要发达国家通常都不会有人搞这个业务,他们宁可去拆军舰。为了处理电子垃圾,这些国家甚至会贴钱“出口”它们,而这些垃圾中又确实含有金银铜铝等有价值金属成份,因此在环境法规不严格的不发达国家沿海地区,人们发现了这个商机,纷纷操持起这简单的致富生意来。
以至于曾经需要贴钱出口的电子垃圾居然可以卖钱了……
蜜蜂科技也是大批废旧芯片“淘金者”当中的一员。不过别人是淘特定型号芯片拿去炼金或者拿去维修翻新热门型号电子产品,而他们则是和专业回收拆机团队合作,使用结构完好功能正常的二手芯片制造智能硬盘,用于建设自家机房。
作为存储应用,可以使用一定量检测合格质量达标的二手手机芯片,但是普通的机房里面就不能使用二手货了,因为芯片行业发展迅速,在追求更快更强更能干的道路上永远是一代新芯胜旧芯。除非新品因为各种原因没有达到预期效果,否则新一代芯片必然比老前辈更省电、运算速度更快,也更便宜。
当然要是始终追求“最好”、“最强”,非顶尖旗舰产品不买的话,“便宜”这两字应该就会与你绝缘了,因为旗舰产品顶尖型号永远是各种死贵死贵死贵死贵的。
因此一惯抠门的蜜蜂科技,会选择这样配置略显奇葩的服务器也就不奇怪了。主板倒是没有省钱,为了加强稳定性,都是使用服务器级别的产品,不过却把电源换成高性能蓄电池减少交直流变换发热以及预防断电事故,据说这是传说中的谷歌经验。
配置里面的内存和硬盘虽然不是最高端的,至少也是一流水准。但怪就怪在pu型号上面了,其中甚至有些服务器单元赫然使用的是低端赛扬处理器。不止pu有情况,另外一些机架式服务器上面安装的显卡数目也不对劲,明显过多。
许是穷惯了,马竞更加喜欢配置具有更高性价比的服务器,对于业内高端服务器产品宣称的强稳定性、高可靠性却不怎么在意,甚至性能差些都能勉强接受,只要够便宜。
这就是为什么低端赛扬pu堂而皇之地进了蜜蜂的机房的原因,因为同样制程的赛扬拥有更加低的计算力采购成本。
同样的大量显卡进入机房,也是因为性价比的原因,使用更加擅长浮点计算的显卡gpu加入服务器,能够大大改善各种物理模拟的计算效果。
国际上使用显卡进行通用计算,正在变得热门起来。以前科研人员通过破解显卡驱动,让原来只能进行像素渲染的显卡gpu可以用来计算其他类似的数学问题比如扩散求解,并且效果比用同价格的pu还要好。而现在显卡厂商和游戏公司已经意识到显卡进行通用计算替代部分pu功能的时代已经到来。
微软随着vista系统一同发布的diretx10显卡接口就支持编程人员对显卡进行更多通用可编程计算。而显卡厂商也不甘人后,显卡巨女dia公司在6月份发布了女diatesla通用gpu计算解决方案,核心是gefre8系列架构gpu。其专门提供的uda程序执行时,能够同时处理数千个线程,从而为某些计算密集型任务带来更加高效的计算性能,使gpu迅速解决一些复杂的计算难题。
虽然蜜蜂表示自家服务器算不来全国全球天气实时模拟中长期预测,却并不代表着自家服务器会不如国家气象局那组全国排名第一的超级计算机。
毕竟气象局是事业单位,他们买东西需要预算和拨款的,不可能像蜜蜂这样独立自主。
在女dia发布tesla方案、uda开发工具包以后,马竞第一时间就对其投入了相当大的关注。并且在实测有效之后,很快就投入千万巨资批发了几千块g92核心的n卡,用来搭建自家《大明l》的服务器。也就是说蜜蜂六大地区机房加总部核心机房的七台《大明l》服务器,是全世界第一批大规模使用显卡搭建的通用计算平台,在科学计算、物理模拟领域暂时傲视全球仅限同样投资成本的超算,ib蓝色基因那种自家制造pu不要钱一样堆了几万个的“富二代”完全不敢跟人家比,谁没事儿找罪受。
这个举动一度让全国很多地方的中高端n卡卖断了货,为几大it门户小编贡献了不少选题和版面。同样的,也是因为这一批“性价比”极高的显卡超算的加入,使得蜜蜂可以有底气在七月份开始不限号不删档公测。
当然了,无论是全国超算tp100、全球超算tp500,蜜蜂使用了大量显卡的游戏服务器实际上根本没有上榜,这是因为蜜蜂科技内部开会时建议联系登记计算能力登上tp100排行榜的提议被马竞压制了,因为他觉得没必要。
虽然以这七组服务器现在的浮点计算能力,也就是勉强混个tp100上榜资格,但是这却是马竞没有特地对其进行优化造成的。毕竟游戏公司服务器排进全国超级计算机排行榜,怎么看怎么像是打脸来着,也就那位爱玩球的老朱闲的蛋疼了才会去干这样veryzhuang逼lity的事情。
真要是按照国内国际流行趋势,专门针对超算计算能力测评程序进行优化,马竞相信完全可以把tp100前十名给霸榜了。
蜜蜂算不来气象模拟原因并不是服务器不行,而是没有相关数据。呈现在公众面前的是各地区的天气温度风力的预报数据,而气象局算出这些数据的依据却是全国几百上千气象站联网数据,以及世界气象组织内其他邻国的合作共享数据。
再加上马竞在大气物理等领域的见解还不太精深,也就藏拙不去搞自己的一套实时天气系统,转而直接使用国家气象局的全国天气数据接口。
其实以蜜蜂每个机房至少上千枚高端显卡的用量,蜜蜂的这些超算在物理模拟领域妥妥是傲视全国的,在全球应该也能勉强挤进前十。不过要是把财大气粗美**方和nasa航天局的超算算进去,可能就要掉到20名以后去了。具体掉多少,马竞也不太清楚,毕竟他又没有闲的没事干去黑五角大楼的内网。
第207章 养蜂人
-