穿越位面而来的旅人,
欢迎你来到萨鲁世界,
我为你带来一个消息,
先知邀请你前去见他。

不去                好的
查看: 4560|回复: 6

[转贴] 超级计算机五百强:中国“星云”傲居第二   [复制链接]

光之洗礼

ck7543 发表于 2010-6-3 16:29:29 |显示全部楼层
在德国汉堡举行的2010年国际超级计算大会上,TOP500.org组织公布了第35届全球超级计算机五百强排行榜,中国新近研发完成的“星云”(Nebulae)高居亚军位置,一举创造了中国在这项排行榜上的傲人新纪录,同时中国“天河一号”排在第七位。这样,中国不但打破了美国对前三甲的长期垄断,也第一次在前十名中占据了两个席位。

“星云”超级计算机是前十强中的唯一一名新成员。它位于深圳国家超级计算机中心,由曙光公司的曙光TC3600刀片系统集群组成,内部采用Intel Xeon X5650 2.66GHz六核心处理器、NVIDIA Tesla C2050计算卡,总计120640个计算核心,运行Linux操作系统,最大浮点性能1.271PFlops(全球第三个突破1PFlops大关),峰值可达2.9843PFlops,甚至超过美洲虎28%之多,是全球理论性能最高的超级计算机。

位于天津国家超级计算中心的中国“天河一号”(Tianhe-1)上次位列第五,目前最大性能仍保持在563.1TFlops不变,滑落至第七位。此前紧随其后的美国国家航空航天局Ames研究中心的“Pleiades”(出自SGI公司)升级到772.7TFlops,超过天河一号达到第六位。

非常有趣的是,星云和天河一号都采用了CPU为基础、GPU做辅助加速的混合计算架构,浮点性能的大幅提升也都得益于GPU的加盟,这应该代表了超级计算机的一种未来发展方向,也是GPU通用计算的成功典范。

中国内地本次有24套系统上榜,与稳步下滑的德国持平,位列美国(282)、英国(38)、法国(29)之后,另外中国香港也有一套系统入围,中国台湾则已从榜上消失。

数量上第四,中国超级计算机的性能则首次达到了第二位,超过德国而仅次于美国。
Cray公司打造、位于美国橡树岭国家实验室计算科学中心的“美洲虎”(Jaguar)虽然没有任何变化,但仍然保住了冠军宝座。该系统基于Cray XT5-HE系统、AMD Opteron 2435 2.6GHz六核心处理器,总计224162个处理核心,最大浮点性能1.759PFlops(每秒千万亿次计算),峰值可达2.331PFlops,功耗6950.6W。

曾经的王者、全球首次将超级计算机浮点性能带往PFlops级别高度的IBM“走鹃”(Roadrunner)这两年来没什么变化,因而滑落到了第三位。

其他要点:

1、五百套超级计算系统总共使用了5135413颗计算核心,总的最大性能为32.429PFlops,峰值性能48.512PFlops。最后一名的最大性能为24.7TFlops,六个月前能排在第357名,但比上次的倒数第一仅提升了23.5%,速度明显变慢。
2、前十名中只新增了一套系统(中国星云),同时也只有一套系统升级(超过中国天河一号的美国(Pleiades)。美国依然在前十名中占据七个名额,另外三个属于中国和德国。

3、处理器方面,Intel以408套系统遥遥领先(比上次增加6套),其中EM64T架构403套、IA-64安腾架构5套,总计50416个计算核心,另外AMD 47套(增加5套)、IBM Power 42套、Sun Sparc 2套、NEC 1套。

4、四核心处理器占据了多达425套系统,拥有六个乃至更多核心的处理器也已经进入25套,其中AMD、Intel不久前各自发布的十二核心Opteron 6000系列、八核心Xeon 7500系列已经分别进入5套和2套系统。
5、制造厂商方面,IBM、惠普分别提供了198套和185套系统,而半年前是186套、210套,惠普终于丢掉了领先优势。其他厂商Cray 21套、SGI 17套、戴尔17套。

6、IBM不但数量超过惠普,总的性能也继续领先,占总体的33.6%(半年前35.1%),而惠普为20.4%(半年前23.0%)。其他超过5%的还有Cray 14.8%、SGI 6.6%。
7、操作系统方面,Linux广泛用于405套系统(这还不算RedHat、SUSE发行版),微软Windows HPC 2008也占据了5套。
8、功耗方面(现在记录实际功耗),只有22套系统经确认超过一兆瓦,位列第一的美洲豹为6.95兆瓦,第二的中国星云未公布相关指标,全部平均397千瓦,平均能耗比为195MFLOPS每瓦(一年前150MFLOPS每瓦)。

9、前五十强的门槛是102.8TFlops,美国比例40%,IBM系统比例24%、性能比例27%,Cray系统比例20%、性能比例27%,按位置分布60%位于研究实验室内、28%位于大学内,只有一套系统使用千兆以太网互联,Cray XT用于其中10套系统,处理器份额方面Intel 48%、AMD 26%、IBM Power 22%,平均核心49080个(半年前44338个)。

光之洗礼

ck7543 发表于 2010-6-3 19:04:46 |显示全部楼层
我国研制出超千万亿次高性能计算机:星云

从曙光公司获悉,我国首台实测性能超过千万亿次的高性能计算机“星云”近日在曙光公司天津产业基地研制成功。
“星云”高性能计算机将于今年年底交 付国家超级计算深圳中心,用于科学计算、互联网智能搜索、基因测序等行业和领域。曙光公司总裁历军说,作为曙光6000千万亿次高效能计算机系统两大分区 之一的服务分区,“星云”采用X86处理器,该分区由近6万个通用处理器核及近5000个GPU加速部件组成,峰值性能为每秒近3000万亿次,实测 Linpack性能达到每秒1000多万亿次。

目前,这一实测性能超过了落户在天津滨海新区的我国首台千万亿次超级计算机“天河一号”,后者实测Linpack性能为每秒500多万亿次。

据了解,曙光6000千万亿次高效能计算机系统的计算分区目前正在紧张研制中。

曙光6000高效能计算机系统由中国科学院计算技术研究所、曙光信息产业(北京)有限公司、国家超级计算华南中心联合研制,由曙光公司天津产业基地制造,设计目标是满足未来云计算环境的应用需求,将于2010年底交付国家超级计算深圳中心使用。

曙光公司成立于1995年,实现了国产高性能计算机的产业化生产,构建了集研发、设计、制造于一体的服务器产业链。2008年,该公司推出了我国首款百万亿次超级计算机。

使用道具 举报

光之洗礼

ck7543 发表于 2010-6-3 19:49:29 |显示全部楼层
我心里也不是滋味,那CPU是老美的.

使用道具 举报

光之洗礼

ck7543 发表于 2010-6-3 23:07:24 |显示全部楼层
本帖最后由 ck7543 于 2010-6-3 23:11 编辑

“星云”高性能计算机—— NO。2意味着什么











  2010年6月1日,曙光公司在京宣布:我国首台达到每秒3000万亿次峰值运算速度的超级计算机“星云”

近日由中科院计算所、曙光公司、国家超算深圳中心共同研制成功。其实测性能超过每秒1271万亿次,在5月31日德国发布的第35届全球超级计算机前500强(TOP500)排行榜上居第二位,创造了中国高性能计算的最高性能。   每秒3000万亿次的运算速度究竟有多快?这么说吧,“星云”一天的工作量,相当于所有中国人每天24小时、每年365天、手持计算器不停地计算500年。 历史性的跨越   “星云”的问世,其意义不仅仅在于国产超级计算机在计算速度上再创新高,更重要的是它昭示着曾被国外垄断的高性能计算“玻璃房子”终于被打破了。曙光公司总裁历军告诉记者,过去西方发达国家对中国施行禁运政策,禁止将高技术装备出口到中国。即使卖给中国,也要被关在“玻璃房子”里——由卖方人员监控使用,中国工作人员不得接触机器核心部件。近年来,我国计算科学的快速发展,从2008年首台超百万亿次计算机“曙光5000”,到2009年超千万亿次计算机“天河一号”,再到如今计算能力更强、能耗更低的“星云”,这些都标志着我国超级计算机制造技术实现了历史性跨越,标志着我国生产、应用、维护高性能计算机的能力已达到世界领先水平。   

据曙光公司研发中心总经理邵宗有介绍,“星云”系统具有完全的自主知识产权,节点机采用了曙光自主研发的TC3600刀片服务器,应用了大规模系统管理和调度系统、高性能计算机安全系统等自主技术,具有“四高二低”技术亮点,即高性能、高效能、高可靠、高密度、低功耗、低成本。简单来说,“星云”的优势在于采用了我国自主研发的模块化服务器,能够按计算需求自行选择主要计算组件,同时它在每个节点容纳了10块GPU计算卡,因而在较重要的节点通过互相比对的计算模式,保证了数据的可靠性。

  提到高性能计算机,人们一般都把它和科学研究联系在一起。事实也的确如此——小到原子结构的分析,大到宇宙起源模拟,到处都需要高性能计算机。但是,高性能计算机的应用绝不仅限于此,眼下在和大众生活息息相关的各个领域,高性能计算机都在大显身手。比如,在石油地质勘探中,为了准确勘定钻井井位,需要收集、研究海量的三维地震资料数据。一般而言,对100平方公里的数据进行分析计算,需要使用每秒10亿次运算速度的计算机运算60天。如果研制一种新药,从化合物筛选到临床试验,一般需要10年到15年的时间。在化合物筛选阶段,对于数十万种化合物,用传统的实验手段,筛选出有效的化合物不仅费时费力,还往往难以得到最佳的结果。而使用计算机模拟手段,科学家可以在较短的时间内从几十万甚至几百万种化合物中筛选出有效的药物化合物,大大缩短了药物研发的周期。   目前,人们对于高性能计算的效能越来越重视,国内超级计算的需求也在不断增长。历军说:“‘曙光5000’进驻上海超级计算中心的当天,就挂载了30%的负载,去年已经全部满载并开始计算任务排队。”如今,“曙光5000”就已广泛应用于证券指数计算、电力安全评估、建筑工程抗震性评估、天气预报、石油地震资料处理、核能开发利用、汽车碰撞、电磁辐射、计算流体力学、基因匹配与拼接、蛋白质结构分析和材料科学等20多个应用领域。   

“超级计算机是云计算的重要组成部分,‘星云’在投入运行之后将担当云计算中心的重要角色。这就是曙光千万亿次超级计算机命名为星云的原因。”历军介绍说,“星云”超级计算机将于今年年底交付国家超级计算深圳中心,服务于科学计算、互联网智能搜索、基因测序等领域。据了解,目前已有大量客户在排队等待使用“星云”了。        

背景资料:   这次评选是以Linpack测试值为基准的,究竟什么是Linpack呢?清华大学计算机系高性能计算技术研究所陈文光教授解释说:“Lin-pack测试就是让高性能计算机都来解一个很大的线性方程组,看谁解得又快又准确。”   除了这种方式,在高性能计算机测评中还有一种比较常用的方法——“应用驱动测评”。“简单地说,就是使用实际应用运行的速度来评价。”陈文光说:“运算速度的快慢,不仅仅由硬件决定,还要取决于软件的设计,比如说采用何种算法。一般来说,不同的高性能计算机用户有不同的应用程序,其使用的算法不尽相同,对高性能计算机的各种能力需求也不完全一样,例如在天气预报领域运算中不占优势的高性能计算机,可能在石油勘探领域非常适用,因此我们一般不直接比较两套计算机系统的快慢,而是说在哪个或哪类应用上,这台计算机的性能如何。我们常用的性能评测方法就是让这些计算机同时运行用户指定的一个或多个程序,以用户应用性能来评定系统的速度和稳定性。”

使用道具 举报

光之洗礼

ck7543 发表于 2010-6-3 23:14:32 |显示全部楼层
不知道这个星云换用龙芯3后,性能会下降多少.

使用道具 举报

光之洗礼

ck7543 发表于 2010-6-3 23:23:02 |显示全部楼层
龙芯产品发展路线图,龙芯8核今年6-7月完成实物流片



从产品路线图来看,龙芯处理器未来将主要有三条产品线:
  



总体来看有三大领域,分别是面向服务器和HPC领域的“大CPU”龙芯3系列处理器——包括刚发布的曙光CB50-A就属于这条产品线,其产品刚刚发布第一代:龙芯3A,采用65nm制造工艺,集成了4.25亿晶体管,原生四核,1GHz主频,性能约为16GFlops;其下一代产品龙芯3B已经设计完成,同样基于65纳米工艺,内核数达到了8个,计算性能达到128GFlops,据透露,龙芯3B将于今年6~7月份完成实物流片;未来的龙芯3C正在设计中,预计采用28纳米制程工艺(确实够先进),集成16个处理器内核,主频也达到了1.5GHz,计算性能预计达到384GFlops,预计于2011年底左右推出——笔者认为,龙芯处理器如果能按路线图顺利推出龙芯3C产品的话,无论是在工艺上,还是技术上都已经不弱于2011~2012年英特尔和AMD计划推出的主流企业级处理器——确实值得期待
  



面向普通计算机和嵌入式应用的龙芯2系列处理器已经推出了两代产品,分别是龙芯2F和龙芯2G,可以看到龙芯2G的制程工艺从2008年的90纳米升级到了目前的65纳米(应该是意法半导体代工),单核1GHz主频,集成DDR3内存控制器和PCI总线控制器(等于集成了北桥);而未来的龙芯2H在保持龙芯2G规格的同时,集成了GPU、南北桥等,几乎是“一片走天下”的嵌入式处理器。相比“大CPU”,面向普通计算机的“中CPU”没有在性能上有太多的“想法”,和国外主流x86厂商力推多核与高主频的处理器相比,龙芯2系列低调的多,却走了一条整合的路线。不得不说,在MIPS架构并不完全兼容x86应用程序的情况下,龙芯走这样的路线十分明智,避开了与绝对优势“对手”的竞争,转而以整合性能,功耗,多媒体性为主,利用整合带来的平台低成本和低功耗,获得用户市场。
  



最后一条产品线是面向移动、消费电子(指手机/MP4/掌上电脑等)、嵌入式应用的龙芯1系列处理器。目前龙芯1系列也发展到第二代产品龙芯1B,处于稳定性考虑采用了130纳米工艺,300MHz主频有助于超低功耗的实现,整合了GPU和南北桥——充分符合嵌入式对处理器的需求。
  



胡伟武表示,龙芯未来还将推出安全类芯片,应用在特种计算机/服务器和保密装备中。处于自主知识产权的处理器也必将填补“敏感”领域的IT应用空白。





对于即将于今年6月~7月流片(试制)的龙芯3B八核处理器,这里要详细介绍一下:该处理器采用65纳米工艺,主频1GHz,片内集成了8个龙芯GS464处理器内核,双精度浮点能力达到128GFlops(四核龙芯3A的双精度浮点只有16GFlops)。根据目前的资料,龙芯3B的八个内核会共享4MB L2缓存(这里要多说两句:由于龙芯是MIPS架构,与x86架构执行原理不同,因此并没有大容量的缓存设计(如x86处理器动辄10来兆的缓存等)。总之,别用缓存多少判断不同架构的处理器性能,而内存控制器和HT超传输总线仍然保持与四核龙芯3A一样的规格,处理器的设计功耗小于25瓦。处于保密考虑,我们并没有获得龙芯3B八核处理器的晶圆图和内部结构图。但是,我们可以通过龙芯3B和未来16核龙芯3C处理器的规格推测其大致架构。


我们来揭晓一组实测数据,包括了4核心龙芯3A,8核心龙芯3B,英特尔上一代面向多路的至强7460,Nehalem架构的至强X5570,还有上一代安腾处理器,AMD的皓龙8384“上海”,以及IBM的Power 6+处理器,主要体现的是其双精度浮点运算性能、功耗、以及效能比(每瓦功耗的实际计算性能Gflops):
  

可以看出龙芯处理器的优势了——超高能效比。4核龙芯3A的功耗只有10瓦,而8核龙芯3B的功耗也只有20瓦,与之强大的双精度浮点运算性能相比,其能效达到了1.6Gflops/Watt和6.4Gflops/watt。相比之下,英特尔和AMD的x86处理器普遍不具竞争力——同样是四核的情况下,其产品性能均超过龙芯3A,但代价是功耗居高不下。在面向数据中心和高性能计算的环境中,单一处理器的性能并不是首选,用户更看重功耗带来的运营费用,因此能效比方面龙芯拥有巨大优势。而作为RISC小型机的主力Power 6+,受制于核心过少(只有2个),因此即便主频高达4.7GHz,也没有得到更高的双精度性能,能耗也在120W,自然比不了龙芯。

  可惜的是,这张实测图因为时间关系,没有加入英特尔最新至强5600,至强7500系列处理器,AMD十二核“马尼库尔”,IBM Power 7处理器做比较,相信这些处理器的效能比会超过龙芯3A,但能否达到龙芯3B的6.4Gflops/Watt,则是一个问号。我们将在今后对比这些新款处理器的实测数据来验证。


如果龙芯3B是GPU+CPU的架构话CPU和GPU互联的确是交叉开关,不过各个单元之间因该是和FUSION一样通过HT总线连接成一个整体的.编辑了一下,把有争议的内核架构先删该了一下,等3B流片后再讨论3BCPU+GPU的架构问题.希望明年能看到曙光6000.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?加入萨鲁

x

使用道具 举报

光之洗礼

ck7543 发表于 2010-6-4 14:16:56 |显示全部楼层
国产千万亿次计算机将首次采用自研龙芯3处理器-
中科院计算所与曙光公司正在研发的千万亿次高性能计算机“曙光6000”将首次采用国产通用处理器龙芯作为核心部件。

  曙光高性能计算机目前一直使用英特尔或AMD的处理器,其中,我国首款百万亿次计算机“曙光5000A”使用的就是AMD公司的四核皓龙处理器。

  龙芯总设计师胡伟武近日在接受新华社记者采访时明确表示,千万亿次超级计算机“曙光6000”将首次采用8000至1万颗八核龙芯3B处理器。虽然单个龙芯的计算能力与英特尔及AMD目前的主流产品相比较弱,但由于高性能计算机采用了大量的龙芯进行并行计算,所以整个“曙光6000”的性能不会减弱。

  届时,完全拥有自主知识产权的千万亿次量级超级计算机将使中国高性能计算机与国外的差距进一步缩小。

  据了解,目前,龙芯处理器已经用在了笔记本电脑、台式电脑、服务器、家庭网关上,但由于受相关应用及生产能力等诸多原因限制,龙芯还未实现大规模商用。“曙光6000”大规模采用龙芯,可以说是龙芯产业化和商业化的重要一步。

  曙光公司表示,千万亿次超级计算机“曙光6000”目前正在研制中,预计将于今年年底或明年上半年推出。推出后,将计划提供给国家华南超级计算中心使用。

使用道具 举报

您需要登录后才可以回帖 登录 | 加入萨鲁

本版积分规则

Archiver|手机版|萨鲁世界2006- ( 苏ICP备15007101号 )

GMT+8, 2025-7-1 12:33 , Processed in 0.026414 second(s), 7 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

© 2001- Comsenz Inc.

返回顶部