宝德动画渲染解决方案

需求分析

动画设计的背景和发展

动画作为一种独特的视觉艺术形式一直受到广泛欢迎。从早期的二维动画设计到目前的三维动画设计,经历了将近10年的发展,已经步入全盛时期。这里提到的二维动画是指以 “分层”技术为基础的动画设计方法。动画师将运动的物体和静止的背景分别绘制在不同的透明胶片上,然后叠加在一起拍摄。发达的电脑技术与优秀动画师的联姻进一步推动了二维动画的发展,各个层开始在电脑上直接合成,电脑还能绘制出大自然、科幻式奇效等手绘无法完成的画面。而目前最为流行的三维动画设计则是依赖的CG技术通过电脑强大的运算能力来模拟现实,建模、运动、渲染是制造三维动画的基本步骤。总体说来二维动画更接近于绘画,而三维动画则更接近于摄影。

目前,三维动画设计强大的优势越来越被人们所认可。同二维动画相比三维动画有着更为优美的动画画面和更加逼真的视觉效果。另外三维动画还具有许多突出优势:它不受帧数的限制,在模拟动作灯光都设置妥当的前提下,渲染程序可以自动产生足量的画面,使影片看起来如同现实一般流畅自然;在着色方面,三维动画的渲染步骤是一次性的过程,不必再像二维动画那样逐帧着色,大大减少了重复劳动。

就拿我们熟知的《海底总动员》为例,制作人员先依据原画,以点、线、面逐步完善的方式,创建出小鱼与周围的海洋环境的几何信息,这种搭“骨架”的方式就是“建模”;之后是“运动”,在有了模型的基础上,通过运动捕捉、力场模拟等方法来让小鱼们按照设计运动起来;接下来的“渲染”,则是在三维世界中添加虚拟的灯光、通过摄像机来模拟摄影,此时小鱼的肤色和纹理都变得十分清晰和逼真,海水也被赋予了流动的波纹;当然,建模、运动、渲染只是三个“基本”步骤,在经过“光照计算”,并按照虚拟摄影机的设置来逐帧成像之后,那些各式各样、色彩斑斓的鱼才能真正游动了起来。

  1.  计算机动画制作的流程

动画前期制作

  •  项目简介

电视3d系列宣传片,集广告宣传与趣味故事为一体的全三维动画制作

  •  概念设计

业内通用的专业动画流程前期制作,内容包括根据剧本绘制的动画场景、角色、道具等的二维设计以及整体动画风格定位工作,给后面三维制作提供参考

  •  分镜故事板

根据文字创意剧本进行的实际制作的分镜头工作,手绘图画构筑出画面,解释镜头运动,讲述情节给后面三维制作提供参考

1.1. 动画中期制作

  •  3D粗模

在三维软件中由建模人员制作出故事的场景、角色、道具的粗略模型,为Layout做准备。建模工作从简单的基本形体开始逐步修改、变形得到复杂的模型是建模的一项重要技术。基本形体的建立参数可以在创建之前设置,也可在创建之后编辑。其中复合物体主要是布尔运算(Boolean,19世纪英国数学家),主要是体块间的相并(Union)、相交(Intersection)和相减(Substraction)操作,可用于诸如在墙面上挖门洞、窗洞。

  •  3D故事板(Layout)

用3D粗模根据剧本和分镜故事板制作出Layout(3D故事板)。其中包括软件中摄像机机位摆放安排、基本动画、镜头时间定制等知识。

  •  3D角色模型\3D场景\道具模型

根据概念设计以及客户、监制、导演等的综合意见,在三维软件中进行模型的精确制作,是最终动画成片中的全部“演员”。

  •  贴图材质

根据概念设计以及客户、监制、导演等的综合意见,对3D模型 “化妆”,进行色彩、纹理、质感等的设定工作,是动画制作流程中的必不可少的重要环节。贴图,顾名思义,就是使用一幅或多幅图像“贴”到模型上,制作物体表面的纹理(Texture)或绘图特征很显然,对具体的图像就要贴到特定的位置,三维软件使用了一种贴图坐标(Map Coordinate)的概念,一般有平面(Plannar)、柱体(Cylindrical)和球体(Spherefy)贴图,分别对应于不同的需求(注:Maya的贴图概念略有差别)。材质,即材料的质地,体现于物体的颜色、透明度、反光度和反光强度、自发光特性以及粗糙程度等特性上面。对于模型“毛坯”,如果不作贴图处理,就要对它设置相应的材质属性。

毫不夸张地说,材质和贴图是一件作品的灵魂,好的材质和贴图可以弥补建模的不足。对于精细的物体,一般都需要多重贴图,如对一片叶子,可能要用到颜色贴图,凹凸贴图等。

  •  骨骼蒙皮

根据故事情节分析,对3D中需要动画的模型(主要为角色)进行动画前的一些变形、动作驱动等相关设置,为动画师做好预备工作,提供动画解决方案。

  •  分镜动画

参考剧本、分镜故事板,动画师会根据Layout的镜头和时间,给角色或其它需要活动的对象制作出每个镜头的表演动画。

  •  灯光

根据前期概念设计的风格定位,由灯光师对动画场景进行照亮、细致的描绘、材质的精细调节,把握每个镜头的渲染气氛。

 计算机中的灯光一般都有泛光灯(如太阳、蜡烛等四面发射光线的光源)和方向灯(如探照灯、电筒等有照明方向的光源)。灯光起着照明场景,投射阴影以及增添氛围的作用。同真实的灯一样,你可以 选择光色、强度,设置衰减等,也包括一些真实灯光所没有的特性,如对场景中的物体选择性的影响以及是否投射阴影的控制。

由于计算机中的物体没有反射性(除非使用辐射度(Radiosity)渲染器),因此设置一个恰当的照明环境是个比较麻烦的过程。

  •  3D特效

根据具体故事,由特效师制作。若干种水、烟、雾、火、光效在三维软件中的实际制作表现方法。

  •  分层渲染/合成

动画、灯光制作完成后,由渲染人员根据后期合成师的意见把各镜头文件分层渲染,提供合成用的图层和通道。

1.2. 动画后期制作

  •  配音配乐

由剧本设计需要,由专业配音师根据镜头配音,根据剧情配上合适背景音乐和各种音效

  •  剪辑

用渲染的各图层影像,由后期人员合成完整成片,并根据客户及监制、导演意见剪辑成不同版本,以供不同需要用。

  •  动画合成

传统的赛璐珞(cel)动画已经过时,计算机逐渐取代了他的位置。计算机动画一般使用关键帧(keyframe)的概念,即由设定动画主要画面(一般是动画中动作或场景变化较大的那一瞬间)并设置关键帧,而关键帧之间的过渡由计算机来完成,这个过程称为插值(Interplet)。

为了形象化动画信息,更好地不编辑动画情态,三维软件大都将动画信息以动画曲线(Animation Curve)表示。动画曲线的横轴是时间(帧),竖轴是动画值,可以从动画曲线上看出动画设置的快慢急缓、上下跳跃。

  1.  动画渲染的需求

2.1. 什么是动画渲染

渲染,英文为Render,也有的把它称为着色,但习惯把Shade称为着色,把Render称为渲染。Shade是一种显示方案,一般出现在三维软件的主要窗口中,和三维模型的线框图一样起到辅助观察模型的作用。Shade可以显示出简单的灯光效果、阴影效果和表面纹理效果,但是Shade采用的是一种实时显示技术,硬件的速度限制它无法实时地反馈出场景中的反射、折射等光线追踪效果。而现实工作中我们往往要把模型或者场景输出成图像文件、视频信号或者电影胶片,这就必须经过渲染程序。
    渲染是基于一套完整的程序计算出来的,硬件对它的影响只是一个速度问题,而不会改变渲染的结果,影响结果的是看它是基于什么程序渲染的。因此渲染可以细致的显示出纹理贴图、光源影响甚至阴影效果,比如是光影追踪还是光能传递等技术细节。

2.2. 动画制作软件简介

当今影视、电视媒体和游戏工业中几种主流的三维动画与渲染软件,它们是:Alias公司的Maya、Avid公司的Softimage|XSI、Side Effects Software公司的Houdini、Discreet公司的3D Studio Max、Newtek公司的 Lightwave 3D、Pixar公司的Photorealistic Renderman和Mental Images公司的Mental Ray。

目前主流的,被广泛应用的主要是Maya、Softimage|XSI和3D Studio Max。详细内容请参考4.6 动画制作和渲染的软件介绍。

2.3. 动画渲染的瓶颈

三维图像处理过程由创建三维模型及执行几何运算开始。一个完整的三维图像处理过程可分为物理运算、几何转换、剪切及光效、三角形设定和像素渲染四个阶段,其中需要进行大量的浮点运算(包括物理实体、几何转换、剪切、光效,以及三角形设定)和整数运算(包括三角形设定和像素渲染)。

因此在这种背景下,势必存在繁重低效的过程,也就“渲染瓶颈”。在进行三维创作过程,动画设计者大都使用图形工作站来完成渲染的任务。单机渲染视图和动画时所需时间往往让人难以忍受,30帧动画就可能耗费数小时,显然渲染时间显得十分困窘,使用单机工作站渲染视频动画的方式速度实在很低,往往是以数天计算,甚至上月的;这样的渲染占到很大的制作时间比例。

另外,必须考虑解决渲染过程中的I/O瓶颈。当动画越来越逼真、模型越来越细腻、渲染要求越来越高的情况下,伴随着文件变大、素材库变大,庞大的数据处理将使得32位计算本身在架构上就成为一个瓶颈。因为32位的工作模式已经决定了I/O的带宽不能满足数据处理的要求。

解决方案

  1.  基于宝德PowerScale 8000N的集群渲染

在动画节目制作过程中渲染所需要的时间越来越多,而利用PC工作站来进行渲染的方式必定无法满足如此庞大的计算量。因此,我们需要使用集群渲染系统来解决渲染的瓶颈问题。

并 行集群渲染系统由一台或几台服务器、多台PC和网络连接设备构成,每台PC拥有中央处理器、主板、内存以及存储设备。渲染服务器通过一系列分布式工作命令 借助强大的渲染能力来帮助设计师高效率地完成三维作品的最后成形。借助于分布式渲染器,动画设计者不仅可以在设计完成3维模型以后,导入集群渲染系统,通 过集群渲染强大的数据处理能力,迅速的按需求进行动画或静帧进行渲染。通过分布式计算,将一个大型的模型快速渲染,时间往往缩短到原来的1/2,1/3, 甚至几十分之一。原来可能要几天运算的数据,可能几个小时就能搞定,大大提高工作效率。 

集群渲染系统是有很多渲染节点组成,采用领先的分 布式渲染技术,系统将自动确定网络中可用的渲染节点和资源,同时将将任务分解到相应渲染节点,自动负载平衡功能可以优化工作流程中每个渲染节点的使用效 率。如果某一个渲染节点与网络断开,内置式故障保护功能管理端将自动将作业重新路由到渲染集群中的其他渲染节点,确保渲染工作如期完成。 

集 群渲染系统目前可以很好的支持3dsmax,maya中或softimages、lightwave等软件设计模型的网络渲染工作。在实际应用的过程中, 集群渲染系统将可以根据具体设计软件调整参数结合使用,较好地解决了复杂情况下的模型渲染问题。对于已经构造好的三维模型,也可以利用集群渲染,可以通过 简单的设置对来对渲染模型属性参数进行交互式的编辑与修改,以达到迅速设定渲染模型的目的。 

 使用集群渲染能够大大节省了渲染时间、减轻了渲染劳动强度,同时能够为高效率地完成后续合成工作打下了坚实的基础。这一点在中、大型建筑模型应用和计算机动画等多媒体制作领域作用尤为明显。

3.1. 集群渲染介绍

3.1.1. 集群渲染的的流程

每个工作站制作好的三维场景文件提交给管理节点服务器,由管理节点服务器将任务分发给系统中任意个计算节点,渲染完成后每个节点再将结果返回管理节点服务器,最后由管理服务器把视频信号输出到视频设备(如Beta Cam、DVD制作设备和打印机)或者三维/视频工作站。

1)管理节点 

管理节点主要承担两种任务,为计算节点提供基本的网络服务,以及调度计算节点上的工作,通常集群的工作调度程序应该运行在这个节点上。 

2)计算节点 

计算节点是整个集群系统的计算核心,它的功能就是执行计算。这需要根据你的需要和预算来决定采用什么样的配置,对于集群系统来说,多CPU节点作为渲染系统的计算节点具有广泛的用户群,以及更高的性价比。

3)存储节点 

如果集群系统的应用运行需要大量的数据存储,比如HD素材,就需要一个存储节点。顾名思义,存储节点就是集群系统的数据存储器和数据服务器。 

4)交换机 

 集群计算的进程迁移需要高速硬件连接设备,进行计算机之间的数据传输,可选的设备包括千兆网卡、交换机或者光纤卡以及相应的光纤交换机。对于中小型的集群系统来说,千兆的传输速率完全能够满足了。下表是网络连接技术比较: 

互连 

千兆以太网 

光纤 

MPI延迟

60us 

8us 

点对点带宽

70-80MB/s 

250MB/s 

连接方式

主板集成 

64bit/66MHz 

1.1.1. 集群渲染完成的工作

首 先,渲染程序通过三维场景中的摄像机获取了需要渲染的范围,一般来说,三维软件已经提供了四个默认的摄像机,那就是软件中四个主要的窗口,分为顶视图、正 视图、侧视图和透视图。渲染的是透视图,而透视图的摄像机基本遵循真实摄像机的原理,所以结果才会和真实的三维世界一样,具备立体感。

接下来,体现空间感,渲染程序决定哪些物体在前面、哪些物体在后面和那些物体被遮挡等。

之 后,就要计算光源对物体的影响,这和真实世界的情况又是一样的。许多三维软件都有默认的光源,否则,我们是看不到透视图中的着色效果的,更不要说渲染了。 因此,渲染程序就是要计算我们在场景中添加的每一个光源对物体的影响。渲染程序往往要计算大量的辅助光源。渲染程序还要计算一种特殊的阴影--软阴影,场 景中的光源如果使用了光源特效,渲染程序还将花费更多的系统资源来计算特效的结果,特别是体积光,也称为灯光雾,它会占用大量的系统资源。

最后,渲染程序还要根据物体的材质来计算物体表面的颜色,材质的类型不同,属性不同,纹理不同都会产生各种不同的效果。而且,这个结果不是独立存在的,它必须和前面所说的光源结合起来。如果场景中有粒子系统,比如火焰、烟雾等,渲染程序都要加以“考虑”。

1.1. 集群渲染的特点

  •  具有强大渲染能力
    渲染集群中的渲染节点采用目前浮点运算性能强劲的的多处理器,配置大容量内存,合理科学的分布式的结构,充分发挥系统的整体浮点运算能力,使得整体渲染效能大幅提升。提高产品输出效率;节省设计师的时间,让他们去做创造性的工作而不是让他们的能力浪费在冗长的等待中。 
  •  独有功能  

n 动态服务: 你可以联机或切断机器不需要停止你的程序.将会认别每一个修改和自动地恢复任何动态渲染。

n 容错功能: 将渲染封包指派给机器, 及时检查遗失的帧与帧大小的差异.也可以查觉机器和重新改变封包路径。

n 单帧处理: 可以使用一些工具的渲染功能部分去分割单一帧图片, 透过几个有用的工具可以产生测试渲染结果或大的打印图片。

  •  响应快、渲染快
    集群渲染服务器采用了分布式网络渲染技术,对于所建的模型文件小、用面省;同样的模型,分布式渲染器较传统单机工作站渲染速度提高约数倍,甚至数十倍,上百倍,渲染时间缩短到原先的1/3、1/5、甚至几十分之一 。 
  •  支持三维设计软件广泛
    支持市面上常见三维设计软件 
    Alias|Wavefront Maya 4.0,4.5,5.0和6.0, 
    Softimage|3D, 
    Softimage|XSI, 
    Newtek Lightwave, 
    3D Studio Max 6.0, 
    Apple Shake, 
    Adobe After Effects 6.0, 
    Mental Ray for Maya 或 mental ray standalone 分布式渲染等软件,集群渲染系统在后期将支持更多的设计软件 
  •  积木式的构造方法,构建方便
    集 群渲染服务器中采用积木式的灵活构造方法,使得动画设计者能够根据自身需要制定渲染集群的组合方式或处理时间,给使用者提供了很大的选择空间。 支持多平 台客户端渲染,包括Windows NT/2000/XP, Linux(Redhat 8.0以上版 本), Irix 6.5 和 Mac OS X (Apple OS X version 10.3 )机器上使用。完美的和多平台工作环境融合,充分 利用已有设备,降低成本,提高工作效能。 
  •  渲染输出结果方便
    集群渲染服务器采用面向对象的三维渲染技术,渲染方式简单、方便、直观,符合后期合成设计人员工作习惯和思维方式。集群渲染服务器的输出手段灵活多样,可以直观地修改渲染的各类参数,也可以通过对输出属性的调整,及时改变输出结果特性与类型。 
  •  智能化渲染系统
    集群渲染服务器是智能化的工具型渲染系统,它不仅能够合理分配用户输入模型,而且能够对各个渲染节点处理能力进行自动匹配适应,使所渲染结果自然、合理。并采用了有效的渲染管理技术,分布式渲染器可以根据用户的需求继续渲染功能管理,如指定队列,任务渲染。 
  •  使用方式灵活,费用低
    集 群渲染服务器对于自由设计者和小型动画工作室用户来说,可以采用临时租用的方式,这样相对成本低,效率高, 对于长期有大量渲染需求的用户来说,购买系统 开始是一笔不算高的的开展,实施网络渲染器可以有效提高公司的业务处理能力,在单位时间内处理客户业务更多,创造价值更多,从长远上增加公司竞争力,相比 之下长期成本成本更低。  

1.2. 渲染过程对CPU的选择

对于动画渲染的处理以往主要由Alpha处理器、SGI工作站、Apple等所统治,而随着X86处理器性能的飞速提升,越来越多的厂商推出了基于X86处理器的工作站产品。

在 完成了模型构造后,在最终输出图形前还需要对模型进行渲染。如果处理算法复杂,要求的画面质量高,渲染生成的时间就会很长。对于3D设计类软件,其主要运 算是浮点运算,而选择一款浮点性能出色的处理器无疑是提高工作效率的前提。英特尔处理器浮点运算能力非常强大,从而会大大提高3D渲染的工作效率。由于 3D动画设计中对处理器的依赖较大,大多数图形工作站都采用了多处理器结构。通过将3D设计软件生成的进程分配到每个处理器上,系统可以比较大幅度的提升 软件的运行速度。

1.2.1. Intel XEON处理器的介绍

至强的诞生:Pentium II Xeon

1998 年英特尔发布了Pentium II Xeon(至强)处理器。Xeon是英特尔引入的新品牌,当时Intel公司为了区分服务器市场和普通个人电脑市 场,决定研制全新的服务器CPU,命名也跟普通CPU做了一些明显的区分,称为Pentium II Xeon,取代之前所使用的Pentium Pro 品牌。这个产品线面向中高端企业级服务器、工作站市场;是英特尔公司进一步区格市场的重要步骤。Xeon主要设计来运行商业软件、因特网服务、公司数据储 存、数据归类、数据库、电子,机械的自动化设计等。

Pentium II Xeon处理器不但有更快的速度,更大的缓存,更重要的是可以支持多达4路或者8路的SMP对称多CPU处理功能,它采用和Pentium II Slot1接口不同的Slot 2接口,必须配合专门的服务器主板才能使用。

巨大的成功:Pentium III Xeon
    1999 年,英特尔发布了Pentium III Xeon处理器。相信大家都还记得,采用“铜矿”核心的奔腾3处理器那几年是如何的风光,至今都还被誉为一代经 典产品,而作为Pentium II Xeon的后继者,除了在内核架构上采纳全新设计以外,也继承了Pentium III处理器新增的70条指令集, 以更好执行多媒体、流媒体应用软件。除了面对企业级的市场以外,Pentium III Xeon加强了电子商务应用与高阶商务计算的能力。Intel还 将Xeon分为两个部分,低端Xeon和高端Xeon。其中,低端Xeon和普通的 Coppermine一样,仅装备256KB二级缓存,并且不支持多 处理器。这样低端Xeon和普通的Pentium III的性能差距很小,价格也相差不多;而高端Xeon还是具有以前的特征,支持更大的缓存和多处理 器。

前赴后继:Pentium 4 Xeon
    2001年英特尔发布了Xeon处理器。英特尔将Xeon的前面去掉了 Pentium的名号,并不是说就与x86脱离了关系,而是更加明晰品牌概念。 Xeon处理器的市场定位也更加瞄准高性能、均衡负载、多路对称处理等特 性,而这些是台式电脑的Pentium品牌所不具备的。Xeon处理器实际上还是基于Pentium 4的内核,而且同样是64位的数据带宽,但由于其利 用了与AGP 4X相同的原理--“四倍速”技术,因此其前端总线有了巨大的提升,表现更是远胜过Pentium III Xeon处理器。Xeon处理 器基于英特尔的NetBurst架构,有更高级的网络功能,及更复杂更卓越的3D图形性能,另一方面,支持至强的芯片组也在并行运算、支持高性能I/O子 系统(如SCSI磁盘阵列、千兆网络接口)、支持PCI总线分段等方面更好地支持服务器端的运算。

Prestonia
    是 Xeon处理器的第二代核心,Prestonia同第一代的Foster核心之间的首要区别就是整合的二级缓存容量的差别,前者为512KB,而后者仅为 256KB。Prestonia核心处理器也采用了先进的0.13微机制造工艺。但是Prestonia核心最大的优势就是增加了对 Hyper- Threading(超线程)的支持。Hyperthreading早先称为Jackson技术,这是一种多线程 (SMT Simultaneous Multi-Threading)技术的扩展,其主要功能就是让处理器在单处理器工作模式下也进行多线程工作(每块 处理器可以同时进行一个以上进程的处理)。

Nocona
    这是Intel的XEON CPU核心,采用90nm制程,使用 800Mhz FSB,具有16KB L1缓存、1MB L2缓存和12KB uOps Trace缓存,同时支持SSE3以及 HyperThreading。对应Xeon处理器通过EM64T技术同时支持32位和64位计算,并通过集 成 DBS(Demand Based Switching,基于需要切换技术)实现增强型SpeedStep技术,可以根据工作负载动态调整处理器运行 频率和功耗。

Irwindale
    Xeon产品的核心,前端总线、HyperThreadingII、增强型 Speedstep、EDB以及EM64T都和Nocona完全一致。该核心与 Nocona核心最大的不同就是二级缓存进一步提升到2MB,频率由 3.0G开始起跳,与Pentium 4 600系列处理器的架构有些类似。不过由于二级缓存的加大,工艺也没得得到改进,导致该处理器的功率和发热量均 大大高于Nocona,在选购该处理器时散热应该引起足够的重视。

Conroe(双核心)
    Intel Xeon 3000 系列的新核心,与Intel Core 2 Duo采用相同的LGA 775针脚,而非Woodcrest所用的LGA 771针脚。Xeon 3000 系列处理器运行于1066 MHz系统总线(FSB),内含4 MB或2 MB共享型二级缓存,支持Intel 64位扩展技术 (Intel EM64T),Intel虚拟化技术(Intel Virtualization Technology)及 Enhanced Intel SpeedStep技术,其中包括 Xeon 3040, 3050, 3060和 3070,Intel Xeon 3070 (2.66 GHz/4MB L2/FSB1066),Intel Xeon 3060 (2.40 GHz /4MB L2/FSB1066),Intel Xeon 3050 (2.13 GHz/2MB L2 /FSB1066),Intel Xeon 3040 (1.83 GHz/2MB L2/FSB1066)。其中3040和3050配备了2MB二级缓 存,而3060和3070配备了4MB二级缓存。新的Xeon处理器采用了Core核心,与前代的NetBurst相比,在性能和功耗方面都有了很大的提 高和改善。

Dempsey(双核心)
    Dempsey是Xeon的双核心版本,型号命名为50xx的双核处理器,包括 5030(2x2MB/2.67GHz/667 MHz前端总线/功率95W/DP)、5050(2x2MB/3.00GHz/667MHz前端总线/功 率95W/DP)、5060 (2x2MB/3.20GHz/前端总线1066 MHz/功率130W/DP)、5063(2x2MB/3.20GHz /前端总线1066 MHz/功率95W/DP)、(5080 2x2MB/3.73 GHz/前端总线1066 MHz/功率130W/DP)。这些 Xeon 50XX系列均为双核心,主频从2.50GHz到3.73GHz,所有处理器采用 65 纳米制造工艺,均支持FB-DIMM内存,英特尔虚拟 化技术、超线程(HT)技术、增强型英特尔SpeedStep动态节能技术(其中5063、5060 不支持)、英特尔64位内存扩展技术、英特尔病毒防 护技术。这些处理器均配置了4MB L2缓存,其中每个核心独享2MB L2缓存,其前端总线为1066MHz或者667MHz,可以提供8.5GB/s 或者5.3GB/s的传输带宽。采用65nm工艺的双核心Xeon Dempsey使用LGA771接口。与此50XX系列配合的芯片组为 INTEL 5000X,5000P,5000Z,5000V。

WoodCrest(双核心)
    这是XEON采用Core 微架构的服务器级双核心处理器,WoodCrest核心处理器包括Xeon 5110(1.6GHz/4MB L2/1066MHz FSB)、 Xeon 5120(1.86GHz/4MB L2/1066MHz FSB)、Xeon 5130(2GHz/4MB L2 /1333MHz FSB)、Xeon 5140(2.33GHz/4MB L2/1333MHz FSB)、Xeon 5150(2.66GHz /4MB L2/1333MHz FSB)及最高型号Xeon 5160(3GHz/4MB L2/1333MHz FSB),采用LGA 771处理器 接口,全线最高功耗只有80W,对比上代Dempsey核心最高功耗可高达130W有着明显的改善,支持Intel EM64T、 Intel Execute Disable Bit、Intel Virtualization Technology功能,而Demand- Based Switching功能则只提供于Xeon 5140或以上的型号。另有一款低功耗产品XEON 5148 LV,频率为 2.33GHz/4MB L2 Cache/1333MHz FSB,但最高功耗只有40W,是正常型号的一半,并完全支持援Intel EM64T、 Intel Execute Disable Bit、Intel Virtualization Technology功能及Demand- Based Switching功能。与此51XX系列配合的芯片组为INTEL 5000X,5000P,5000Z,5000V。

 

Clovertown:Intel四核Xeon处理器

    2006 年是服务器性能飞跃发展的一年。伴随英特尔06年11月份四核心Xeon处理器的发布,Intel架构服务器在这一年内实现了单核、双核、四核的发展。 Clovertown仍然采用Intel酷睿2架构,在一个硅片上集成了4颗处理器核心共享两块4MB的L2 Cache。从架构上看,它非常类似于单核 处理器变成Dempsey(5000)处理器的样子,它像两颗Woodcrest(5100)拼在了一起。 Dempsey的计算能力相比 Woodcrest有所欠缺,原因是在L2 Cache的结构不同,两个核心共享一块大的Cache,效率明显要高过每个核独享各自的 2MB Cache;4核的5300系列比之5100系列,就像两颗处理器并在一起,每两个核心使用4MB的Cache,一共有8MB的Cache,这样 性能得到提升。四核服务器在功耗方面很有优势,像英特尔 Xeon 5310(Clovertown 1.6G,FSB 1333MHZ,8M L2 Cache)、 Xeon 5320(Clovertown 1.8G,FSB 1333MHZ,8M L2 Cache),其后续的基本功耗在80W左右,而Intel 将在今年发布两款新的四核心Xeon处理器,其中一款的最大耗电量只有50瓦,大大低于目前常规的80瓦。低功耗除了降低用户使用成本,保证系统稳定性的 同时,也对产品的设计,制造工艺提出更多苟刻要求。

4.4渲染过程对多核的选择

1.2.2. 四核Intel XEON 5300系列处理器介绍

英特尔再次领先

随着行业首个面向标准高容量双路服务器平台的四核处理器的推出,英特尔

以突破双核英特尔® 至强® 5100 系列处理器保持的当前性能记录的业经验证

的行业领先技术为基础,再次帮助 IT 部门实现创新性能和性能功耗比方面的

巨大飞跃。

 

更高效的数据中心

基于四核英特尔® 至强® 5300系列处理器和英特尔® 酷睿™ 微体系结构的双路平台可帮助企业最大限度提升数据中心性能和密度,同时减少面临

的散热挑战。基于英特尔全新四核技术的平台,可以其更轻松地在现有

设备上提供更多商业服务,或以更低的总拥有成本(TCO)精简应用来

支持更高效的运行。

基于四核英特尔® 至强® 5300 系列处理器的双路平台,可为每个处理器上

的 8 MB 二级高速缓存2 提供 8 线程、32 位和 64 位处理能力,并能为多种

部 署中的线程应用提供更多计算能力。四核英特尔® 至强® 5300 系列处理器是最密集的计算环境的理想选择,在这种环境下,最佳性能和性能功耗比均为关 键性要求。在英特尔® 5000 芯片组家族和全缓冲 DIMM(FBDIMM)技术的支持下,预计基于四核英特尔® 至强® 5300 系列处理器的平 台将带来突破性性能和更出色的功效,与领先的双核英特尔® 至强®5100 系列处理器相比,在同等功耗下,性能提升高达 1.5 倍; 与 AMDOpteron* Model 22203 公布的最佳结果相比,性能提升达 2.5 倍。

 

成熟虚拟化技术

四 核英特尔® 至强® 5300 系列处理器为所有通用的双路服务器提供了最大扩展空间和性能,这样,您便能够信心十足地采用业经验证的工业标准虚拟化解决 方案将多种应用整合到少数系统中。凭借英特尔® 至强® 处理器的最高性能功耗比,您能够对散热性能较好的密集型 1U 机架和刀片式外形环境进行虚拟 化,从而使您在每平方英尺上获得更出色的性能和服务。四核英特尔® 至强® 5300 系列处理器将虚拟化硬件辅助与英特尔® 虚拟化技术相集成,从而增 强了 Microsoft、VMware 和 XenSource 虚拟化软件上虚拟环境的性能。日益增多的独立软件开发商(ISV)和原始设备制造商 (OEM)通过英特尔和VMware Virtualize ASAP 计划 — 全行业第一个也是唯一一个协作的全球计划来为 IT 专业人士与企业提 供优化的虚拟化解决方案和实践,从而支持在支持英特尔® 虚拟化技术的平台上进行虚拟化。四核英特尔® 至强® 5300 系列处理器的 64 位计算能 力可为您的虚拟和专用环境带来更多的应用扩展空间、内存灵活性和增强的安全性。通过支持更大的数据集以及 32 位和 64 位应用,基于双核与四核英特 尔® 至强® 处理器的服务器和工作站可支持您的企业平稳移植到 64 位应用。此外,随着数百万枚 64 位处理器的发运,您完全可以信赖英特尔历经实 践检验的卓越表现来完成到下一代计算的平稳移植。

 

四核、双核、单核CPU性能比较

四核英特尔® 至强® 5300 系列处理器特点

基于四核英特尔® 至强® 5300 系列处理器的双路服务器和工作站可最大限度提升性能与能效,以及可靠性和通用性,并降低拥有成本。

 

特性

优点

四核处理能力

最大限度提升性能和性能功耗比,每平方英尺获得更出色性能,以支持数据中心基础设施和高度密集型部署。提高多线程应用和繁重的多任务环境的性能和线程扩展空间,并通过虚拟化和应用响应能力帮助提高系统利用率。

英特尔® 酷睿™ 微体系结构

提高多线程应用和繁重的多任务环境的性能和线程扩展空间,并通过虚拟化和应用响应能力帮助提高系统利用率。

大型 8 MB 模上二级高速缓存2

在多个应用类型和用户环境上提供更出色的性能,同时减少散热挑战,支持更强大、更密集的数据中心的部署。增加二级高速缓存到内核的数据传输效率,最大限度提高主内存到处理器的带宽,并降低延迟。高达 4 MB 二级高速缓存可分配到一个内核中。

1066 和 1333 MHz 的系统总线

快速、专用前端总线可增加吞吐率。

英特尔® 虚拟化技术4

全新处理器硬件增强支持基于软件的虚拟化,并能够支持包括 64 位操作系统和应用在内的更多环境移植到虚拟环境

Intel® 64 架构

出色的灵活性,支持 64 位和 32 位应用及操作系统。

增强型英特尔 SpeedStep® 动态节能技术带来按需配电(DBS)能力

帮助降低平均系统功耗,并潜在减少系统噪音。

 

1.1.1. Intel XEON多核和单核性能对比

1.1.1.1. 性能测试

1).测试系统平台配置

系 统功耗和每瓦特性能是体现CPU性能的重要依据。为了更好地对比这两个指标,我们在同一平台上使用三种不同的Intel处理器——除了处理器外,其他配置 都是一样的。其中Dempsey处理器采用的是3.46GHz的工程样品,正式版本的CPU没有这个频率,所以将其命名为“Xeon 50XX”。AMD 方面,选用的是当前速度最快的两颗Opteron 285处理器(2.6GHz,双核)、will DK88主机板和OCZ 内存。测试系统平台配置情况 如下图所示:

2)测试软件工具

使用了以下版本的软件来进行测试:

· SiSoft Sandra 2007 SP1
· Black & Scholes Kernel (Optimized x64, custom VS2005 compile) 
· Autodesk's 3ds Max 8.0 
· SunGard Adaptiv Credit Risk Analysis 3.0 
· Pegasys' TMPGEnc Plus v2.524.63.181 
· POV-Ray 3.70 beta 16a 
· SPECjbb2005 
· Futuremark's PCMark05

除 了3ds Max列出的是三次得分中的最高值外,其他的测试结果均是三次测试得分的平均值。测试系统的桌面设置均为1024x768,32位彩 色,75Hz 刷新率。所有测试中,在BIOS中调用最优默认值,Xeon50XX系统则打开了超线程。除了 Black & Scholes kernel外,其他测试方法均能公开获得和重新编写。

3)CPU、内存子系统评测:SiSoft SANDRA 2007 SP1

SiSoftware 公司成立于1995年,是一家提供计算机系统分析、诊断和基准评测软件的公司。SANDRA是该公司的旗舰产品,于1997年发布并得到广泛应用。目前, 全球有近500 家IT书籍出版商、杂志社和媒体网站采用SANDRA来分析计算机性能。在该公司官方网站上罗列了超过5000条对计算机硬件的历史测试 记录。SANDRA可以图形化显示计算机的整体系统性能。但值得注意的是,由于它是一套综合性的测试工具,所以测试结果并不会总是和实际应用中的真实性能 直接相关。但采用SANDRA做压力测试还是很不错的,可以让我们观察到系统性能的理论峰值。

4)CPU测试

从理论上来说,Clovertown是将基于core架构的四核计算能力整合在了一起,总频率高达18.64GHz(2.33G*4Core*2CPU),使得Clovertown在SANDRA CPU和多媒体测试中表现相当抢眼,如上图。 

5)Cache/内存速度测试

在 测试Cache/内存速度时,我一般采用未编译的ACE linpack二进制代码,但是我们现在采用的CPU拥有较大的缓存,且大于Linpack最大 的块文件(2MB)。幸好SANDRA有自带工具能在大块文件下来测量出缓存和内存的带宽。为了更好的反映出文件块不断增大时对带宽的影响,我将测试结果 分成了两个图表来显示

6)多线程测试:PCMark 2005 Multi-threaded Tests 

PCMark 2005 可 以帮助你可靠、简易地测试计算机的性能,发现系统的优势和瓶颈。借助PCMark05的测试结果,我们可以轻松地对现有系统进行最优化升级,或者最适合应 用需要的计算机。事实上,简单易用的PCMark05提供的测试工具和方法可与专业测试相媲美。

更准确的说,PcMark 的多线程测试应该是多任务测试。在下面的两个测试中,我们通过多个并行任务来模拟真实的应用情况。第一个测试运行2个应用,第二个运行4个运用

7)测试结论

可见,在这些测试中Clovertown 的性能非常优异,值得注意的是,它的主频还是这四款CPU中最低的。在测试当中,Clovertown的CPU平均负载为50%,而Opteron 和 Woodcrest处理器的负载大多处在100%。

 

1.1.1.1. 应用测试

1).3D图像制作应用测试:CINEBENCH 9.5 (x64) 

CINEBENCH 是一款基于强大的3D软件 ——CINEMA 4D的免费测试工具,可运行在Windows和Mac OS下。支持64位,扩展性高,而且又是基于实际应 用的专业3D软件包。该工具不仅可以准确地测试处理器的性能,而且还测试其他影响系统性能的因素,如OpenGL,多线程,多处理器以及Intel的超线 程技术。CINEBENCH的渲染任务可以在同一台计算机上测试多达16个处理器的性能,以及Cinebench针对大量多边图形的software- only阴影和OpenGL阴影测试,都会让系统性能达到极限。

在多CPU渲染时,Clovertown的性能主频优势非常明显。E5345是我见在CINEBENCH测试结果中最高。在Clovertown平台上,多CPU渲染从开始到结束只花了9秒钟。

2).3D图像制作应用测试:POV-Ray v3.7 beta 16a 

POV Ray- Tracer是通过ray-tracing渲染技术来制作三维的逼真图像。该软件是先读取包含场景对象和光线等信息的文本文件,然后生成接近于照片效果的 场景图像。Ray-tracing的处理过程很慢,但能产生高品质的图像,获得逼真的反射、阴影、透视等效果。

POV-Ray以往的版本都是单线程和32位应用,最新的Beta版才加入了对64bit和SMP的支持。下面的结果都是在POV-Ray缺省配置“多CPU Benchmark”下获得的。

POV-Ray在官方网站上表示,它可以完美的随着CPU核心增多进行扩展。我的测试结果证实了这一点。如上图所示,Clovertown平台的8个核取得了压倒性的胜利——这甚至不能说是一种比赛。

3).JAVA应用性能测试:SPECjbb2005 

SPECjbb2005(Java 服务器基准)是评估服务器端JAVA性能的SPEC测试工具。和以前的SPECjbb2000一样,SPECjbb2005通过模拟三层C/S系统(主要 是中间层)来评估服务器端JAVA的性能。该测试软件运行JVM(Java虚拟机)、JIT (Just-In-Time)编译器、碎片收集、线程以及操 作系统的其他任务。它也测量CPU、Cache、内存和 SMP的性能。SPECjbb2005通过提供面向对象方式运行的、新的增强的工作负载,来反映 真实应用系统的情况。另外,SPECjbb2005也引入了一些新的特性,如XML处理和BigDecimal计算,以保证测试结果能更确切地反映当前的 实际应用。SPECjbb2005是一种被广泛使用的工业标准基准测试。概括来讲,每个"warehouse"会产生一个独立的线程,从而决定测试线程的 并发数。相对应于"hardware threads"总数,被测系统的warehouses数目 (X)都有一个预期的最高值,比如 Clovertown和Dempsey每颗有8个hardware threads,Woodcrest 和Opteron每颗有4个 hardware threads。最终的测试结果以"Business Operations per Second (BOP/s)"(每秒交易次 数)为单位,都是基于X,X+1,X+2,X+3等,直到2X的平均吞吐量来计算。SPECjbb2005的测试相当复杂,需要进行大量的参数设置。在测 试中我们采用了BEA的 64位 Jrockit JVM (jrockit-R26.4.0-jre1.5.0_06-win-x64)。使用单JVM 和如下命令参数:-server –XXaggresive -XXtlasize64k –Xms2040M –Xmx2040M 

如上图,可以很清晰的看到,随着线程的并行化处理,拥有更多的CPU核是比较有优势的。Clovertown在这一测试中占有绝对优势。Clovertown体现了性能的绝对优势。

1.1. 渲染对节点机的选择

1.1.1. 按需选型

首 先动画渲染是一个计算密集型的计算,对CPU的浮点运算能力要求较高,而胖节点架构将使用更多的CPU,这就增加了线程数,有利于快速完成大规模的计算 量。其次,胖节点架构有利于性能的提高,因为它采用一种进程/线程间通讯,即胖节点采用CPU间通讯方式,系统将任务队列对称地分布于多个CPU之上,从 而极大地提高了整个系统的数据处理能力。 而其他架构则采用节点间网络通讯的方式,众所周知并行程序运算的瓶颈在于通讯,过大的通讯延迟将影响运算速度, 而胖节点很好的屏蔽了这一点,极大的提高了性能。另外胖节点架构提过对大内存支持,节点中任何一个CPU都可以使用节点内全部的内存,在运行串行程序时, 这个程序可以申请很大的内存。同时提供多线程的支持, 一个节点中采用多个CPU,这些CPU之间可以进行多线程的并行。

根据以上我们对动画渲染软件对于硬件的需求,推荐用户使用采用宝德双子星服务器,1U双主板4路至强四核处理器的PR1760T服务器具有卓著高性能的,尤其适合动画渲染应用。选择双子星PR1760T的理由是:

  •  性能的极大提升

    1U 空间内配合intel四核处理器,基于独立运作的两块主板,提供四个处理器接入能力,提供最大16个处理器核心的超强处理能力;是目前服务器业界集成能力 最强的产品之一。高集成度设计,性能价格比相比普通机架式服务器提升一倍,同时在有限的1U空间内提供业界最强大的性能表现。基于Intel IA架构, 配合新一代双核Dempsey/Woodcrest处理器或者四核clovertown处理器,前端总线(FSB)达1333MHz,采用S5000P芯 片组,双独立总线,数据带宽最高可达21GB/s。采用Fully Buffer DIMM Memory技术,内存传输带宽峰值可达21.0GB/s, 极大限度提高内存子系统性能。整合Intel第三代输入输出技术(3GIO)PCI Express, 设备独享总线,突破I/O带宽限制。支持最新I /OAT服务器网络加速技术,最大有效提升网络负载能力达30%,同时降低CPU处理器占用率,支持VT硬件级虚拟化应用,满足不同系统应用安全和开发的 需要。

  •  高可用性、灵活性、可扩展性

 宝德PR1760T服务器,支持多线程多任务模式。适合FB- DIMM内存,提供一个高可选的内存解决方案。提供SATA接口,支持HOST RAID(RAID 0/1)功能,满足系统对硬盘安全性的要求,同时考 虑到用户成本需求。集成四个Intel服务器级1000M网络适配器,支持链路汇聚以及绑定冗余功能,适合多种应用需求。根据用户的实际需求, 提供最佳 的配置选择;提供最大64GB的内存扩展能力和极高的均衡I/O带宽,满足大规模数据处理的要求。四块SATA热插拔硬盘接入能力,并可根据需要,灵活调 整硬盘配置办法。为满足HPC应用,提供主板infiniband集成选择。节约PCI扩展空间,消除系统瓶颈。

  •  功耗的降低

倍增集成能力、将原先两台1U机架式产品,集成到1U空间内,节省托管费用。相比普通机架式服务器,平均节省功耗15%,充分满足环保需要。

 
Copyright 2017 Powerleader All Rights Reserved 深圳市宝德计算机系统有限公司版权所有