如何使用瑞利数节省时间
编注:本篇文章由启迪之星投资企业「适创科技」创始人简CEO郭志鹏。在这一篇里,他将和我们分享他的CAE求索之路。正如郭志鹏所言,“适创科技最强的竞争力,是我们对核心求解器的理解和开发能力。”
以下,一起enjoy。
01
“能不能用一句话来描述清楚什么是求解器?”很多投资人朋友都这样问过我。
讲求解器之前先要对CAE有个明确的概念。CAE,也即计算机辅助工程,通过求解器解析和模拟真实物理现象,用“虚拟”的方式再现工程生产过程。如果说CAD是我们用来辅助设计的工具,那么CAE要做的就是用“虚拟”来评估这些“实际”的设计,这也是CAE的内核和最本质的作用。作为最重要的核心元素,求解器要做的就是“精确”地把握和还原真实物理现象,进而给出评估、评判“生产过程”好坏的标准。
在此基础上,如果真用一句话来描述求解器,那我会说:“CAE求解器是一个具备描述特定物理现象能力的矩阵运算代码包”。
首先,它必须得能解决某种类型的物理问题(通过求解描述这个物理过程的PDEs——偏微分方程组);
其次,它是个代码包或者库;
再者,这个库的主要功能是做矩阵(逻辑和/或代数)运算。
这样看起来似乎很复杂,但其实CAE求解器和我们日常生活中的计算器没有本质区别,当我们在计算器上敲入一些数字和运算符号,点击下令计算的等号“=”后就会产生结果,整个计算过程就是“求解器”完成的,它内嵌到了设备中,我们看不见,但是我们知道它存在。
CAE求解器与之类似。拿流体力学求解器来讲,在求解时同样需要输入一些参数,例如材料属性参数(如粘度)、温度、初始条件(如速度、压力)、边界条件(滑移、无滑移、镜像、对称)等,将这些参数输入到软件的“计算器”中,点击下令计算的等号“=”,就可以获得结果,基于这个结果我们再做后续的分析。
与计算器简单的计算过程相比,计算流体形态的过程更为复杂。首先,流动是一个随着时间会持续演化的过程,它的解不恒定,而是在每一时刻都有一个解;其次,评估流动形态不能只靠一个数字,而是需要多维指标来评估,例如速度、压力、紊乱度、界面形态等,甚至包括涡量、旋度、能量耗散等。人们发明出一系列的无量纲数来衡量流动的状态,比较著名的有雷诺数、普朗特数、瑞利数等。之所以有这么多指标,就是因为流动本身的自由度(涉及的变量、空间和时间)很大,我们无法仅对其进行简单的“好”或“坏”的评估。
我的研究记录
博士期间,我又对各种各样的物理、数学问题、数学方法着迷,沉醉在经典和量子力学、微分方程和离散、线性代数和矩阵变换、无量纲化和降维分析、复变函数和密度泛函、格林公式和数值算法、分形几何和混沌、拓扑结构和特比乌斯环这样复杂而美妙的世界里。我常常在工作之余的时间翻看这些领域的论著,旁听学校的课程,参加相关的论坛,不断地在学校各个教室间穿梭。兴趣逐渐转化为能力,线性代数(矩阵运算)和数值分析(数值算法)这两大工具已经能很好地为我所用,这也对我从事求解器开发产生了重要的推动作用。
曾经在牛津大学求学和工作时,导师对我说他很担心自己的儿子,度假时手里也捧着本量子力学,太专注学习而无法消遣。“他没问题的,他只是跟别人不同而已。”我说,因为在内心里我很理解他。
我一直认为自己更像个工程师(Engineer),而不是个纯科研工作者(Scientist),因为工程师的职责是把科学转化成应用。我的博士课题做的是反问题(inverse problem),也就是逆向计算。正常的模拟计算一般是把控制参数和边界条件输入到一个所谓的“求解器”中产生结果,从而分析结果,得出新的知识;而求解反问题则与之相反,需要将已经测量得到的实际结果,输入到“反算模型”中,求解得到与问题相关的输入条件,包括控制参数或边界条件。
没有想到的是,博士课题做的这个反算模型,在后来我们自主开发CAE软件的时候很幸运地帮我们解决了一个困扰这个行业很久的难题,可以说是意料之外却又在情理之中。
我们的第一个CAE产品叫「智铸超云」,是针对压铸行业的仿真平台,它试图解决的行业问题和前面热咖啡变凉的例子很像:在充填进入型腔的过程中,熔化的铝合金液体会不断地与模具发生热交换,整个过程金属液变凉的速度主要取决于金属液和模具壁面之间的界面热阻,或者说界面换热系数(热阻的倒数),这个参数设置的正确性显著地影响着整体传热计算的精确性。而实际上,这么多年,大家使用模拟仿真软件时这个参数都是“猜”的,甚至在很多情况下都是“乱填的”。我们发现,在这种情况下,客户计算金属液凝固(液体变成固体)预测得到的凝固时间往往是实际的2~3倍,也就是说模拟产生的误差可以达到100%~200%,但是有意思的是,大家还在基于这个结果进行后面的分析。这里面的核心问题就是几乎没有人知道换热系数应该怎么设置!
怎么解决这个问题呢?其实很简单,我们需要做一些实验,在大量压铸生产过程中不断采集实际温度,然后通过反算求解出金属液和铸型之间的换热系数,再把这个数值加到模型中去实现精确求解——而这就是我博士课题的主要工作。得到这些换热系数之后,我们发现,类似于压铸这种复杂过程的换热系数不是一个固定的值,而是一个随空间位置和时间不断变化的值,我们称之为4D界面换热系数。得益于这个界面换热系数模型,智铸超云计算凝固过程温度场的精度可以达到95%以上,绝大部分情况下其计算预测的凝固时间与真实铸造过程都极其贴近。可以想象基于这个温度场结果进行后续缺陷分析,对实际工艺设计和工艺生产能够带来多大的价值。
04
几年的国外求学和工作生活让我有更多的机会去思考,同时结合不同类型的研究项目,我对各种数值算法都有了非常深入的理解,并且有机会在各种情形下编写和使用这些算法,从而细致入微地体会它们之间的差异。
这些数值算法的核心目的只有一个——用最快的方式寻找到问题的解或“根”。而在实现路径上,几乎所有算法都采用一种渐进式摇摆的方式来逼近最终的解,也就是所谓的迭代。这就像一个受到摩擦力的钟摆一样,多次左右摆动后最终滑落并稳定在最底端的位置。但如果钟摆没有稳定向下,那必然会像发疯一样地乱摆,这在数值模拟上就是计算“发散”。大部分的工程实际问题在分解模型、离散后都可以转化成求解一个线性方程组,而评估这些数值算法优劣的最佳方式就是看它们在求解这个线性方程组的时候所表现出的计算稳定性和计算效率。在通往最终目的地的过程中,不同算法采用的思路或路径完全不同,大部分矢量算法主要是通过建立多维正交系统来寻找“根”的坐标位置,比如一个简单的三维问题,求解一个三元(Z、Y、Z)一次线性方程组的解,最终的解其实就是一个三元正交系统中的一个点,或者说特定坐标值X*、Y*、Z*。而这个三元正交系统,或者说“子集”可能是个三维空间,也可能是一个面或是一条线。实际问题比这个要复杂的多,很多情况下我们求解的是一个“非常”多元的线性方程组的解,比如网格量如果是1000万,那就是1000万元线性方程组。三元一次线性方程组的解也许我们可以口算出来,但是1000万元呢?回到矢量算法,当求解的未知数或“元”越来越大时,由于我们对计算的精度要求越来越高,我们熟知的各种数值算法会相继失效,当然不同算法失效的快慢不同,而这个快慢就体现出了算法本身的能力边界。极限的情况,如果我们求解的问题所需的精度已经超越了计算机浮点误差范围时,那所有的数值算法都失效了。所以,数值计算是一个数值算法和计算机的“联袂演出”,缺一不可。
我还记得我用MAC法求解NS方程过程中,要不断迭代求解泊松方程,如果你选用的算法能力不行,那求解这个方程就太费劲了,可能迭代了几十、上百步求解的精度也没怎么提升,如果你设定的收敛限制很苛刻,那么这个方程可能永远不会收敛,也就是“永远”没有解。
为了解决这个问题,我当时尝试了几乎所有的数值算法,但都没什么效果,直到我花了很大精力写了一个多重网格(Multigrid)算法之后才如获至宝、豁然开朗。与矢量算法的理念不同,多重网格算法通过变换网格尺寸的方式来消除计算偏(误)差,在消除误差效率方面要远胜于只采用基于底层消去法的矢量算法。在这方面,多重网格算法就像是在不断变换视镜、物镜放大倍数,从而可以更加清晰地观察到各种”尺寸“的误差并消除误差,而矢量算法则是只有一副视镜和物镜,不论你把眼睛睁得多大,也看不清楚更细节的东西了。多重网格算法给我最大的启发就是:不管数值问题本身有多难,总是有解决问题最好的办法,更重要的是要敢于变换思路、变换视角去想问题,而不是一味地“蛮”算和“笨”算。
最早期的基于LBM的流体力学求解代码是我在英国工作的时候开发的,主要用于模拟铝合金微观组织生长过程中溶质的流动和偏析,这版代码更多的是对算法本身功能的实现,我并没有在计算效率上做过多的优化。创立适创科技的第一年,陆陆续续,我对这版代码进行了优化,首先将之前的代码从脚本语言(Matlab、Octave)转化成了fortran90语言,并对其计算效率、边界条件做了很多优化,我尝试用各种各样的网格形态和差分格式来提高计算精度、计算稳定性和计算效率,最终我们确定了一套属于自己的代码架构。
首先,我们需要确定数据格式和网格架构,这是所有向后延伸求解器的基础,一套高效的网格系统能极大增强计算精度、计算稳定性甚至计算效率。网格系统对于CAE仿真就像是底层基因,每一个网格都相当于一个细胞,细胞所能具备的形态、灵活性直接决定了后期求解能够具备的能力天花板。在谨慎的思考和选择下,最终我们采用了基于块体结构的多层加密网格系统(block structured adaptive mesh refinement architecture,BS-AMR)。因此,针对某一问题的整体网格系统是多层的,比方说对一套模具进行网格剖分,我们可能要做5-6层,描述不同组件需要的网格大小不同,对于物理现象变化没那么明显的地方我们用粗网格,而对于物理现象变化明显或是我们更加关注的地方,我们则用细网格。这样剖分下来,整体网格像金字塔一样,越到上层,网格尺寸越小,对问题的描述越精确,但其覆盖的领域则更小。这种网格系统有一个很大的好处就是我们不需要用最小的网格剖分整个计算域而导致的极大计算规模,分层加密后剖分,整体网格量大概是全域(细)剖分状态下的1/100~1/500,这样可以极大地缩小整体计算规模,在保证精度的前提下,极大提高计算效率。同时,使用尺寸不一的多层网格结构,我有另一层思考,也是一个相对长期的铺垫,那就是在算法开发的后期基于这个多层结构使用多重网格算法,将求解器性能发挥到极致。
基于这种网格架构,我用fortran90语言重新写了一遍LBM求解代码。开始的时候只能计算2维情况,后来逐渐升级过渡到3维。开发流体力学求解器是一个不断迭代的过程,不要小看2维情况,虽然维度小,但是2维为我们提供了大量的准确性验证案例,因为一般意义上讲,维度越小的问题可能出现精确解析解的概率就越大,而有解析解就更方便我们测试求解器的准确性。到了三维紊流问题,几乎没有任何情况有解析解,我们只能通过实验对比的方式进行验证,要注意的是,实验也不一定“准确”,因为很多情况我们需要精确控制各种实验参数才能获得有效的实验结果,而且实验一般都会不可避免地引入人为误差。与MAC、SIMPLE算法不同,开发LBM流体求解器最难的是如何让密度函数在边界处变得更有实际物理意义,对于不同边界,我们要不断地思考、平衡各种分布函数可能存在的状态,如果边界条件做不好,那其实不光是算不算准的问题,而是能不能算的下去的问题,因为在很多情况下,如果边界条件设置不对,流体求解是会崩溃的,没有人希望一个模拟计算算到60%崩溃掉了,那样我们什么有意义的结果也获得不了,这可能是物理求解器和大部分所谓算法的最大区别。这种会不会崩溃其实就是我们一直说的计算稳定性,一个优质的求解器,最大的特点,或者说起码需要具备的属性就是计算稳定性一定要高,商业客户是无法容忍算不下去的情况的,这造成的影响不单单是计算结果的问题,更重要的可能是牵扯到的时间成本。开发流体力学求解器,我们所做的工作就是不断逼近真实物理情况,我们不能按照个人喜好凭空规定这个函数应该怎么写,那个模块应该怎么行为,而是要依据真实的物理规律,也就是遵循Navier-Stokes方程进行开发,所以真实的流体力学求解器开发出来,特别是针对紊流这些复杂情况,开发者其实并不能预测每一步的计算结果,所有的结果都是在物理规律的“规定”下逐渐演化出来的。
05
就是在这样的情况下我开发出了第一版三维LBM流体求解器,在计算精确性上,每次开发一个子版之后我都会与数据库中已有的测试案例进行对比,但是从计算稳定性、计算效率来讲其实并不高,我还记得在那个时候计算一个3000万网格(中等规模)的流动案例,如果计算能够完成,一般需要30-50小时,而且在很多情况下,代码在运行的过程中都会莫名其妙地崩溃,每一次的崩溃都是因为某一个网格在物理量上产生了奇异而导致的,但是对于不同的案例,出现问题的位置和时刻都不一样。在我们开发求解器的过程中,我们最怕遇到的问题就是那种飘忽不定、不明确又无法追踪的bug,这往往会让我们很头疼,调试一个算法bug可能需要1周甚至1个月都束手无策,没什么进展。而这往往是最打击人的,很多开发求解器的研究工作者都是在这种问题拖延之下放弃的,这也就是所谓开发过程存在的最大不确定性,它与纯粹软件开发不同,软件开发不存在不确定性,我们肯定知道这个一定能解决,只是能不能尽快找到这个bug的事情。而开发求解器出错,你无法确定的是你的模型错了,算法错了,还是代码本身有问题,后者还相对容易解决,前面两个才是真正的问题。有意思的是,关于流体力学,直到现在都没有“完美”的模型,光滑求解NS方程是千禧年7大难题之一,所以你必须在模型与代码之间做深度思考,不断平衡和尝试才有可能真正解决问题。
从0到1实现了,接下来最大的问题就是如何能更充分地发挥模型和代码优势,提高求解器本身的计算稳定性和计算效率。从这么多年的开发经历来看,这两个问题不是独立的问题,而一般是相随、相生的,我们没有办法先解决稳定性再提高计算效率(反之亦然),而更可能的方法是两个问题同时关注、同时解决。幸运的是,在那个时候我们团队又加入了两名核心算法工程师,读书时他们都是我的师弟,因此我们之间没有交流障碍,在他们顺利接下我这一棒后,就开始了“漫漫”的求解器优化过程。
做求解器优化的前提是他们要深入理解我之前用的网格架构、流体模型、LBM算法原理,然后在我的代码基础上做修改和升级。还记得无数个日日夜夜我们之间的讨论、争论和争吵,目的只有一个,如何能让这个求解器更好、更有竞争力。大的代码结构和框架的改变、差分格式的变换、代码规范和管理、数据结构相关的内存调用和管理,甚至只是一个细微的循环顺序修改(比如是从Z、Y循环到X?,还是先从X再到Z?)都在不断地发生、修改、优化和完善。很多次出差归来的夜晚,看到他们还在公司调试着代码,蘑菇云一样蓬乱的头发告诉我他们又经历了几个不眠之夜。一个曾是干净帅气的外企核心人员,一个曾是体面坚定的国企研究人员,现在愣是被我弄成了两个胡子拉碴的“再读博士生”。但我庆幸他们和我一起坚持着,就是在这种不断尝试、修正和规整的动作中,我们第二大版流体求解器诞生了——计算效率提高了10倍,计算稳定性从40%升级到80%。
我与两个师弟及另一个核心合伙人
此时此刻,我们第一版CAE产品终于落地了。集成着求解器、云原生的桌面版软件及SaaS智铸超云平台终于和客户见面了,而此时距离我们公司创立已经过去三年半。我们怀着忐忑的心情推出产品,希望不要出什么问题,一切平稳,客户喜欢。但现实总是残酷的,整整一年的推广,产品一堆问题等待解决,客户一堆需求无法满足,质疑与批评之声此起彼伏——客户不买单。我们甚至进不去客户的大门,保安大爷会直接轰我们出去,“哪来的回哪去”。
讲个笑话,还记得第一次向客户演示我们单机版CAE软件时,我们用车驮着一台沉重的工作站,怀着紧张又激动的心情来到工厂,在一个油腻的犄角旮旯里插上自己带的插线板,连上电脑,兴致勃勃地向客户展示着我们的成果,可忽然程序崩溃,自动退出。现在回想起来只是简单地一笑而过,但那个时候“死”的心都有。
与单机版软件不同,SaaS版软件不需要带工作站,只要联上网就能向客户展示,但是我们当时轻视了SaaS这种形态可能会产生的一系列问题:云计算、云作业调度、超大数据传输和显示(CAE仿真结果大小一般为几个G甚至几百G)会给整个产品体验带来非常大的不稳定性,网速不好呢?超算崩溃或出问题呢?那么大的数据怎么传输过来?意料之外的问题层出不穷,我们在公司的百兆网络环境中感觉不到这些问题,但大部分江浙、广东客户的网速就是10M网,有的地方甚至更低,而且工厂里所有的人都在共享使用。
再讲个笑话,我们的销售在客户工厂里展示第一版SaaS平台时,好几分钟加载不出来页面,销售急的满头大汗,不住地跟客户道歉,最后客户看着都觉得不好意思了,还反过来安慰他。销售回来后连骂产品团队的力气都没有了,全公司一片哗然。
这就是适创科技2019年底的状态,还干不干?
06
创立公司时我们就有一个不成文的规定:坚持做正确而难的事,要有直面问题和解决问题的魄力。所以此时不管团队有多大的怨气,没有人说不干,没有人要退出!
我已经没有太多时间直接做算法或求解器了,我必须分出很大精力集中在产品整体规划、投融资和公司团队组建上。那时公司里有一种声音——我们应该控制成本,在产品没有真正能满足客户需求前尽量保持甚至缩小团队规模。但是我的想法不同,没有产品是天生完美的,问题不能通过回避去解决。我再一次拿出这句话:“我们一定要敢于正视问题,直面问题,解决问题,不能回避,也不能退缩”。而真正解决问题的方法就在那,就是我们不能缩减,反而要加大对研发团队的投入,才能在将来可预期的时间内解决现有的这些问题,只有完善产品才能获得客户。我说服了团队,虽然每个人的心里都在打鼓。
那个时候我真正感觉到自己在践行那句话:做正确而难的事。认识到正确本身不难,敢不敢去做才最考验人。
2020年,我一边和产品团队不断梳理产品、开发路线和客户需求,一边东奔西跑地见投资人,跟他们不厌其烦地讲产品故事和我们的理想。从早晨8:30到晚上11:30,我和市场总监一天15个小时最多可以见6拨投资人,也就是在那时候,我养成了上车就睡觉的习惯,而且睡得特别踏实,从而养精蓄锐,一下车就立刻满血复活。直到现在我还是改不了这个“毛病”,一上车就哈气连天。
终于在2020年9月,我们第一次拿到了机构的投资(启迪之星和亚杰资本),团队内部士气大涨——被市场和客户反复鞭打的我们,太需要一次胜利了。
除了融资成功,与新销售总监的见面给我打了一剂新的强心针。我们一见如故,尽管相差十岁,但在市场策略和团队建设上的想法高度一致。我们花了两个月重新梳理销售策略、打法,并开始重新组建销售团队。与此同时,产品团队马不停蹄地对产品进行大刀阔斧的升级和优化。我知道,唯一能给他们争取的就是时间,事实也证明我们确实经受住了考验,计算稳定性达到100%之前,没有人会停下脚步,这就是适创科技团队所形成的共识。
随着公司的不断发展,又有许多新成员加入了我们,他们也在我师弟的肩膀上将求解器继续升华。同时通过与客户不断的交流和反馈,产品的稳定性也获得了极大的提升,这不是个一蹴而就的事情,是耐心地文火慢炖和坚定的决心换来的。我的师弟接替我成为了产品开发的负责人,我的学生也已经是产品团队的核心骨干,我自己则过渡成了一名“半路出家的销售”。在所有人的努力下,许多我们之前想都不敢想、碰都不敢碰的难题都陆续被攻克,对产品来说,我们的软件终于从一个“丑小鸭”蜕变成为一只“黑天鹅”,对销售来说,我们与客户之间建立了更加默契的关系,不仅能够顺利进入客户大门,而且企业技术负责人,甚至总经理也开始与我们进行认真深入的交流。
就在2021年11月,算法团队通过创新优化,在已有的流体求解器能力上又将计算效率提高了10倍,整体平台计算稳定性达到了至少95%以上。
从我的第一版流体求解器到现在,计算效率整整提升了100倍——2个量级的跨越。
之前一个大型薄壁件的计算需要1-2周,甚至可能因为网格量太大无法计算,现在同样的大型薄壁件,计算时间只需2-3.5小时;
之前计算10小时的案例,现在几分钟之内就能完成。
当然,这都是在保证计算精度的前提下实现的。
我们的自主CAE软件局部计算效果
我们的另一个产品团队甚至已经开发出了即时仿真算法,也就是条件变换后CAE仿真结果会立即预测出来,不需要“计算”,听起来是不是很酷,这就是我们下一代智能设计产品的原型,2022年该产品将有望推向市场。
五年,就像是经历了一场大考。每一年公司都会遇到各种各样的问题,但庆幸的是我们得到了多方强有力的支持,投资人和投资机构,创业园区和孵化器,更不用说远见卓识的国家政策。但这不是可复制的经历,更不是可以抄来的作业,适创科技能够坚持下来,靠的是大浪淘沙下依然无坚不摧的团队。从创立到现在,适创科技的核心团队始终保持着一股强大的凝聚力,非但没有萎缩,反而越来越大,不管中间经历了多少起起伏伏,不管经历过多少争吵和迷茫,几乎所有入职3年以上的老员工都还站在我的背后,撑起了整个公司。
“适创科技最强的竞争力,是我们对核心求解器的理解和开发能力。”这是我对每一个投资人说过的。整个CAE领域有五大核心底层求解器:力、热、光、声、电,最难的是力学求解器,而力学又分为流体力学和结构、塑形力学。我们瞄准了流体力学并正式迈进了有力的一步,将来在开发完成热、声、电求解器后,我们的算法团队会以更大的热诚,去攻克更为艰难但应用更加普遍的可压缩流动、燃烧以及塑性变形力学求解器等,从而使适创科技CAE计算平台不仅能够打入铸造、注塑行业,同时能够深入到汽车、航空航天和核电等领域,让Supreium-CAE助力整个中国工业的数字化转型——这才是适创科技真正的理想和目标。
既已入局,便要拼尽全力。我们相信,越是困难的事越是应该我们来做,而越是做有挑战的事,才越能够让我们离心中那个伟大的公司更进一步。
“立大目标、做难而正确的事”,才能真正让我们的血液沸腾起来。
作者简介:郭志鹏
适创科技创始人兼CEO,毕业于清华大学(本、博),牛津大学、英国皇家学会研究会员,长期从事数字化工业方面的研究,包括高性能算法、高能X射线检测、图像处理以及相关工业领域的材料和核心工艺开发等,立志创造有国际竞争力的自主化CAE软件,摆脱国际垄断,提升和振兴民族工业水平。
如发现本站有涉嫌抄袭侵权/违法违规等内容,请<举报!一经查实,本站将立刻删除。