UCloud季昕华:百模大战下,中立云服务如何助力AIGC发展|GAIR 2023

文章正文
发布时间:2024-07-22 09:39

第七届GAIR全球人工智能与机器人大会,于8月14日-15日在新加坡乌节大酒店举办。论坛由GAIR研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办。这是国内首个出海的AI顶级论坛,也是中国人工智能影响力的一次跨境溢出。GAIR创立于2016年,由鹏城实验室主任高文院士、香港中文大学(深圳)校长徐扬生院士、GAIR研究院创始人朱晓蕊、雷峰网(公众号:雷峰网)创始人林军等人联合发起。历届大会邀请了多位图灵奖、诺贝尔奖得主、40位院士、30位人工智能国际顶会主席、 100多位 Fellow,同时也有500多位知名企业领袖,是亚洲最具国际影响力的AI论坛之一。

大会共开设10个主题论坛,聚焦大模型时代下的AIGC、Infra、生命科学、教育,SaaS、web3、跨境电商等领域的变革创新。在8月14日下午「大模型时代的超级基建」论坛上,UCloud董事长兼CEO季昕华分享了题为《中立云服务助力AIGC的发展》的主题演讲。

季昕华认为,判断一个大模型能不能做好主要有四个关键要素:一是资金密度;二是人才密度;三是数据密度;四是算力密度。

一家大模型公司如果没有一个亿美金,那基本上压力就会比较大。因此,大模型被称为是互联网的重工业。除资金以外,大模型的训练需要大量的科学家人才、数据、算力。

而UCloud主要做的就是大模型最下面的基础设施。季昕华提到,目前,国内有139家公司在做大模型,其中五六十家都是由UCloud支撑和支持。所以,UCloud对整个模型过程中的技术要求非常清楚,也看到了大模型目前发展阶段在技术上所遇到的挑战,包括功耗、存储、网络等。

UCloud季昕华:百模大战下,中立云服务如何助力AIGC发展|GAIR 2023

 

以下为季昕华的现场演讲内容,雷峰网作了不改变原意的编辑及整理:

一、从“百模大战”看做好大模型的关键要素

我来分享一下我们是如何用云计算支撑整个大模型发展的,确实在国内现在大模型非常火,按照我们的收集,在国内有139家公司做大模型,包括基础模型和专业模型,所以称之为“百模大战”是非常形象的,而且这个数字还在不断增加。

UCloud季昕华:百模大战下,中立云服务如何助力AIGC发展|GAIR 2023

 

这其中有两点:第一个是我们看到这些公司的人50%以上都是清华大学毕业的,今天早上的主论坛潘院士和黄院士都是清华的;第二个就是中科院自动化所;今天还要加上第三个标签就是南洋理工大学。

按公司类别来分可以分为五大类:第一个互联网巨头,他们几乎什么都会做;第二个是上市公司,像360、科大讯飞等等;第三个就是AI团队,像AI四小龙;第四个是科学家创业,是现在发展比较快的,像智谱华章、衔远科技;第五个是一大批原来互联网的高管出来创业的,像李开复、王小川等这样的公司。

这些清楚以后,其实我们可以看到大模型做的好不好有四大核心要素:资金密度、人才密度、数据密度、算力密度。在资金上,一家大模型企业在国内没有一个亿美金起步的话,做大模型的压力就会很大,所以我们把大模型称之为互联网的重工业;做大模型还需要大量的科学家来做算法分析;大量的数据也必不可少;还有算力的密度,有多少张卡决定了模型做的有多快、有多好。 

二、从整个训练流程看大模型的挑战

整个大模型训练其实包括四个步骤:从前期的准备到训练,再到最后的上线推理运行。我在中间加了两步,从前期的数据清洗、预训练、监督微调、奖励建模、强化学习,以及后续的部署运营六个阶段,在这个过程中我们可以看到,往往会面临着多样合规数据获取,计算、存储、网络等一系列难题。

而UCloud主要做的就是大模型最下面的基础设施,“大家知道 OpenAI 做得很好,那么其实背后有微软给OpenAI的大力支持。目前国内139家公司里面大概有五六十家都是由UCloud做支撑和支持,所以我们对整个模型过程中的技术要求非常清楚。”

由于大模型的参数越来越大, 比如1000多亿的参数,这时候就需要把整个模型分配到几千张卡上,那么卡之间的数据同步、网络互联,以及中间出现故障的情况下如何做恢复等问题,在这种情况下对于整个网络、存储,对于整个系统的框架要求会越来越高。

UCloud季昕华:百模大战下,中立云服务如何助力AIGC发展|GAIR 2023

 

在准备阶段,大家也都清楚最核心的是收集到足够的数据,如何获取有效的数据是最重要的;第二步在训练的阶段需要有大量的GPU卡,而大量的卡之间组网就会产生很多问题,比如存储、网络以及稳定性等问题,具体来看:

首先是功耗和电力的挑战:举例来说,一台A800大概需要6000多瓦的电力,H800更高,耗电11千瓦。比如说新加坡,其实电力成本很高,UCloud乌兰察布数据中心电力充分、电价低廉、可自然制冷且距离北京更近。相较上海、北京等同等质量的数据中心,成本下降40%。

其次是存储的挑战:在大模型的训练过程中,大量非常小的文件,全部分配到服务器上,会有大量的元数据操作,还有高吞吐读的需求,还有大量的顺序写入,这对存储提出了更高的需求。

针对以上这些问题,UCloud做了一些优化,经测试,优化后的读性能有70%左右的性能提升,达到5GBps;写吞吐10%左右的吞吐提升,达到2.2GBps,可充分满足大模型客户在单点挂载时吞吐的性能需求,大幅提升训练效率。后续,UCloud会在和kernel交互的方式上进一步优化并发来提升写吞吐的能力。此外,UCloud研发中的GPUDirect Storage,将会有更高的存储性能。

他谈到,目前UCloud是国内第一个支持GPUDirect Storage,那么可以把GPU内存的数据直接写到存储上,而不需要CPU的处理,所以效果会非常好。

最后是网络的挑战:在大模型的训练过程当中,一般有三种并行策略:张量并行、流水线并行、数据并行,他们的通信量分别是百GB级别、100MB级别、10GB级别,但是由于整个网络带宽的瓶颈限制,GPU不能很好的利用,造成大量浪费。GPT 4 对外的公开数据显示GPU的利用率只有30%多,这是由整个存储的带宽压力和整个网络通信的带宽压力导致的。

现在业界流行的有两种方案:RoCE和InfiniBand,而InfiniBand目前由英伟达控制,开放性不够,所以现在大部分的公司开始逐步采用RoCE网络。

季昕华表示,大模型训练RDMA网络设计要满足“大规模、高带宽”的要求,目前UCloud支持IB和RoCE两种高性能网络方案,IB可以支持万张以上的GPU同时接入;而RoCE的可扩展性和开放性都比较好,当然这里面也存在比较大的一些问题,比如说整个哈希的不均衡问题等,我们目前正在和一些公司进行合作,希望把问题进一步解决,能够提高整个卡的使用率和效能。

三、谈大模型十大应用场景和三大挑战

谈到目前国内的场景应用,季昕华表示,按照对大模型输出内容准确性的容忍度来分类,在游戏NPC、社交辅助、电商、游戏/设计的画图、翻译、客服支持、文字和编程辅助、教育、法律、医疗这10大行业场景有较为广泛的落地。

季昕华介绍到游戏中的NPC使用大模型来做的话,会极大提高游戏用户的粘性;而在社交辅助上,大模型可以模拟人进行交流也非常受欢迎;在电商方面,很多页面设计、文案输出、图片设计,都可以交给大模型来做,可大幅提高生产效率;在法律、教育和医疗领域,更多的是作为辅助功能,最后由老师或者是医生和律师来签字,担责的是人,所以这三类目前是无法被替换的。

另外他还谈到,大模型发展还将持续面临数据安全、政府对于合规性的要求、国际关系对于中国AI发展的限制等挑战。

由于国际关系对于AI发展有一些核心硬件的限制,国内无法购买A100、 H100 或者未来更高一级的卡、更高性能的芯片,所以中国AI的发展会受到很大的挑战,和国外的差距会越来越越大;还有由于政府对与合规性的要求,很多客户开始采用海外磨枪,国内使用的路子,UCloud在全球有30多个数据中心,可以协助用户磨练产品,之后有条件的时候再搬到国内;还有一个重要的挑战就是数据安全,很多用户的数据放在云上,肯定会担心会不会被拿走,UCloud是一个中立的云计算公司,我们有一个模式就是给合作伙伴建立专有云或者私有云,放在自己的云上随意做测试、训练,也不会担心数据的安全问题。

在提问环节,他回答了现场观众关于应用场景的提问,季昕华表示,现在确实是互联网的应用场景会多一些,但我们也在其他领域进行探索,一个是 AI for Science,比如AI for化学,通过无人化的试管试验来验证可能性。第二探索是AI for Brain,在大脑科学领域,我们在跟陈天桥进行合作,通过AI来分析大脑状态、大脑操控各种行为时的变化。第三个探索就是生物医药。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。