通信网络大模型构建思路

作者:华为技术有限公司 徐东兵 刘瑞宏 责任编辑:王鹤迦 2024.01.25 14:01 来源:通信世界全媒体

通信世界网消息(CWW)随着智能世界的到来,未来网络将带来10倍的有效算力提升、10倍的存储性能提升以及10倍的基础设施能效提升。面对赋能千行百业的新一轮科技革命和产业变革,全球运营商纷纷加大人工智能领域的投资,以此激发企业创新活力、改善用户体验、提升运营效率。

ChatGPT引发的大模型浪潮对全社会产生了深远影响,从大模型产业发展情况来看,全球已发布数百个大模型,我国2023年内发布300多个大模型,这种趋势必将彻底改变通信网络系统开发和应用的方式。从大模型布局体系来看,华为在算力层、平台层、模型层、应用层进行了全栈自主研发布局。华为盘古基础大模型参数量达到千亿级,已在煤矿、铁路、气象、金融、代码开发、数字内容生成等领域广泛应用,各类行业大模型应用百花齐放,达到了提升生产效率、降低研发成本的效果。其中,华为通信网络大模型,实现L0基础大模型、L1通信大模型、L2专业领域应用大模型三层布局,涵盖了无线网、核心网、传输网等多领域场景化应用(如图1所示)。

image.png

图1 华为通信网络大模型架构

通信网络大模型的应用场景有别于其他行业,面向个人(to C)领域,大模型可提供智能化服务,在售前咨询中建立用户画像;在售中进行精准营销;在售后按照服务话术,自动生成知识应答。面向家宽(to H)领域,大模型通过质差时刻回放、时空关联、体验仿真和知识推理,给出家宽体验问题的“根因”分析结果;通过实时推理、预测预防,解决质差体验劣化问题;通过赋能装维一线,大幅减少投诉量,做到上门即处理,有效缩短业务处理时间和故障恢复时长。面向园区专网(to B)领域,大模型可针对性地进行业务质量保障。例如在工厂柔性产线的信号发生波动和弱覆盖时,该模型可自动实现业务终端BF权值优化、调度鲁棒性参数(MCS/BLER)优化等功能,预测终端下一步的位置和信号条件,从而有针对性地保障终端的低时延业务。

上述网络领域个性化、丰富的应用场景,决定了构建通信网络大模型需要一些有别于构建通用大模型的系统化策略方法。

三种通信网络大模型构建策略

总体来看,构建通信网络大模型有三种策略。一是自行训练通信网络大模型;二是基于开源基础大模型增强训练通信网络大模型;三是与拥有基础大模型的产业合作伙伴联合定向训练通信网络大模型,满足通信领域应用的场景化需求。

综合分析来看,这三种策略各有优劣。

自行训练通信网络大模型

从头训练是指从收集千行百业的完整知识和数据集、搭建大模型预训练算力网络资源、定义和建立通信大模型评测任务集合、定义评测指标等基础性工作做起,从头训练一个大模型。这种方法的优点是可以训练出更加准确理解所收集语料的模型,缺点是需要大量的预训练时间和算力资源。此外,由于需要对整个数据集进行训练,模型可能会受到数据集质量的影响,导致预训练大模型能力不足,存在基础能力偏低以及模型不好用、不可用等问题。

基于开源基础大模型增强训练通信网络大模型

相对于从头训练,这种方法的优点是可以更快地获得可用的大模型,并通过微调,达到针对性优化的目的。但增强预训练和微调过程中对大模型参数的反向梯度传播,需要对原有模型进行定向修改,如果修改过程中通信网络语料不足,就会出现大模型缺乏专业知识,原有模型的通用基础能力也会受到影响,最差的结果是训练出的大模型基础能力降低、专业知识“偏科”。此外,开源大模型的版本升级不同于软件的版本升级,如果运营商希望受益于新版本开源大模型的新增能力,就需要基于升级版的开源模型,重新进行通信知识的增强预训练和微调工作,导致模型重复训练的工程管理复杂化。

与有基础大模型的产业合作伙伴联合定向训练通信网络大模型

与有基础大模型的产业伙伴合作,利用他们的基础大模型和技术积累,结合运营商自有的智力资源、算力资源对通信网络大模型进行联合训练、优化和定向微调。这种方法的优点是可以快速训练出解决具体问题的实用型大模型,且运营商可以利用已有算力资源进行可控高效调优,合理选择重训练和微调关键技术避免踩坑,合理利用网络状态数据和通信领域知识,更好地满足通信网络的应用需求。需要注意的是,运营商需要与大模型合作伙伴进行深入合作,要求运营商侧参与大模型数据治理、模型训练和反馈优化等的相关人员,具备构建大模型的关键技术知识、理解应用场景并掌握网络专业知识,能高效牵引大模型构建和应用的开发过程,保障双方合作效果。在选择大模型构建策略时,需要综合考虑各种因素,如成本效益、数据安全、场景应用、性能泛化等。综合来看,与产业伙伴合作定向训练大模型可能是运营商获得最适用模型和保障用户体验的有效方案。

通信大模型构建的关键技术

构建通信网络大模型需要重点关注四类关键技术,即通信数据“飞轮”、增强预训练、高效微调和通信网络能力评测。

通信数据“飞轮”技术的目标是收集大模型应用过程中的高价值问答知识,让大模型通过不断学习掌握新的专业知识,从而不断提高专业技能,这些知识包括用户问答知识,用户提供给大模型的专业文献、经验案例,各供应商提供的专业领域Support文档等。通信数据“飞轮”技术通过自动数据质量评估机制,自动从用户问答过程中获取高质量语料,结合人工标注、提示、评价和反馈等,形成通信网络应用高质量语料积累机制,为通信大模型能力不断升级提供数据基础。

增强预训练技术的目标是尽量提升通信大模型的专业能力,减少通信大模型的通用能力损失。这就需要设计合理的增强预训练目标,并采取通信网络多任务融合的预训练策略,让大模型获得通信网络知识理解、应答生成、思维链推理、领域工具调用等多任务能力。为了降低大模型通用能力损失,行业需要制定合理的原始预训练语料和专业语料采样配比策略。另外,要让通信大模型学会使用通信网络运维工具,精准调取能力开放接口API,运营商可采取Toolformer预训练技术,让大模型具备精准调用API、精准填充参数、结合API返回结果与上下文语境精准总结反思等能力。

高效微调技术的目标是让大模型精准掌握专业知识,具备健壮的推理能力,这也是通信大模型的核心能力。没有经过微调的大模型往往难以理解专业问题、难以有逻辑地组织专业应答、难以有效进行逻辑推演,为了让大模型具备“零样本”推理、思维链推理能力,行业可以将有监督微调的语料与思维链语料按合理比例混合,从而增强大模型微调效果。

通信大模型能力评测技术的目标有三个,一是评测通信大模型的语义理解和文本生成能力,二是衡量通信大模型掌握通信领域知识的能力,三是评测大模型在实际通信网络业务应用中,解决业务问题的能力。基于这三个目标,行业需要构建通信网络大模型评测标准数据集,如华为公司基于HCIE认证知识库,构建了专业的通信网络大模型认证评测基准测试集。

除此之外,大模型现网部署还面临资源消耗大、算力成本高等制约因素,模型量化、“剪枝”、稀疏化等大模型瘦身技术也将成为研究重点。随着大模型在通信领域应用场景的不断拓展,自然语言交互接口、多模态融合感知、网络状态预测、网络优化决策等多种技术都将进入快速发展阶段。

综上所述,随着通用人工智能奇点时刻的到来,信息产业生态系统有可能随之重构,运营商作为算网基础设施建设的主力军,也迎来了智算发展的新机遇。作为信息通信基础设施的建设者和运营者,通信行业既为AI的发展提供支撑,又是AI应用落地的先行者,构建适用于通信网络的大模型已势在必行。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容