英特尔中国研究院张旭_分论坛F直播

比如说在整个LTEMIMO运算，接入端有四根天线，在MIMO处理我们只需要0.16core，浮点就需要0.17个core。另外一个例子就是Turbe译码器，我们都知道Turbe复杂度非常高，因为它里面不仅是计算复杂度高，而且有一些交织运算，要对比特进行搬移，他的复杂度也是非常高的。怎么样用软件能够实现一个很好的Turbe译码器，通过我们研究终于进行一些定点化设计，怎么样能够充分利用计算机的并行单元，进行并行的译码实现，同时交织性也可以用这种并行的指令来实现，一个并行指令可以实现很多个比特的交织。因为软件设计比较灵活，设计一些提前退出的算法，最后能够通过我们优化，和以前10兆，有了10几倍，20几倍的提高。

通过我们这方面研究想说明一个问题，用CPU来进行无线信号处理的时候，实际上不仅仅他的编程比较灵活，同时计算性能也非常高，而且计算有效性也非常高。我们也通过一些比较，在有效性方面，CPU由于提供很多并行计算指令，而且他有很多并行计算单位，所以有效性也是非常高的。基于我们一些算法模块，我们把这些模块组合起来也做了一些上下行LTE基站原型机，比如说我们在今年MWC上做了一个板块，基于英特尔架构LTE上行和下行原型演示，包括一个用户端，包括一个基站端，下行处理100兆BPS数据，一共有四根天线，下行也是。在这里基于CPU的实现，在下行的时候只需要处理150兆BPS，纯软件实现大概只需要半个CPU的核，因为CPU会有很多核，但只需要半个核实现。在上行集团度发展复杂一些，所以上行50兆的时候需要0.85个核，不到1个核就能实现上行50兆的接受。

另外一个方面我们也在进行基于英特尔架构LTE基站的参考设计，刚才我已经讲到了除了研究算法和系统之外，一个系统性能才是能不能用通用CPU进行设计关键，怎么样来调度，整个系统设计里面怎么样来优化。比如传统基站来说，是在不同芯片进行，中间需要通过一个通信的协议进行传输。基于通用CPU，一般情况下可以把这些高层协议都放在一块，就可以大大减少整个通信开销，能够提升整个系统的性能。在这里，我们做了LTE参考基站设计，包括物理层，Net层，包括基站，也包括用户端，而且用户端可以用一台服务器可以模拟800个VI用户，这是我们的设计目标。

整个设计目标我们希望在一个双核处理器服务平台上面能够进行LTE物理层和Net层处理，同时有一部分是软件，有一部分关键也要通过硬件加速来实现。下行目标我们希望能够达到300兆BPS的吞吐量，上行是150兆，整个可以支持一个峰值速率，也可以支持平均速率，支持非常多VOIP速率，我们现在正在进行这方面设计，希望明年年终的时候能够完成这方面设计，提供给各个设备供应商，让他们做这方面的研究，评估。

另外一个方面我们在进行的研究，主要是C-RAN动态负载均衡研究。在这里，刚才提到了如果是说用CPU只是做无线信号处理，只是做一个基站，那和DSP来说，实际上区别并不是很大，将来主要的优势，CPU主要的优势在于他在这种基带池里面能够更好的实现动态负载的均衡。比如说利用虚拟化的技术，这里也有几个挑战，比如说处理器之间的任务迁移，基站之间不同的任务怎么从一个基站迁移到另外一个基站，同时能够尽量保持业务的不间断。动态负载共享，首先你要负载和流量的监控，能够有一定的算法协调的调度和处理，能够把一个基站他的业务比较忙的时候，他的业务非常多，你可以分一部分业务迁移到别的基站上面去。

还有一种做法如果一个基站他的业务非常少，那么我也可以把它迁移到其他的基站上面去，就把这个基站整个控制出来，就可以关掉来进行降低能耗。右面一个图是我们做的一个仿真结果，比如我们仿真了一个有100个基站，每个基站有3个基带池，有一个24小时流量分布，我们采用英特尔下一代的CPU大概是在2012年左右发布，4核的CPU，我们在基带池架构下面计算一下最多情况下，最好的情况下能够节省多少计算资源，能够节约多少的能耗。我们初步研究成果，如果整个网络能够达到很优化的配置，可以节约60%的计算资源，同时能够节约85%BPU的功耗。当然，这是一个非常优化的仿真情况，我们现在做的研究主要也就是说，在什么样的一个架构下利用通用的CPU能够帮助C-RAN达到，或者尽量接近这样一个结果，能够节约非常多的计算资源，同时能够节约非常多的基站功耗。