计算两个向量的内积可以轻松并行化;每个处理器计算每个向量相应部分的内积(局部内积(LIPs))。 在分布式内存机器上,这些局部内积随后需要发送给其他处理器,以组合成全局内积。这可以通过所有处理器进行的全局求和来实现,或者由一个处理器进行全局累加,然后广播最终结果。显然,这一步需要通信。
对于共享内存机器,局部内积的累加可以实现为临界区,所有处理器依次将其局部结果添加到全局结果中,或者作为一段串行代码,由一个处理器执行求和操作。