service/cpu/parallel_task_assignment.cc

943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie/* Copyright 2017 The TensorFlow Authors. All Rights Reserved.
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei XieLicensed under the Apache License, Version 2.0 (the "License");
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xieyou may not use this file except in compliance with the License.
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei XieYou may obtain a copy of the License at
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    http://www.apache.org/licenses/LICENSE-2.0
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei XieUnless required by applicable law or agreed to in writing, software
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xiedistributed under the License is distributed on an "AS IS" BASIS,
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei XieWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei XieSee the License for the specific language governing permissions and
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xielimitations under the License.
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie==============================================================================*/
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie#include "tensorflow/compiler/xla/service/cpu/parallel_task_assignment.h"
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
289af8e7460e69edc106e834b7fbeee17811f1eaSanjoy Das#include "tensorflow/compiler/xla/service/cpu/dot_op_emitter.h"
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie#include "tensorflow/compiler/xla/service/cpu/ir_emission_utils.h"
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie#include "tensorflow/compiler/xla/service/cpu/shape_partition.h"
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie#include "tensorflow/compiler/xla/service/hlo_computation.h"
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie#include "tensorflow/compiler/xla/service/hlo_instruction.h"
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie#include "tensorflow/compiler/xla/service/hlo_opcode.h"
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xienamespace xla {
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xienamespace cpu {
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xieclass SimpleCostModel : public ParallelCostModel {
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie public:
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  SimpleCostModel(const int64 max_parallelism,
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie                  const HloCostAnalysis::ShapeSizeFunction& shape_size)
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie      : max_parallelism_(max_parallelism), shape_size_(shape_size) {}
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  ~SimpleCostModel() override {}
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  int64 GetParallelTaskCount(HloInstruction* instruction) override {
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    // Simple cost model based on hlo size and typical L2 cache size.
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    const int64 instruction_cost = shape_size_(instruction->shape());
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    const int64 min_cost_per_thread = 256LL << 10;  // 256KB L2 Cache size.
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    // Return target parallel task count in [1, max_parallelism_].
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    return std::min(max_parallelism_,
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie                    std::max(1LL, instruction_cost / min_cost_per_thread));
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  }
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie private:
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  const int64 max_parallelism_;
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  const HloCostAnalysis::ShapeSizeFunction shape_size_;
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie};
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xieclass DefaultCostModel : public ParallelCostModel {
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie public:
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  DefaultCostModel(const int64 max_parallelism,
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower                   const HloCostAnalysis::ShapeSizeFunction& shape_size,
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie                   std::unique_ptr<HloCostAnalysis> cost_analysis)
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie      : max_parallelism_(max_parallelism),
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower        shape_size_(shape_size),
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie        cost_analysis_(std::move(cost_analysis)) {}
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  ~DefaultCostModel() override {}
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  int64 GetParallelTaskCount(HloInstruction* instruction) override {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    // Parameters for parallel task count computation.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    int64 instruction_cost;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    int64 min_cost_per_thread;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    int64 max_parallelism;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    // Calculate flops-to-bytes-ratio for 'instruction'.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    const int64 bytes_accessed =
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower        std::max(1LL, cost_analysis_->bytes_accessed(*instruction));
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    const float flops_to_bytes_ratio =
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower        cost_analysis_->flop_count(*instruction) /
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower        static_cast<float>(bytes_accessed);
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    // Check for I/O bound instructions.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    if (flops_to_bytes_ratio <= 1.0) {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      // Limit max parallelism for I/O bound instructions by assuming a
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      // sub-linear scaling function (fit based on empirical benchmark results).
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      // TODO(29630486) Develop system bandwidth model.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      max_parallelism =
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower          std::ceil(std::sqrt(tensorflow::port::NumSchedulableCPUs()));
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      // Use shape size instruction cost and L2 cache size min per-thread cost.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      instruction_cost = shape_size_(instruction->shape());
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      min_cost_per_thread = 256LL << 10;  // 256KB L2 Cache size.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    } else {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      // Use max parallelism for compute bound instructions.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      max_parallelism = max_parallelism_;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      // Calculate the instruction cost in cycles.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      // TODO(29630486) Improve on this linear cost model.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      // Consider making 'min_cost_per_thread' be a function of the target
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      // bandwidth limit for instructions with low arithmetic complexity.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      instruction_cost =
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower          1 * cost_analysis_->flop_count(*instruction) +
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower          2 * cost_analysis_->transcendental_count(*instruction) +
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower          10 * cost_analysis_->bytes_accessed(*instruction);
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      // Minimum per-thread cost is 100us of work on a 2GHz core.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      min_cost_per_thread = 100000;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    }
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    // Return target parallel task count in [1, max_parallelism_].
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    return std::min(max_parallelism,
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie                    std::max(1LL, instruction_cost / min_cost_per_thread));
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  }
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie private:
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  const int64 max_parallelism_;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  const HloCostAnalysis::ShapeSizeFunction shape_size_;
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  const std::unique_ptr<HloCostAnalysis> cost_analysis_;
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie};
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei XieParallelTaskAssignment::ParallelTaskAssignment(
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    const int64 max_parallelism,
d0de8738e3401bbc5fd142846b4fc124951e5e07Sanjoy Das    const HloCostAnalysis::ShapeSizeFunction& shape_size, HloModule* module) {
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  VLOG(1) << "ParallelTaskAssignment max_parallelism: " << max_parallelism;
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  // Run cost analysis on 'module'.
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  auto cost_analysis = MakeUnique<HloCostAnalysis>(shape_size);
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  HloComputation* computation = module->entry_computation();
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  Status status = computation->root_instruction()->Accept(cost_analysis.get());
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  if (status.ok()) {
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    // Set default cost model based on 'cost_analysis'.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    cost_model_.reset(new DefaultCostModel(max_parallelism, shape_size,
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie                                           std::move(cost_analysis)));
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  } else {
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    // Fall back to a simple cost model based on hlo size and L2 cache size.
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    // Note that HloCostAnalysis can returns an error status (likely because
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    // HLOs like CustomCall are not yet implemented in the HloCostAnalysis).
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    cost_model_.reset(new SimpleCostModel(max_parallelism, shape_size));
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  }
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie}
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xieint64 ParallelTaskAssignment::GetTargetParallelTaskCount(
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    HloInstruction* instruction) {
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  // Currently, we do not assign parallel tasks to instructions with at least
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  // one of the following properties:
5bf26acd87d3d44183fc28cb9576cda10c0255caA. Unique TensorFlower  // *) Internal threading (library calls to kConv, kDot, kFft, kCustomCall).
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  // *) Emit custom loops (kSelectAndScatter, FusionKind::kTransposeDot).
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  // *) Tuple-shaped.
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  // TODO(b/27458679) Parallelize instructions which are skipped here.
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  if (instruction->opcode() == HloOpcode::kParameter ||
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie      instruction->opcode() == HloOpcode::kConstant ||
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie      instruction->opcode() == HloOpcode::kCall ||
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie      instruction->opcode() == HloOpcode::kCustomCall ||
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie      instruction->opcode() == HloOpcode::kSelectAndScatter ||
017a5021a7fdc713357fceecf31068ae5090afafA. Unique TensorFlower      instruction->opcode() == HloOpcode::kGetTupleElement ||
017a5021a7fdc713357fceecf31068ae5090afafA. Unique TensorFlower      instruction->opcode() == HloOpcode::kBitcast ||
5bf26acd87d3d44183fc28cb9576cda10c0255caA. Unique TensorFlower      instruction->opcode() == HloOpcode::kFft ||
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie      (instruction->opcode() == HloOpcode::kConvolution &&
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie       PotentiallyImplementedAsEigenConvolution(*instruction)) ||
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie      PotentiallyImplementedAsEigenDot(*instruction) ||
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie      (instruction->opcode() == HloOpcode::kFusion &&
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie       instruction->fusion_kind() != HloInstruction::FusionKind::kLoop) ||
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie      ShapeUtil::IsTuple(instruction->shape())) {
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie    return 1;
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  }
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  // Consult 'cost_model_' to compute target parallel task count.
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie  return cost_model_->GetParallelTaskCount(instruction);
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie}
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlowerStatusOr<bool> ParallelTaskAssigner::Run(HloModule* module) {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  XLA_VLOG_LINES(2, "ParallelTaskAssigner ENTRY");
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  XLA_VLOG_LINES(3, module->ToString());
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  // Compute target parallel task counts for all instructions in 'module'.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  HloToParallelTasks hlo_to_parallel_tasks;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  ComputeTargetParallelTasks(module, &hlo_to_parallel_tasks);
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  // Assign parallel tasks to target specific instructions in 'module'.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  // TODO(b/27458679) Support inter-op parallelism.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  bool changed = AssignParallelTasks(module, hlo_to_parallel_tasks);
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  XLA_VLOG_LINES(2, "ParallelTaskAssigner EXIT");
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  XLA_VLOG_LINES(3, module->ToString());
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  return changed;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower}
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlowerbool ParallelTaskAssigner::AssignParallelTasks(
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    HloModule* module, const HloToParallelTasks& hlo_to_parallel_tasks) {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  return AssignParallelTasksHelper(module, module->entry_computation(),
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower                                   hlo_to_parallel_tasks);
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower}
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlowerbool ParallelTaskAssigner::AssignParallelTasksHelper(
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    HloModule* module, HloComputation* computation,
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    const HloToParallelTasks& hlo_to_parallel_tasks) {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  bool changed = false;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  // Snapshot set of instructions because outlining modifies the set below.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  std::vector<HloInstruction*> instructions(computation->instructions().begin(),
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower                                            computation->instructions().end());
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  for (auto* instruction : instructions) {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    // Assign parallel tasks to sub-computations for While and Call HLOs.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    // TODO(b/27458679) Evaluate alternative intra-op parallelsim placement,
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    // and support other callable computations like reduce.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    if (instruction->opcode() == HloOpcode::kWhile) {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      changed |= AssignParallelTasksHelper(module, instruction->while_body(),
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower                                           hlo_to_parallel_tasks);
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      continue;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    } else if (instruction->opcode() == HloOpcode::kCall) {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      changed |= AssignParallelTasksHelper(module, instruction->to_apply(),
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower                                           hlo_to_parallel_tasks);
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      continue;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    }
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    // Skip if no parallel tasks were computed in first pass.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    auto it = hlo_to_parallel_tasks.find(instruction);
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    if (it == hlo_to_parallel_tasks.end()) {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      continue;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    }
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    // Get target parallel task count computed for 'instruction'.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    const int64 target_parallel_task_count = (*it).second;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    // Assign feasible dimension partitions (based on actual dimension sizes).
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    auto dim_partition_counts = ShapePartitionAssigner(instruction->shape())
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower                                    .Run(target_parallel_task_count);
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    const int64 total_partition_count =
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower        ShapePartitionAssigner::GetTotalPartitionCount(dim_partition_counts);
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    if (total_partition_count <= 1) {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      // Feasible partition calculation resulting in no partitioning, so skip.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      continue;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    }
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    // Outline 'instruction' in 'computation' for parallel task assignment.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    auto* call = module->OutlineExpressionFromComputation(
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower        {instruction},
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower        tensorflow::strings::StrCat("parallel_", instruction->name()),
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower        computation);
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    // Set assigned dimension partitioning to 'instruction'.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    auto* new_root = call->to_apply()->root_instruction();
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    new_root->set_outer_dimension_partitions(dim_partition_counts);
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    VLOG(2) << "Assigned parallel task count: " << total_partition_count
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower            << " to instruction: " << new_root->name()
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower            << " parent: " << new_root->parent()->name();
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    changed = true;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  }
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  return changed;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower}
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlowervoid ParallelTaskAssigner::ComputeTargetParallelTasks(
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    HloModule* module, HloToParallelTasks* hlo_to_parallel_tasks) {
d0de8738e3401bbc5fd142846b4fc124951e5e07Sanjoy Das  ParallelTaskAssignment parallel_task_assignment(max_parallelism_,
d0de8738e3401bbc5fd142846b4fc124951e5e07Sanjoy Das                                                  shape_size_function_, module);
d0de8738e3401bbc5fd142846b4fc124951e5e07Sanjoy Das
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  // Compute parallel task counts for all instructions in 'module'.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  for (auto* computation : module->computations()) {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    if (computation->IsFusionComputation()) {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      continue;
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    }
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    for (auto* instruction : computation->instructions()) {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      // Query ParallelTaskAssignment for target parallel task count.
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      const int64 target_parallel_task_count =
d0de8738e3401bbc5fd142846b4fc124951e5e07Sanjoy Das          parallel_task_assignment.GetTargetParallelTaskCount(instruction);
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      if (target_parallel_task_count > 1) {
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower        hlo_to_parallel_tasks->insert(
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower            {instruction, target_parallel_task_count});
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower      }
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower    }
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower  }
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower}
a799ade213cecb3c1c1d19eca6a0bfa3fddf0113A. Unique TensorFlower
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie}  // namespace cpu
943c6d7af7a8ccd4f824a2c0f90b251587c63feaJianwei Xie}  // namespace xla