gpu/llvm_gpu_backend/gpu_backend_lib.cc

1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins/* Copyright 2017 The TensorFlow Authors. All Rights Reserved.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsLicensed under the Apache License, Version 2.0 (the "License");
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsyou may not use this file except in compliance with the License.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsYou may obtain a copy of the License at
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    http://www.apache.org/licenses/LICENSE-2.0
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsUnless required by applicable law or agreed to in writing, software
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsdistributed under the License is distributed on an "AS IS" BASIS,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsSee the License for the specific language governing permissions and
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinslimitations under the License.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins==============================================================================*/
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/gpu/llvm_gpu_backend/gpu_backend_lib.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <map>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <memory>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <string>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <utility>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/legacy_flags/gpu_backend_lib_flags.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/ptr_util.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/gpu/llvm_gpu_backend/dump_ir_pass.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/gpu/llvm_gpu_backend/utils.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/llvm_ir/llvm_util.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/util.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/ADT/STLExtras.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/ADT/StringMap.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/ADT/StringSet.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Analysis/TargetLibraryInfo.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Analysis/TargetTransformInfo.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Bitcode/BitcodeReader.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Bitcode/BitcodeWriter.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/CodeGen/CommandFlags.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/IR/LLVMContext.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/IR/LegacyPassManager.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/IR/Module.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/LinkAllIR.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/LinkAllPasses.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Linker/Linker.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/PassRegistry.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Support/CommandLine.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Support/FileSystem.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Support/FormattedStream.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Support/TargetRegistry.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Support/TargetSelect.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Support/ToolOutputFile.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Target/TargetMachine.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Transforms/IPO.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Transforms/IPO/AlwaysInliner.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "external/llvm/include/llvm/Transforms/IPO/PassManagerBuilder.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/types.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/lib/core/stringpiece.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/lib/io/path.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/lib/strings/str_util.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/lib/strings/stringprintf.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/platform/env.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/platform/logging.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsnamespace xla {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsnamespace gpu {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsnamespace {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Default inline threshold value to use in llvm.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsconst int kDefaultInlineThreshold = 1100;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Information about a GPU architecture for the backend.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsstruct GpuBackendInfo {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  string libdevice_name;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  string sm_name;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins};
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Maps supported CUDA compute capability to a libdevice file to link for this
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// capability.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsstd::map<string, GpuBackendInfo> gpu_info_map = {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    {"compute_20", {"libdevice.compute_20.10.bc", "sm_20"}},
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    {"compute_30", {"libdevice.compute_30.10.bc", "sm_30"}},
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    {"compute_35", {"libdevice.compute_35.10.bc", "sm_35"}},
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // NVIDIA does not provide a separate libdevice for CC 3.7, but we can use
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // the one for 3.5.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    {"compute_37", {"libdevice.compute_35.10.bc", "sm_37"}},
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins};
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Validate the --gpu_architecture command-line flag.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsstatic void ValidateGPUArchitecture(const string& value) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (!gpu_info_map.count(value)) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    LOG(FATAL) << "value for --gpu_architecture must be compute_{20,30,35,37}";
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Convenience function for producing a name of a temporary compilation product
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// from the input filename.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsstring MakeNameForTempProduct(const std::string& input_filename,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                              tensorflow::StringPiece extension) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  legacy_flags::GpuBackendLibFlags* flags =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      legacy_flags::GetGpuBackendLibFlags();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  return tensorflow::io::JoinPath(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      flags->dump_temp_products_to,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      ReplaceFilenameExtension(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins          tensorflow::io::Basename(llvm_ir::AsString(input_filename)),
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins          extension));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Initializes LLVM passes. Uses the PassRegistry mechanism.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsvoid InitializePasses(llvm::PassRegistry* pass_registry) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeCore(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeCodeGen(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeScalarOpts(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeObjCARCOpts(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeVectorization(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeIPO(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeAnalysis(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeTransformUtils(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeInstCombine(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeInstrumentation(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeTarget(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeCodeGenPreparePass(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Returns the TargetMachine, given a triple.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsstd::unique_ptr<llvm::TargetMachine> GetTargetMachine(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    llvm::Triple triple, tensorflow::StringPiece cpu_name) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::string error;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  const llvm::Target* target = TargetRegistry::lookupTarget("", triple, error);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (target == nullptr) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    LOG(FATAL) << "Unable to find Target for triple '" << triple.str() << "'"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins               << " -- " << error;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return nullptr;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  TargetOptions target_options = InitTargetOptionsFromCodeGenFlags();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Enable FMA synthesis if desired.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  legacy_flags::GpuBackendLibFlags* flags =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      legacy_flags::GetGpuBackendLibFlags();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (flags->fma) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    target_options.AllowFPOpFusion = FPOpFusion::Fast;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Set options from LlvmBackendFlags (specifically, fast-math flags).
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm_ir::SetTargetOptions(&target_options);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Set the verbose assembly options.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  target_options.MCOptions.AsmVerbose = flags->verbose_ptx_asm;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // The selection of codegen optimization level is copied from function
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // GetCodeGenOptLevel in //external/llvm/tools/opt/opt.cpp.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  CodeGenOpt::Level codegen_opt_level;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  switch (flags->opt_level) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    case 1:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      codegen_opt_level = CodeGenOpt::Less;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      break;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    case 2:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      codegen_opt_level = CodeGenOpt::Default;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      break;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    case 3:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      codegen_opt_level = CodeGenOpt::Aggressive;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      break;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    default:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      codegen_opt_level = CodeGenOpt::None;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  return WrapUnique(target->createTargetMachine(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      triple.str(), llvm_ir::AsStringRef(cpu_name), "+ptx42", target_options,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      Optional<Reloc::Model>(RelocModel), CMModel, codegen_opt_level));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Adds the standard LLVM optimization passes, based on the speed optimization
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// level (opt_level) and size optimization level (size_level). Both module
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// and function-level passes are added, so two pass managers are passed in and
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// modified by this function.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsvoid AddOptimizationPasses(unsigned opt_level, unsigned size_level,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                           llvm::TargetMachine* target_machine,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                           llvm::legacy::PassManagerBase* module_passes,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                           llvm::legacy::FunctionPassManager* function_passes) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  PassManagerBuilder builder;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.OptLevel = opt_level;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.SizeLevel = size_level;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (opt_level > 1) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    builder.Inliner = llvm::createFunctionInliningPass(kDefaultInlineThreshold);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  } else {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // Only inline functions marked with "alwaysinline".
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    builder.Inliner = llvm::createAlwaysInlinerLegacyPass();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.DisableUnitAtATime = false;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.DisableUnrollLoops = opt_level == 0;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.LoopVectorize = opt_level > 0;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.SLPVectorize = opt_level > 1 && size_level < 2;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // NVPTX's early-as-possible passes include NVVM reflect.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.addExtension(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      llvm::PassManagerBuilder::EP_EarlyAsPossible,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      [&](const PassManagerBuilder&, legacy::PassManagerBase& pass_manager) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins        target_machine->addEarlyAsPossiblePasses(pass_manager);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      });
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.populateFunctionPassManager(*function_passes);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.populateModulePassManager(*module_passes);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Emits the given module to a bit code file.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsvoid EmitBitcodeToFile(const Module& module, tensorflow::StringPiece filename) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::error_code error_code;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::tool_output_file outfile(filename.ToString().c_str(), error_code,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                                 llvm::sys::fs::F_None);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (error_code) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    LOG(FATAL) << "opening bitcode file for writing: " << error_code.message();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::WriteBitcodeToFile(&module, outfile.os());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  outfile.keep();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Emits the given module to PTX. target_machine is an initialized TargetMachine
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// for the NVPTX target.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsstring EmitModuleToPTX(Module* module, llvm::TargetMachine* target_machine) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::string ptx;  // need a std::string instead of a ::string.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    llvm::raw_string_ostream stream(ptx);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    llvm::buffer_ostream pstream(stream);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // The extension is stripped by IrDumpingPassManager, so we need to
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // get creative to add a suffix.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    string module_id(llvm_ir::AsString(module->getModuleIdentifier()));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    legacy_flags::GpuBackendLibFlags* flags =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins        legacy_flags::GetGpuBackendLibFlags();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    IrDumpingPassManager codegen_passes(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins        ReplaceFilenameExtension(tensorflow::io::Basename(module_id),
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                                 "-nvptx.dummy"),
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins        flags->dump_temp_products_to, flags->dump_ir_before_passes);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    codegen_passes.add(new llvm::TargetLibraryInfoWrapperPass(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins        llvm::Triple(module->getTargetTriple())));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    target_machine->addPassesToEmitFile(codegen_passes, pstream,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                                        llvm::TargetMachine::CGFT_AssemblyFile);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    codegen_passes.run(*module);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  return ptx;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// LLVM has an extensive flags mechanism of its own, which is only accessible
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// through the command line. Internal libraries within LLVM register parsers for
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// flags, with no other way to configure them except pass these flags.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// To do this programmatically, we invoke ParseCommandLineOptions manually with
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// a "fake argv".
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Note: setting flags with this method is stateful, since flags are just
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// static globals within LLVM libraries.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsvoid FeedLLVMWithFlags(const std::vector<string>& cl_opts) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::vector<const char*> fake_argv = {""};
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  for (const string& cl_opt : cl_opts) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    fake_argv.push_back(cl_opt.c_str());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::cl::ParseCommandLineOptions(fake_argv.size(), &fake_argv[0]);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsnamespace {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Returns whether the module could use any libdevice functions. This function
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// may have false positives -- the module might not use libdevice even if this
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// function returns true.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsbool CouldNeedLibdevice(const llvm::Module& module) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  for (const llvm::Function& function : module.functions()) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // This is a conservative approximation -- not all such functions are in
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // libdevice.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    if (!function.isIntrinsic() && function.isDeclaration()) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      return true;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  return false;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Links libdevice into the given module if the module needs libdevice.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinstensorflow::Status LinkLibdeviceIfNecessary(const string& libdevice_dir_path,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                                            llvm::Module* module) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (!CouldNeedLibdevice(*module)) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return tensorflow::Status::OK();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::Linker linker(*module);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  legacy_flags::GpuBackendLibFlags* flags =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      legacy_flags::GetGpuBackendLibFlags();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  ValidateGPUArchitecture(flags->gpu_architecture);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  string libdevice_bc_filename =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      gpu_info_map[flags->gpu_architecture].libdevice_name;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  string libdevice_bc_fullpath =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      tensorflow::io::JoinPath(libdevice_dir_path, libdevice_bc_filename);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  TF_RETURN_IF_ERROR(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      tensorflow::Env::Default()->FileExists(libdevice_bc_fullpath));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::unique_ptr<llvm::Module> libdevice_module =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      LoadIRModule(libdevice_bc_fullpath, &module->getContext());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  VLOG(1) << "Linking with libdevice from: " << libdevice_bc_fullpath;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (linker.linkInModule(std::move(libdevice_module),
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                          llvm::Linker::Flags::InternalizeLinkedSymbols |
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                              llvm::Linker::Flags::LinkOnlyNeeded)) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    LOG(FATAL) << "Error linking libdevice from " << libdevice_bc_fullpath;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  return tensorflow::Status::OK();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}  // namespace
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsStatusOr<string> CompileModuleToPtx(llvm::Module* module,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                                    const string& libdevice_dir_path) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Link the input module with libdevice, to pull in implementations of some
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // builtins.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  TF_RETURN_IF_ERROR(LinkLibdeviceIfNecessary(libdevice_dir_path, module));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  legacy_flags::GpuBackendLibFlags* flags =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      legacy_flags::GetGpuBackendLibFlags();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (!flags->dump_temp_products_to.empty()) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    string linked_filename =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins        MakeNameForTempProduct(module->getModuleIdentifier(), "linked.bc");
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    LOG(INFO) << "dumping bitcode after linking libdevice to: "
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins              << linked_filename;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    EmitBitcodeToFile(*module, linked_filename);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Set the flush-denormals-to-zero flag on the module so the NVVM reflect pass
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // can access it.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  module->addModuleFlag(llvm::Module::Override, "nvvm-reflect-ftz", flags->ftz);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // If ftz is enabled, set it as an attribute on every function in the module.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (flags->ftz) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    for (llvm::Function& fn : *module) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      fn.addFnAttr("nvptx-f32ftz", "true");
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Run IR-level optimizations.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (flags->dump_ir_before_passes && flags->dump_temp_products_to.empty()) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    LOG(FATAL) << "--dump_ir_before_passes must be specified with "
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                  "--dump_temp_products_to";
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  IrDumpingPassManager module_passes(module->getModuleIdentifier(),
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                                     flags->dump_temp_products_to,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                                     flags->dump_ir_before_passes);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Add an appropriate TargetLibraryInfo pass for the module's triple.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::TargetLibraryInfoWrapperPass* tliwp =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      new llvm::TargetLibraryInfoWrapperPass(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins          llvm::Triple(module->getTargetTriple()));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  module_passes.add(tliwp);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Try to fetch the target triple from the module. If not present, set a
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // default target triple.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::Triple target_triple = llvm::Triple(module->getTargetTriple());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (target_triple.getArch() == llvm::Triple::UnknownArch) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    LOG(WARNING) << "target triple not found in the module";
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    target_triple = llvm::Triple("nvptx64-unknown-unknown");
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Figure out the exact name of the processor as known to the NVPTX backend
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // from the gpu_architecture flag.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  ValidateGPUArchitecture(flags->gpu_architecture);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  string cpu_name = gpu_info_map[flags->gpu_architecture].sm_name;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::unique_ptr<llvm::TargetMachine> target_machine =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      GetTargetMachine(target_triple, cpu_name);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  module_passes.add(llvm::createTargetTransformInfoWrapperPass(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      target_machine->getTargetIRAnalysis()));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // The LLVM IR verifier performs sanity checking on the IR. This helps
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // discover problems and report them in a meaningful manner, rather than let
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // later passes report obscure assertions becasue of unfulfilled invariants.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  module_passes.add(llvm::createVerifierPass());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Create the function-level pass manager. It needs data layout information
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // too.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::legacy::FunctionPassManager function_passes(module);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  AddOptimizationPasses(flags->opt_level, /*size_level=*/0,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                        target_machine.get(), &module_passes, &function_passes);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Loop unrolling exposes more opportunites for SROA. Therefore, we run SROA
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // again after the standard optimization passes [http://b/13329423].
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // TODO(jingyue): SROA may further expose more optimization opportunites, such
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // as more precise alias analysis and more function inlining (SROA may change
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // the inlining cost of a function). For now, running SROA already emits good
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // enough code for the evaluated benchmarks. We may want to run more
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // optimizations later.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (flags->opt_level > 0) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // LLVM's optimizer turns on SROA when the optimization level is greater
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // than 0. We mimic this behavior here.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    module_passes.add(llvm::createSROAPass());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Verify that the module is well formed after optimizations ran.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  module_passes.add(llvm::createVerifierPass());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Done populating the pass managers. Now run them.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  function_passes.doInitialization();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  for (auto func = module->begin(); func != module->end(); ++func) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    function_passes.run(*func);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  function_passes.doFinalization();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  module_passes.run(*module);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (!flags->dump_temp_products_to.empty()) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    string optimized_filename =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins        MakeNameForTempProduct(module->getModuleIdentifier(), "optimized.bc");
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    LOG(INFO) << "dumping bitcode after optimizations to: "
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins              << optimized_filename;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    EmitBitcodeToFile(*module, optimized_filename);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Finally, produce PTX.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  return EmitModuleToPTX(module, target_machine.get());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// One-time module initializer.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Must be called only once -- DO NOT CALL DIRECTLY.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsvoid GPUBackendInit() {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Feed all customized flags here, so we can override them with llvm_cl_opts
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // without redeploy the compiler for development purpose.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // This flag tunes a threshold in branch folding. The default threshold, which
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // is one, is not suitable for CUDA programs where branches are more expensive
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // than for CPU programs. Setting the threshold to 2 improves the latency of
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // TwoDPatchDotProductKernel_IND_3_ND_48 by over 5%, and does not affect the
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // latency of other benchmarks so far.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  //
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // I also tried setting this threshold to other values:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // * 3-6 gives similar results as 2;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // * >6 start hurting the performance of at least dot product kernels.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  //
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // TODO(jingyue): The current threshold only considers the numbr of IR
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // instructions which do not accurately reflect the true cost. We need a
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // better cost model.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  FeedLLVMWithFlags({"-bonus-inst-threshold=2"});
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // TODO(b/22073864): Increase limit when scan memory dependency.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // This helps to reduce more redundant load instructions.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  //
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // The specific value is currently large enough for s3d in shoc benchmark,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // which contains a lot of load instructions and many arithmetic instructions
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // between those loads.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  FeedLLVMWithFlags({"-memdep-block-scan-limit=500"});
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  legacy_flags::GpuBackendLibFlags* flags =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      legacy_flags::GetGpuBackendLibFlags();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (!flags->llvm_cl_opts.empty()) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    std::vector<string> opts =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins        tensorflow::str_util::Split(flags->llvm_cl_opts, ',');
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    FeedLLVMWithFlags(opts);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (flags->llvm_dump_passes) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // Enable LLVM pass debugging dump. LLVM dumps this information when a pass
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // manager is initialized for execution. It's done to stderr (this is
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // hardcoded within LLVM to the dbgs() stream, we can't change it from the
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // outside).
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    FeedLLVMWithFlags({"-debug-pass=Arguments"});
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Initialize the NVPTX target; it's the only target we link with, so call its
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // specific initialization functions instead of the catch-all InitializeAll*.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  LLVMInitializeNVPTXTarget();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  LLVMInitializeNVPTXTargetInfo();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  LLVMInitializeNVPTXTargetMC();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  LLVMInitializeNVPTXAsmPrinter();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Initialize the LLVM optimization passes.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::PassRegistry* registry = llvm::PassRegistry::getPassRegistry();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  InitializePasses(registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}  // namespace
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsStatusOr<string> CompileToPtx(llvm::Module* module,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                              const string& libdevice_dir_path) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  static std::once_flag backend_init_flag;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::call_once(backend_init_flag, GPUBackendInit);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  string ptx;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    ScopedLoggingTimer compilation_timer(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins        "Compile module " + llvm_ir::AsString(module->getName()),
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins        /*vlog_level=*/2);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    TF_ASSIGN_OR_RETURN(ptx, CompileModuleToPtx(module, libdevice_dir_path));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  return ptx;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}  // namespace gpu
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}  // namespace xla