gpu/llvm_gpu_backend/gpu_backend_lib.cc

1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins/* Copyright 2017 The TensorFlow Authors. All Rights Reserved.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsLicensed under the Apache License, Version 2.0 (the "License");
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsyou may not use this file except in compliance with the License.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsYou may obtain a copy of the License at
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    http://www.apache.org/licenses/LICENSE-2.0
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsUnless required by applicable law or agreed to in writing, software
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsdistributed under the License is distributed on an "AS IS" BASIS,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsSee the License for the specific language governing permissions and
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinslimitations under the License.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins==============================================================================*/
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/gpu/llvm_gpu_backend/gpu_backend_lib.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <map>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <memory>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <string>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <utility>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/ptr_util.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/gpu/llvm_gpu_backend/dump_ir_pass.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/gpu/llvm_gpu_backend/utils.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/llvm_ir/llvm_util.h"
abbb19bb9445ffee96ff2946083a3b5c8dadc0d0Eli Bendersky#include "tensorflow/compiler/xla/status_macros.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/util.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/ADT/STLExtras.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/ADT/StringMap.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/ADT/StringSet.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Analysis/TargetLibraryInfo.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Analysis/TargetTransformInfo.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Bitcode/BitcodeReader.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Bitcode/BitcodeWriter.h"
4e9fa6dcce4912a4797c48f4cb55d3564961bfcaA. Unique TensorFlower#include "llvm/CodeGen/CommandFlags.def"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/IR/LLVMContext.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/IR/LegacyPassManager.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/IR/Module.h"
69db15cc49f84baaff27a19d792102876e811c97A. Unique TensorFlower#include "llvm/IR/Verifier.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Linker/Linker.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/PassRegistry.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Support/CommandLine.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Support/FileSystem.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Support/FormattedStream.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Support/TargetRegistry.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Support/TargetSelect.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Support/ToolOutputFile.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Target/TargetMachine.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Transforms/IPO.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Transforms/IPO/AlwaysInliner.h"
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa#include "llvm/Transforms/IPO/Internalize.h"
69db15cc49f84baaff27a19d792102876e811c97A. Unique TensorFlower#include "llvm/Transforms/IPO/PassManagerBuilder.h"
69db15cc49f84baaff27a19d792102876e811c97A. Unique TensorFlower#include "llvm/Transforms/Scalar.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/types.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/lib/core/stringpiece.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/lib/io/path.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/lib/strings/str_util.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/lib/strings/stringprintf.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/platform/env.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/platform/logging.h"
0bd46f52dad251846996bf440177128a16d429c2Artem Belevich#include "tensorflow/core/platform/tracing.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsnamespace xla {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsnamespace gpu {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsnamespace {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Default inline threshold value to use in llvm.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsconst int kDefaultInlineThreshold = 1100;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar// Gets the libdevice filename for a particular compute capability.  When
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar// presented with a GPU we don't recognize, we just return the libdevice from
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar// compute_20.
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyenstatic string GetLibdeviceFilename(const string& libdevice_dir_path,
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen                                   std::pair<int, int> compute_capability) {
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen  // Since CUDA 9.0, all GPU versions are included in a single file
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen  const char* unified_libdevice_filename = "libdevice.10.bc";
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen  std::vector<string> unified_libdevice_files;
191825e63f341a4e7777b85254f616e541000d5cA. Unique TensorFlower  const tensorflow::Status status =
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen    tensorflow::Env::Default()->GetMatchingPaths(
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen      tensorflow::io::JoinPath(libdevice_dir_path, unified_libdevice_filename),
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen      &unified_libdevice_files);
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen  if (status.ok() && unified_libdevice_files.size() == 1) {
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen    return unified_libdevice_filename;
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen  }
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  // There are only four libdevice files: compute_{20,30,35,50}.  Each GPU
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  // version gets mapped to one of these.  Note in particular that sm_60 and
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  // sm_61 map to libdevice.compute_30.
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  static auto* m = new std::map<std::pair<int, int>, int>({{{2, 0}, 20},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{2, 1}, 20},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{3, 0}, 30},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{3, 2}, 30},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{3, 5}, 35},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{3, 7}, 35},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{5, 0}, 50},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{5, 2}, 50},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{5, 3}, 50},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{6, 0}, 30},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{6, 1}, 30},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{6, 2}, 30}});
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  int libdevice_version = 20;
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  auto it = m->find(compute_capability);
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  if (it != m->end()) {
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar    libdevice_version = it->second;
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  } else {
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar    LOG(WARNING) << "Unknown compute capability (" << compute_capability.first
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                 << ", " << compute_capability.second << ") ."
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                 << "Defaulting to libdevice for compute_" << libdevice_version;
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  }
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  return tensorflow::strings::StrCat("libdevice.compute_", libdevice_version,
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                     ".10.bc");
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar}
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar// Gets the GPU name as it's known to LLVM for a given compute capability.  If
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen// we see an unrecognized compute capability, we return "sm_30".
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebarstatic string GetSmName(std::pair<int, int> compute_capability) {
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  static auto* m = new std::map<std::pair<int, int>, int>({{{2, 0}, 20},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{2, 1}, 21},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{3, 0}, 30},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{3, 2}, 32},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{3, 5}, 35},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{3, 7}, 37},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{5, 0}, 50},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{5, 2}, 52},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{5, 3}, 53},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{6, 0}, 60},
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                                           {{6, 1}, 61},
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen                                                           {{6, 2}, 62},
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen                    // TODO: Change this to 70 once LLVM NVPTX supports it
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen                                                           {{7, 0}, 60}});
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen  int sm_version = 30;
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  auto it = m->find(compute_capability);
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  if (it != m->end()) {
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar    sm_version = it->second;
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  } else {
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar    LOG(WARNING) << "Unknown compute capability (" << compute_capability.first
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                 << ", " << compute_capability.second << ") ."
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                 << "Defaulting to telling LLVM that we're compiling for sm_"
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                 << sm_version;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  return tensorflow::strings::StrCat("sm_", sm_version);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Convenience function for producing a name of a temporary compilation product
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// from the input filename.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsstring MakeNameForTempProduct(const std::string& input_filename,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                              tensorflow::StringPiece extension) {
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky  return ReplaceFilenameExtension(
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky      tensorflow::io::Basename(llvm_ir::AsString(input_filename)), extension);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Initializes LLVM passes. Uses the PassRegistry mechanism.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsvoid InitializePasses(llvm::PassRegistry* pass_registry) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeCore(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeCodeGen(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeScalarOpts(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeObjCARCOpts(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeVectorization(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeIPO(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeAnalysis(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeTransformUtils(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeInstCombine(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeInstrumentation(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeTarget(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::initializeCodeGenPreparePass(*pass_registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Returns the TargetMachine, given a triple.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsstd::unique_ptr<llvm::TargetMachine> GetTargetMachine(
d45505fe0c7ab9a10f16682f54d0eb54c4776cd1Justin Lebar    llvm::Triple triple, tensorflow::StringPiece cpu_name,
d45505fe0c7ab9a10f16682f54d0eb54c4776cd1Justin Lebar    const HloModuleConfig& hlo_module_config) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::string error;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  const llvm::Target* target = TargetRegistry::lookupTarget("", triple, error);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (target == nullptr) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    LOG(FATAL) << "Unable to find Target for triple '" << triple.str() << "'"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins               << " -- " << error;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return nullptr;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  TargetOptions target_options = InitTargetOptionsFromCodeGenFlags();
abbb19bb9445ffee96ff2946083a3b5c8dadc0d0Eli Bendersky  llvm_ir::SetTargetOptions(
32e37a1ff2587e02fd35e316c0ac00dcc4e72d17Eli Bendersky      /*fast_math_enabled=*/hlo_module_config.debug_options()
32e37a1ff2587e02fd35e316c0ac00dcc4e72d17Eli Bendersky          .xla_enable_fast_math(),
abbb19bb9445ffee96ff2946083a3b5c8dadc0d0Eli Bendersky      &target_options);
d45505fe0c7ab9a10f16682f54d0eb54c4776cd1Justin Lebar
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky  // Enable FMA synthesis.
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky  target_options.AllowFPOpFusion = FPOpFusion::Fast;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Set the verbose assembly options.
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky  target_options.MCOptions.AsmVerbose = false;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // The selection of codegen optimization level is copied from function
34cbf161d7b1191ad5c1b3bc02fc52d338e8b175Jiri Simsa  // GetCodeGenOptLevel in //third_party/llvm/llvm/tools/opt/opt.cpp.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  CodeGenOpt::Level codegen_opt_level;
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky  switch (hlo_module_config.debug_options().xla_backend_optimization_level()) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    case 1:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      codegen_opt_level = CodeGenOpt::Less;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      break;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    case 2:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      codegen_opt_level = CodeGenOpt::Default;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      break;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    case 3:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      codegen_opt_level = CodeGenOpt::Aggressive;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      break;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    default:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      codegen_opt_level = CodeGenOpt::None;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  return WrapUnique(target->createTargetMachine(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      triple.str(), llvm_ir::AsStringRef(cpu_name), "+ptx42", target_options,
3f7c8210fea1a6559b1484b1933f59c1e844fdb1Benjamin Kramer      Optional<Reloc::Model>(RelocModel), Optional<CodeModel::Model>(CMModel),
3f7c8210fea1a6559b1484b1933f59c1e844fdb1Benjamin Kramer      codegen_opt_level));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Adds the standard LLVM optimization passes, based on the speed optimization
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// level (opt_level) and size optimization level (size_level). Both module
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// and function-level passes are added, so two pass managers are passed in and
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// modified by this function.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsvoid AddOptimizationPasses(unsigned opt_level, unsigned size_level,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                           llvm::TargetMachine* target_machine,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                           llvm::legacy::PassManagerBase* module_passes,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                           llvm::legacy::FunctionPassManager* function_passes) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  PassManagerBuilder builder;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.OptLevel = opt_level;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.SizeLevel = size_level;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (opt_level > 1) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    builder.Inliner = llvm::createFunctionInliningPass(kDefaultInlineThreshold);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  } else {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // Only inline functions marked with "alwaysinline".
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    builder.Inliner = llvm::createAlwaysInlinerLegacyPass();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.DisableUnitAtATime = false;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.DisableUnrollLoops = opt_level == 0;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.LoopVectorize = opt_level > 0;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.SLPVectorize = opt_level > 1 && size_level < 2;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // NVPTX's early-as-possible passes include NVVM reflect.
95c7dfc16063c77871257b4da8d8958c731d19c2A. Unique TensorFlower  target_machine->adjustPassManager(builder);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.populateFunctionPassManager(*function_passes);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  builder.populateModulePassManager(*module_passes);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Emits the given module to a bit code file.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsvoid EmitBitcodeToFile(const Module& module, tensorflow::StringPiece filename) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::error_code error_code;
321a2ebdf39b3e779a9c677aa6c1249a7aa70f49Benjamin Kramer  llvm::ToolOutputFile outfile(filename.ToString().c_str(), error_code,
321a2ebdf39b3e779a9c677aa6c1249a7aa70f49Benjamin Kramer                               llvm::sys::fs::F_None);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (error_code) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    LOG(FATAL) << "opening bitcode file for writing: " << error_code.message();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
f77256a164ccb173a85472286311644db11ae5b1Benjamin Kramer  llvm::WriteBitcodeToFile(module, outfile.os());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  outfile.keep();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Emits the given module to PTX. target_machine is an initialized TargetMachine
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// for the NVPTX target.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsstring EmitModuleToPTX(Module* module, llvm::TargetMachine* target_machine) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::string ptx;  // need a std::string instead of a ::string.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    llvm::raw_string_ostream stream(ptx);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    llvm::buffer_ostream pstream(stream);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // The extension is stripped by IrDumpingPassManager, so we need to
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // get creative to add a suffix.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    string module_id(llvm_ir::AsString(module->getModuleIdentifier()));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    IrDumpingPassManager codegen_passes(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins        ReplaceFilenameExtension(tensorflow::io::Basename(module_id),
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                                 "-nvptx.dummy"),
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky        "", false);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    codegen_passes.add(new llvm::TargetLibraryInfoWrapperPass(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins        llvm::Triple(module->getTargetTriple())));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    target_machine->addPassesToEmitFile(codegen_passes, pstream,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                                        llvm::TargetMachine::CGFT_AssemblyFile);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    codegen_passes.run(*module);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  return ptx;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// LLVM has an extensive flags mechanism of its own, which is only accessible
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// through the command line. Internal libraries within LLVM register parsers for
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// flags, with no other way to configure them except pass these flags.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// To do this programmatically, we invoke ParseCommandLineOptions manually with
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// a "fake argv".
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Note: setting flags with this method is stateful, since flags are just
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// static globals within LLVM libraries.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsvoid FeedLLVMWithFlags(const std::vector<string>& cl_opts) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::vector<const char*> fake_argv = {""};
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  for (const string& cl_opt : cl_opts) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    fake_argv.push_back(cl_opt.c_str());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::cl::ParseCommandLineOptions(fake_argv.size(), &fake_argv[0]);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Returns whether the module could use any libdevice functions. This function
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// may have false positives -- the module might not use libdevice even if this
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// function returns true.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsbool CouldNeedLibdevice(const llvm::Module& module) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  for (const llvm::Function& function : module.functions()) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // This is a conservative approximation -- not all such functions are in
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // libdevice.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    if (!function.isIntrinsic() && function.isDeclaration()) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      return true;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  return false;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Links libdevice into the given module if the module needs libdevice.
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebartensorflow::Status LinkLibdeviceIfNecessary(
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar    llvm::Module* module, std::pair<int, int> compute_capability,
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar    const string& libdevice_dir_path) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (!CouldNeedLibdevice(*module)) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return tensorflow::Status::OK();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::Linker linker(*module);
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  string libdevice_path = tensorflow::io::JoinPath(
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen      libdevice_dir_path, GetLibdeviceFilename(libdevice_dir_path,
a373b1f74215e44920bf9362a51bece530edf88aPatrick Nguyen                                               compute_capability));
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  TF_RETURN_IF_ERROR(tensorflow::Env::Default()->FileExists(libdevice_path));
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  VLOG(1) << "Linking with libdevice from: " << libdevice_path;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::unique_ptr<llvm::Module> libdevice_module =
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar      LoadIRModule(libdevice_path, &module->getContext());
00f8415dcada6e416fe67abb99675abbde16845dA. Unique TensorFlower  if (linker.linkInModule(
00f8415dcada6e416fe67abb99675abbde16845dA. Unique TensorFlower          std::move(libdevice_module), llvm::Linker::Flags::LinkOnlyNeeded,
00f8415dcada6e416fe67abb99675abbde16845dA. Unique TensorFlower          [](Module& M, const StringSet<>& GVS) {
00f8415dcada6e416fe67abb99675abbde16845dA. Unique TensorFlower            internalizeModule(M, [&M, &GVS](const GlobalValue& GV) {
00f8415dcada6e416fe67abb99675abbde16845dA. Unique TensorFlower              return !GV.hasName() || (GVS.count(GV.getName()) == 0);
00f8415dcada6e416fe67abb99675abbde16845dA. Unique TensorFlower            });
00f8415dcada6e416fe67abb99675abbde16845dA. Unique TensorFlower          })) {
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar    return tensorflow::errors::Internal(tensorflow::strings::StrCat(
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar        "Error linking libdevice from ", libdevice_path));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  return tensorflow::Status::OK();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsStatusOr<string> CompileModuleToPtx(llvm::Module* module,
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                    std::pair<int, int> compute_capability,
d45505fe0c7ab9a10f16682f54d0eb54c4776cd1Justin Lebar                                    const HloModuleConfig& hlo_module_config,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                                    const string& libdevice_dir_path) {
66fc99a3b53c2e77d1c8569e1597a0094b0f99a8Artem Belevich  // If the module has no functions or globals, there's nothing to compile. Just
66fc99a3b53c2e77d1c8569e1597a0094b0f99a8Artem Belevich  // return an empty string.
66fc99a3b53c2e77d1c8569e1597a0094b0f99a8Artem Belevich  if (module->empty() && module->global_empty()) {
66fc99a3b53c2e77d1c8569e1597a0094b0f99a8Artem Belevich    VLOG(2) << "Module '" << llvm_ir::AsString(module->getName())
66fc99a3b53c2e77d1c8569e1597a0094b0f99a8Artem Belevich            << "' is empty. Skipping compilation.";
66fc99a3b53c2e77d1c8569e1597a0094b0f99a8Artem Belevich    return string();
66fc99a3b53c2e77d1c8569e1597a0094b0f99a8Artem Belevich  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Link the input module with libdevice, to pull in implementations of some
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // builtins.
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  TF_RETURN_IF_ERROR(
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar      LinkLibdeviceIfNecessary(module, compute_capability, libdevice_dir_path));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Set the flush-denormals-to-zero flag on the module so the NVVM reflect pass
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // can access it.
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky  module->addModuleFlag(llvm::Module::Override, "nvvm-reflect-ftz",
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky                        hlo_module_config.debug_options().xla_gpu_ftz());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // If ftz is enabled, set it as an attribute on every function in the module.
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky  if (hlo_module_config.debug_options().xla_gpu_ftz()) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    for (llvm::Function& fn : *module) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      fn.addFnAttr("nvptx-f32ftz", "true");
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky  IrDumpingPassManager module_passes(module->getModuleIdentifier(), "", false);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Add an appropriate TargetLibraryInfo pass for the module's triple.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::TargetLibraryInfoWrapperPass* tliwp =
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      new llvm::TargetLibraryInfoWrapperPass(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins          llvm::Triple(module->getTargetTriple()));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  module_passes.add(tliwp);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Try to fetch the target triple from the module. If not present, set a
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // default target triple.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::Triple target_triple = llvm::Triple(module->getTargetTriple());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  if (target_triple.getArch() == llvm::Triple::UnknownArch) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    LOG(WARNING) << "target triple not found in the module";
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    target_triple = llvm::Triple("nvptx64-unknown-unknown");
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Figure out the exact name of the processor as known to the NVPTX backend
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // from the gpu_architecture flag.
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar  std::unique_ptr<llvm::TargetMachine> target_machine = GetTargetMachine(
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar      target_triple, GetSmName(compute_capability), hlo_module_config);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  module_passes.add(llvm::createTargetTransformInfoWrapperPass(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      target_machine->getTargetIRAnalysis()));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // The LLVM IR verifier performs sanity checking on the IR. This helps
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // discover problems and report them in a meaningful manner, rather than let
53cb26d05a5c2080d8022124178b1cc43a30ffe5A. Unique TensorFlower  // later passes report obscure assertions because of unfulfilled invariants.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  module_passes.add(llvm::createVerifierPass());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Create the function-level pass manager. It needs data layout information
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // too.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::legacy::FunctionPassManager function_passes(module);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky  int32 opt_level =
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky      hlo_module_config.debug_options().xla_backend_optimization_level();
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky
ac47dc166f290d631c156846039ac78f30f362afEli Bendersky  CHECK_GE(opt_level, 2)
ac47dc166f290d631c156846039ac78f30f362afEli Bendersky      << "The XLA GPU backend doesn't support unoptimized code generation";
ac47dc166f290d631c156846039ac78f30f362afEli Bendersky
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky  AddOptimizationPasses(opt_level,
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky                        /*size_level=*/0, target_machine.get(), &module_passes,
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky                        &function_passes);
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky
1b5235fd897f7ea5cffc715300f67b4dc852fa27Jonathan Hseu  // Loop unrolling exposes more opportunities for SROA. Therefore, we run SROA
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // again after the standard optimization passes [http://b/13329423].
d57572e996dce24abf4d9cf6ea04e7104b3d743bMartin Wicke  // TODO(jingyue): SROA may further expose more optimization opportunities such
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // as more precise alias analysis and more function inlining (SROA may change
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // the inlining cost of a function). For now, running SROA already emits good
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // enough code for the evaluated benchmarks. We may want to run more
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // optimizations later.
12efd3d0bbea953e52aee12eb5a3d5d2269ec16aEli Bendersky  if (opt_level > 0) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // LLVM's optimizer turns on SROA when the optimization level is greater
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    // than 0. We mimic this behavior here.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    module_passes.add(llvm::createSROAPass());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Verify that the module is well formed after optimizations ran.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  module_passes.add(llvm::createVerifierPass());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Done populating the pass managers. Now run them.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  function_passes.doInitialization();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  for (auto func = module->begin(); func != module->end(); ++func) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    function_passes.run(*func);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  function_passes.doFinalization();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  module_passes.run(*module);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Finally, produce PTX.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  return EmitModuleToPTX(module, target_machine.get());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// One-time module initializer.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Must be called only once -- DO NOT CALL DIRECTLY.
1e934ece7122cc623861a76ec3076f0dfb782225A. Unique TensorFlowervoid GPUBackendInit(const HloModuleConfig& hlo_module_config) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Feed all customized flags here, so we can override them with llvm_cl_opts
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // without redeploy the compiler for development purpose.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // This flag tunes a threshold in branch folding. The default threshold, which
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // is one, is not suitable for CUDA programs where branches are more expensive
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // than for CPU programs. Setting the threshold to 2 improves the latency of
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // TwoDPatchDotProductKernel_IND_3_ND_48 by over 5%, and does not affect the
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // latency of other benchmarks so far.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  //
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // I also tried setting this threshold to other values:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // * 3-6 gives similar results as 2;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // * >6 start hurting the performance of at least dot product kernels.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  //
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // TODO(jingyue): The current threshold only considers the numbr of IR
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // instructions which do not accurately reflect the true cost. We need a
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // better cost model.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  FeedLLVMWithFlags({"-bonus-inst-threshold=2"});
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // TODO(b/22073864): Increase limit when scan memory dependency.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // This helps to reduce more redundant load instructions.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  //
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // The specific value is currently large enough for s3d in shoc benchmark,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // which contains a lot of load instructions and many arithmetic instructions
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // between those loads.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  FeedLLVMWithFlags({"-memdep-block-scan-limit=500"});
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e934ece7122cc623861a76ec3076f0dfb782225A. Unique TensorFlower  llvm_ir::InitializeLLVMCommandLineOptions(hlo_module_config);
1e934ece7122cc623861a76ec3076f0dfb782225A. Unique TensorFlower
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Initialize the NVPTX target; it's the only target we link with, so call its
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // specific initialization functions instead of the catch-all InitializeAll*.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  LLVMInitializeNVPTXTarget();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  LLVMInitializeNVPTXTargetInfo();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  LLVMInitializeNVPTXTargetMC();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  LLVMInitializeNVPTXAsmPrinter();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Initialize the LLVM optimization passes.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  llvm::PassRegistry* registry = llvm::PassRegistry::getPassRegistry();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  InitializePasses(registry);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}  // namespace
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsStatusOr<string> CompileToPtx(llvm::Module* module,
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                              std::pair<int, int> compute_capability,
d45505fe0c7ab9a10f16682f54d0eb54c4776cd1Justin Lebar                              const HloModuleConfig& hlo_module_config,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                              const string& libdevice_dir_path) {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  static std::once_flag backend_init_flag;
1e934ece7122cc623861a76ec3076f0dfb782225A. Unique TensorFlower  std::call_once(backend_init_flag, GPUBackendInit, hlo_module_config);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  string ptx;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  {
0bd46f52dad251846996bf440177128a16d429c2Artem Belevich    tensorflow::port::Tracing::TraceMe annotation(
0bd46f52dad251846996bf440177128a16d429c2Artem Belevich        "Compiling IR", llvm_ir::AsString(module->getName()),
0bd46f52dad251846996bf440177128a16d429c2Artem Belevich        /*is_expensive=*/true);
b525ea6798175f4c95996a3666c70de5c00a9a0cJustin Lebar    XLA_SCOPED_LOGGING_TIMER("Compile module " +
b525ea6798175f4c95996a3666c70de5c00a9a0cJustin Lebar                             llvm_ir::AsString(module->getName()));
d45505fe0c7ab9a10f16682f54d0eb54c4776cd1Justin Lebar    TF_ASSIGN_OR_RETURN(
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar        ptx, CompileModuleToPtx(module, compute_capability, hlo_module_config,
7b02fa6a27022275517ed5b851b06ba19a11bdf0Justin Lebar                                libdevice_dir_path));
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  return ptx;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}  // namespace gpu
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}  // namespace xla