xla/service/backend.h

1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins/* Copyright 2017 The TensorFlow Authors. All Rights Reserved.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsLicensed under the Apache License, Version 2.0 (the "License");
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsyou may not use this file except in compliance with the License.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsYou may obtain a copy of the License at
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    http://www.apache.org/licenses/LICENSE-2.0
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsUnless required by applicable law or agreed to in writing, software
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsdistributed under the License is distributed on an "AS IS" BASIS,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsSee the License for the specific language governing permissions and
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinslimitations under the License.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins==============================================================================*/
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#ifndef TENSORFLOW_COMPILER_XLA_SERVICE_BACKEND_H_
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#define TENSORFLOW_COMPILER_XLA_SERVICE_BACKEND_H_
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <map>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <memory>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <string>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <vector>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/compiler.h"
7d3497a639670d9c31d09185ff97b852f0fbe101HyoukJoong Lee#include "tensorflow/compiler/xla/service/computation_placer.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/device_memory_allocator.h"
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower#include "tensorflow/compiler/xla/service/pool.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/transfer_manager.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/statusor.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/types.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/lib/gtl/array_slice.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/lib/strings/strcat.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/platform/mutex.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/platform/stream_executor_no_cuda.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/platform/thread_annotations.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsnamespace Eigen {
b4d091d5a372f97af48192cb431985b20b447158Peter Hawkinsstruct ThreadPoolDevice;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsnamespace xla {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower// Options to configure the backend when it is created.
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlowerclass BackendOptions {
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower public:
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower  // Set the platform backing the backend, or nullptr for the default platform.
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower  BackendOptions& set_platform(perftools::gputools::Platform* platform);
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower  perftools::gputools::Platform* platform() const;
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower  // Sets the thread pool size for parallel execution of an individual operator.
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower  // The default value of -1 will result in initializing the thread pool with
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower  // the number of threads equal to the number of cores in the system.
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower  BackendOptions& set_intra_op_parallelism_threads(int num_threads);
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower  int intra_op_parallelism_threads() const;
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower private:
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower  perftools::gputools::Platform* platform_ = nullptr;
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower  int intra_op_parallelism_threads_ = -1;
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower};
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Class which encapsulates an XLA backend. It includes everything necessary
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// to compile and execute computations on a particular platform.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins//
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// It also offers a pooling API for creation/use of initialized streams:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins//
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower//    StreamPtr stream = backend->BorrowStream().ConsumeValueOrDie();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsclass Backend {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins public:
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower  using StreamPtr = Pool<perftools::gputools::Stream>::SmartPtr;
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower
35af7113de0f15360246234f76e5dda5e927c556Eli Bendersky  // Creates a new backend.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  static StatusOr<std::unique_ptr<Backend>> CreateBackend(
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower      const BackendOptions& options);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Creates a backend for the default platform. The default platform is defined
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // in PlatformUtil.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  static StatusOr<std::unique_ptr<Backend>> CreateDefaultBackend();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  ~Backend();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Accessors for the various objects.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  perftools::gputools::Platform* platform() const { return platform_; }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  Compiler* compiler() const { return compiler_; }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  DeviceMemoryAllocator* memory_allocator() const {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return memory_allocator_.get();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  TransferManager* transfer_manager() const { return transfer_manager_; }
7d3497a639670d9c31d09185ff97b852f0fbe101HyoukJoong Lee  ComputationPlacer* computation_placer() const { return computation_placer_; }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Returns the number of devices of the platform type which are visible. Not
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // all of these devices may be usable by XLA.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  int device_count() const { return stream_executors_.size(); }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Returns the device ordinal number of the default device.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  int default_device_ordinal() const;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Returns stream executors of all supported devices for this backend. The
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // executors are ordered by the device ordinal.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  const std::vector<perftools::gputools::StreamExecutor*>& stream_executors()
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      const {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return stream_executors_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
7d3497a639670d9c31d09185ff97b852f0fbe101HyoukJoong Lee  // Returns the stream executor for the given device ordinal.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  StatusOr<perftools::gputools::StreamExecutor*> stream_executor(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      int device_ordinal) const;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
7d3497a639670d9c31d09185ff97b852f0fbe101HyoukJoong Lee  // Returns the stream executor for the default device ordinal. This stream
7d3497a639670d9c31d09185ff97b852f0fbe101HyoukJoong Lee  // executor can only be used when the number of computations is 1 (replication
7d3497a639670d9c31d09185ff97b852f0fbe101HyoukJoong Lee  // can be > 1).
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  perftools::gputools::StreamExecutor* default_stream_executor() const {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    CHECK(!stream_executors_.empty());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return stream_executors_[0];
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower  // Borrows a stream for use by the caller, either by grabbing it from an
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // internal pool, or by constructing/initializating it, and returns the result
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // to the caller.
112a534b50c0a23dec95382941ac0556f2866b29A. Unique TensorFlower  StatusOr<StreamPtr> BorrowStream(int device_ordinal);
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower  StatusOr<StreamPtr> BorrowStream(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      perftools::gputools::StreamExecutor* executor);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
112a534b50c0a23dec95382941ac0556f2866b29A. Unique TensorFlower  // Returns a function to borrow a stream, as `BorrowStream` above does.
112a534b50c0a23dec95382941ac0556f2866b29A. Unique TensorFlower  // Purely for convenience, the caller could rather make this anonymous
112a534b50c0a23dec95382941ac0556f2866b29A. Unique TensorFlower  // function itself.
112a534b50c0a23dec95382941ac0556f2866b29A. Unique TensorFlower  std::function<StatusOr<StreamPtr>(int)> StreamBorrower() {
112a534b50c0a23dec95382941ac0556f2866b29A. Unique TensorFlower    return [this](int device_ordinal) { return BorrowStream(device_ordinal); };
112a534b50c0a23dec95382941ac0556f2866b29A. Unique TensorFlower  }
112a534b50c0a23dec95382941ac0556f2866b29A. Unique TensorFlower
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Returns whether the given device ordinal of the backend is supported.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  bool device_ordinal_supported(int device_ordinal) const {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return (device_ordinal >= 0 && device_ordinal < device_count() &&
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins            stream_executors_[device_ordinal] != nullptr);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Return a string identifier for the given device, eg: "GPU:3".
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  string device_name(int device_ordinal) const {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return tensorflow::strings::StrCat(platform_->Name(), ":", device_ordinal);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Returns true if the devices with the given ordinals are equivalent from
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // XLA's perspective. That is, an executable compiled for one device would
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // be equivalent to an executable compiled for the other.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  StatusOr<bool> devices_equivalent(int device_ordinal_a, int device_ordinal_b);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // For the host platform, returns the threadpool to use when scheduling
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // parallel operators. For other platforms, returns NULL.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  tensorflow::thread::ThreadPool* inter_op_thread_pool() const;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // For the host platform, returns the configured eigen threadpool device to be
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // used for scheduling work. For other platforms, returns NULL.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  const Eigen::ThreadPoolDevice* eigen_intra_op_thread_pool_device() const;
a20ebced22db1be959cdc9875f1a797fd3367712A. Unique TensorFlower  tensorflow::thread::ThreadPool* eigen_intra_op_thread_pool() const;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
99e1b19ceba32b8354dddc2841b81864c9ba96bbJacques Pienaar  // Resets the devices associated with this backend.
99e1b19ceba32b8354dddc2841b81864c9ba96bbJacques Pienaar  Status ResetDevices();
99e1b19ceba32b8354dddc2841b81864c9ba96bbJacques Pienaar
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins private:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  struct EigenThreadPoolWrapper;
35af7113de0f15360246234f76e5dda5e927c556Eli Bendersky  Backend(perftools::gputools::Platform* platform, Compiler* compiler,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins          tensorflow::gtl::ArraySlice<perftools::gputools::StreamExecutor*>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins              stream_executors,
7d3497a639670d9c31d09185ff97b852f0fbe101HyoukJoong Lee          TransferManager* transfer_manager,
7d3497a639670d9c31d09185ff97b852f0fbe101HyoukJoong Lee          ComputationPlacer* computation_placer,
7d3497a639670d9c31d09185ff97b852f0fbe101HyoukJoong Lee          int intra_op_parallelism_threads);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  Backend(const Backend&) = delete;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  Backend& operator=(const Backend&) = delete;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  perftools::gputools::Platform* platform_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  Compiler* compiler_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  TransferManager* transfer_manager_;
7d3497a639670d9c31d09185ff97b852f0fbe101HyoukJoong Lee  ComputationPlacer* computation_placer_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Vector of stream executors. stream_executors_[0] is the default executor.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::vector<perftools::gputools::StreamExecutor*> stream_executors_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
414470329b203158a7ac670e99d73e7d04dbd724Jacques Pienaar  tensorflow::mutex mu_;
414470329b203158a7ac670e99d73e7d04dbd724Jacques Pienaar
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower  // Mapping from stream executor to stream pools, used by `BorrowStream` above.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::map<perftools::gputools::StreamExecutor*,
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower           Pool<perftools::gputools::Stream>>
414470329b203158a7ac670e99d73e7d04dbd724Jacques Pienaar      stream_pools_ GUARDED_BY(mu_);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // The default memory allocator to use.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::unique_ptr<StreamExecutorMemoryAllocator> memory_allocator_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // For the CPU backend, a threadpool for scheduling parallel operators.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::unique_ptr<tensorflow::thread::ThreadPool> inter_op_thread_pool_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // For the CPU backend, an Eigen threadpool device for use by Eigen code.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::unique_ptr<EigenThreadPoolWrapper> intra_op_thread_pool_wrapper_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins};
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}  // namespace xla
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#endif  // TENSORFLOW_COMPILER_XLA_SERVICE_BACKEND_H_