xla/service/backend.h

1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins/* Copyright 2017 The TensorFlow Authors. All Rights Reserved.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsLicensed under the Apache License, Version 2.0 (the "License");
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsyou may not use this file except in compliance with the License.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsYou may obtain a copy of the License at
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    http://www.apache.org/licenses/LICENSE-2.0
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsUnless required by applicable law or agreed to in writing, software
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsdistributed under the License is distributed on an "AS IS" BASIS,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsSee the License for the specific language governing permissions and
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinslimitations under the License.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins==============================================================================*/
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#ifndef TENSORFLOW_COMPILER_XLA_SERVICE_BACKEND_H_
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#define TENSORFLOW_COMPILER_XLA_SERVICE_BACKEND_H_
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <map>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <memory>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <string>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include <vector>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/compiler.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/device_memory_allocator.h"
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower#include "tensorflow/compiler/xla/service/pool.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/transfer_manager.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/statusor.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/types.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/lib/gtl/array_slice.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/lib/strings/strcat.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/platform/mutex.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/platform/stream_executor_no_cuda.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/platform/thread_annotations.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsnamespace Eigen {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsclass ThreadPoolDevice;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsnamespace xla {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// Class which encapsulates an XLA backend. It includes everything necessary
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// to compile and execute computations on a particular platform.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins//
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// It also offers a pooling API for creation/use of initialized streams:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins//
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower//    StreamPtr stream = backend->BorrowStream().ConsumeValueOrDie();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsclass Backend {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins public:
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower  using StreamPtr = Pool<perftools::gputools::Stream>::SmartPtr;
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // The number of streams we create for the pool at initialization time.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  static constexpr int kInitialStreamsToPool = 8;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Creates a new backend for the given platform with the given number of
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // replicas. A value of -1 means to use the flag value.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  static StatusOr<std::unique_ptr<Backend>> CreateBackend(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      perftools::gputools::Platform* platform, int64 replica_count = -1);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Creates a backend for the default platform. The default platform is defined
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // in PlatformUtil.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  static StatusOr<std::unique_ptr<Backend>> CreateDefaultBackend();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  ~Backend();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Accessors for the various objects.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  perftools::gputools::Platform* platform() const { return platform_; }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  Compiler* compiler() const { return compiler_; }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  DeviceMemoryAllocator* memory_allocator() const {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return memory_allocator_.get();
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  TransferManager* transfer_manager() const { return transfer_manager_; }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Returns the number of devices of the platform type which are visible. Not
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // all of these devices may be usable by XLA.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  int device_count() const { return stream_executors_.size(); }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Returns the device ordinal number of the default device.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  int default_device_ordinal() const;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Returns stream executors of all supported devices for this backend. The
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // executors are ordered by the device ordinal.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  const std::vector<perftools::gputools::StreamExecutor*>& stream_executors()
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      const {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return stream_executors_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Returns the replicas for the default stream executor.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  //
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // When the number of replicas is R, the first R stream executors are assigned
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // to the replicas of the default stream executor.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::vector<perftools::gputools::StreamExecutor*> Replicas() const;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Returns the replicas for the given device_ordinal. The given device ordinal
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // is considered to be the first device ordinal among the replicas. Returns an
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // error status if the stream executor for the given given device ordinal does
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // not exist or if there are not enough stream executors for the replicas.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  StatusOr<std::vector<perftools::gputools::StreamExecutor*>> Replicas(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      int device_ordinal) const;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Return the stream executor for the given device ordinal.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  StatusOr<perftools::gputools::StreamExecutor*> stream_executor(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      int device_ordinal) const;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Return the stream executor for the default device ordinal.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  perftools::gputools::StreamExecutor* default_stream_executor() const {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    CHECK(!stream_executors_.empty());
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return stream_executors_[0];
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower  // Primes the internal pool of streams for BorrowStream with n initialized
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower  // stream instances.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  tensorflow::Status PoolStreams(int n,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins                                 perftools::gputools::StreamExecutor* executor);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower  // Borrows a stream for use by the caller, either by grabbing it from an
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // internal pool, or by constructing/initializating it, and returns the result
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // to the caller.
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower  StatusOr<StreamPtr> BorrowStream(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      perftools::gputools::StreamExecutor* executor);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Returns whether the given device ordinal of the backend is supported.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  bool device_ordinal_supported(int device_ordinal) const {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return (device_ordinal >= 0 && device_ordinal < device_count() &&
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins            stream_executors_[device_ordinal] != nullptr);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Return a string identifier for the given device, eg: "GPU:3".
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  string device_name(int device_ordinal) const {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    return tensorflow::strings::StrCat(platform_->Name(), ":", device_ordinal);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  }
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Returns true if the devices with the given ordinals are equivalent from
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // XLA's perspective. That is, an executable compiled for one device would
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // be equivalent to an executable compiled for the other.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  StatusOr<bool> devices_equivalent(int device_ordinal_a, int device_ordinal_b);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // For the host platform, returns the threadpool to use when scheduling
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // parallel operators. For other platforms, returns NULL.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  tensorflow::thread::ThreadPool* inter_op_thread_pool() const;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // For the host platform, returns the configured eigen threadpool device to be
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // used for scheduling work. For other platforms, returns NULL.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  const Eigen::ThreadPoolDevice* eigen_intra_op_thread_pool_device() const;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
99e1b19ceba32b8354dddc2841b81864c9ba96bbJacques Pienaar  // Resets the devices associated with this backend.
99e1b19ceba32b8354dddc2841b81864c9ba96bbJacques Pienaar  Status ResetDevices();
99e1b19ceba32b8354dddc2841b81864c9ba96bbJacques Pienaar
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins private:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  struct EigenThreadPoolWrapper;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  Backend(int64 replica_count, perftools::gputools::Platform* platform,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins          Compiler* compiler,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins          tensorflow::gtl::ArraySlice<perftools::gputools::StreamExecutor*>
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins              stream_executors,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins          TransferManager* transfer_manager);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  Backend(const Backend&) = delete;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  Backend& operator=(const Backend&) = delete;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  perftools::gputools::Platform* platform_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  Compiler* compiler_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  TransferManager* transfer_manager_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  int64 replica_count_ = -1;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Vector of stream executors. stream_executors_[0] is the default executor.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::vector<perftools::gputools::StreamExecutor*> stream_executors_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower  // Mapping from stream executor to stream pools, used by `BorrowStream` above.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::map<perftools::gputools::StreamExecutor*,
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower           Pool<perftools::gputools::Stream>>
61197393ab39929e945e9adf1378659a5c2bbab1A. Unique TensorFlower      stream_pools_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // The default memory allocator to use.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::unique_ptr<StreamExecutorMemoryAllocator> memory_allocator_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // For the CPU backend, a threadpool for scheduling parallel operators.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::unique_ptr<tensorflow::thread::ThreadPool> inter_op_thread_pool_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // For the CPU backend, an Eigen threadpool device for use by Eigen code.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  std::unique_ptr<EigenThreadPoolWrapper> intra_op_thread_pool_wrapper_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins};
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}  // namespace xla
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#endif  // TENSORFLOW_COMPILER_XLA_SERVICE_BACKEND_H_