service/gpu/gemm_thunk.h

1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins/* Copyright 2017 The TensorFlow Authors. All Rights Reserved.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsLicensed under the Apache License, Version 2.0 (the "License");
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsyou may not use this file except in compliance with the License.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsYou may obtain a copy of the License at
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins    http://www.apache.org/licenses/LICENSE-2.0
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsUnless required by applicable law or agreed to in writing, software
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsdistributed under the License is distributed on an "AS IS" BASIS,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter HawkinsSee the License for the specific language governing permissions and
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinslimitations under the License.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins==============================================================================*/
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#ifndef TENSORFLOW_COMPILER_XLA_SERVICE_GPU_GEMM_THUNK_H_
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#define TENSORFLOW_COMPILER_XLA_SERVICE_GPU_GEMM_THUNK_H_
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/buffer_assignment.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/gpu/buffer_allocations.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/gpu/gpu_executable.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/gpu/thunk.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/service/hlo_instruction.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/compiler/xla/xla_data.pb.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/lib/core/status.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#include "tensorflow/core/platform/stream_executor_no_cuda.h"
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsnamespace xla {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsnamespace gpu {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// This class stores everything that StreamExecutor needs to launch a BLAS gemm.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// It is generated by IrEmitter.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins//
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins// This is thread-compatible.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkinsclass GemmThunk : public Thunk {
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins public:
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Constructs a thunk that computes "output = lhs <dot> rhs" using BLAS gemm.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // transpose_lhs and transpose_rhs indicate whether gemm should transpose the
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // lhs and rhs operand. hlo_instruction is as in Thunk.
8ff1c465c87fc3967c9d480646fac6d6205f856cA. Unique TensorFlower  GemmThunk(const BufferAllocation::Slice& lhs_buffer,
8ff1c465c87fc3967c9d480646fac6d6205f856cA. Unique TensorFlower            const BufferAllocation::Slice& rhs_buffer,
8ff1c465c87fc3967c9d480646fac6d6205f856cA. Unique TensorFlower            const BufferAllocation::Slice& output_buffer,
8ff1c465c87fc3967c9d480646fac6d6205f856cA. Unique TensorFlower            const Shape& lhs_shape, const Shape& rhs_shape,
8ff1c465c87fc3967c9d480646fac6d6205f856cA. Unique TensorFlower            const Shape& output_shape, bool transpose_lhs, bool transpose_rhs,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins            const HloInstruction* hlo_instruction);
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  GemmThunk(const GemmThunk&) = delete;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  GemmThunk& operator=(const GemmThunk&) = delete;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  // Does the gemm operation for the thunk on "stream", which must be non-null.
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins  tensorflow::Status ExecuteOnStream(
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      const BufferAllocations& buffer_allocations,
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins      perftools::gputools::Stream* stream) override;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1a786ab335aabe9020cff4f0ab69a5844de70fbcJustin Lebar  // Returns true if we'll perform autotuning if run on the given stream.  If
1a786ab335aabe9020cff4f0ab69a5844de70fbcJustin Lebar  // so, we want the GPU to be quiescent during autotuning, so as not to
1a786ab335aabe9020cff4f0ab69a5844de70fbcJustin Lebar  // introduce noise in our results.
1a786ab335aabe9020cff4f0ab69a5844de70fbcJustin Lebar  bool ShouldHaltAllActivityBeforeRunning(
1a786ab335aabe9020cff4f0ab69a5844de70fbcJustin Lebar      perftools::gputools::Stream* stream) override {
1a786ab335aabe9020cff4f0ab69a5844de70fbcJustin Lebar    return autotune_results_.count(
1a786ab335aabe9020cff4f0ab69a5844de70fbcJustin Lebar               stream->parent()->GetDeviceDescription().name()) != 0;
1a786ab335aabe9020cff4f0ab69a5844de70fbcJustin Lebar  }
1a786ab335aabe9020cff4f0ab69a5844de70fbcJustin Lebar
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins private:
8ff1c465c87fc3967c9d480646fac6d6205f856cA. Unique TensorFlower  const BufferAllocation::Slice lhs_buffer_;
8ff1c465c87fc3967c9d480646fac6d6205f856cA. Unique TensorFlower  const BufferAllocation::Slice rhs_buffer_;
8ff1c465c87fc3967c9d480646fac6d6205f856cA. Unique TensorFlower  const BufferAllocation::Slice output_buffer_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
8ff1c465c87fc3967c9d480646fac6d6205f856cA. Unique TensorFlower  const Shape lhs_shape_;
8ff1c465c87fc3967c9d480646fac6d6205f856cA. Unique TensorFlower  const Shape rhs_shape_;
8ff1c465c87fc3967c9d480646fac6d6205f856cA. Unique TensorFlower  const Shape output_shape_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
8ff1c465c87fc3967c9d480646fac6d6205f856cA. Unique TensorFlower  const bool transpose_lhs_;
8ff1c465c87fc3967c9d480646fac6d6205f856cA. Unique TensorFlower  const bool transpose_rhs_;
01194694948eb883e99af597d9dbbf3fc9f5c9e2Justin Lebar
01194694948eb883e99af597d9dbbf3fc9f5c9e2Justin Lebar  // Maps device names (StreamExecutor::DeviceDescription::name()) to autotune
01194694948eb883e99af597d9dbbf3fc9f5c9e2Justin Lebar  // results.  The map's value is the best algorithm we've found for this thunk
01194694948eb883e99af597d9dbbf3fc9f5c9e2Justin Lebar  // on this device, or an error if none of the algorithms worked and we should
01194694948eb883e99af597d9dbbf3fc9f5c9e2Justin Lebar  // use the regular gemm without an algorithm.
01194694948eb883e99af597d9dbbf3fc9f5c9e2Justin Lebar  std::unordered_map<string,
01194694948eb883e99af597d9dbbf3fc9f5c9e2Justin Lebar                     StatusOr<::perftools::gputools::blas::AlgorithmType>>
01194694948eb883e99af597d9dbbf3fc9f5c9e2Justin Lebar      autotune_results_;
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins};
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}  // namespace gpu
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins}  // namespace xla
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins
1e67c90e2caceeff82d09793d1ef5fa0300d219bPeter Hawkins#endif  // TENSORFLOW_COMPILER_XLA_SERVICE_GPU_GEMM_THUNK_H_