core/kernels/quantized_matmul_op.cc

122cdce33e3e0a01a7f82645617317530aa571fbA. Unique TensorFlower/* Copyright 2015 The TensorFlow Authors. All Rights Reserved.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete WardenLicensed under the Apache License, Version 2.0 (the "License");
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardenyou may not use this file except in compliance with the License.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete WardenYou may obtain a copy of the License at
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    http://www.apache.org/licenses/LICENSE-2.0
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete WardenUnless required by applicable law or agreed to in writing, software
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardendistributed under the License is distributed on an "AS IS" BASIS,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete WardenWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete WardenSee the License for the specific language governing permissions and
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardenlimitations under the License.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden==============================================================================*/
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden// Implements a quantized eight-bit version of the matmul operation.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden#include "external/gemmlowp/public/gemmlowp.h"
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden#include "tensorflow/contrib/quantization/kernels/quantization_utils.h"
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden#include "tensorflow/contrib/quantization/kernels/reference_gemm.h"
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden#include "tensorflow/core/framework/op_kernel.h"
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden#include "tensorflow/core/framework/tensor.h"
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden#include "tensorflow/core/lib/core/errors.h"
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardennamespace tensorflow {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden// We have to break this out as a separate function because there are multiple
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden// combinations of transpose attributes we need to support, and they have to be
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden// compile-time constants to work with the templates used internally.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardentemplate <bool TransposeA, bool TransposeB, bool TransposeC>
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlowervoid GemmlowpMultiply(OpKernelContext* op_context, const quint8* a_data,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                      const quint8* b_data, qint32* c_data, int m, int n, int k,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                      int offset_a, int offset_b, int lda, int ldb, int ldc) {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  const uint8* a_data_as_uint8 = &(a_data->value);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  const uint8* b_data_as_uint8 = &(b_data->value);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  int32* c_data_as_int32 = &(c_data->value);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  static const gemmlowp::MapOrder ResultOrder =
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      !TransposeC ? gemmlowp::MapOrder::RowMajor : gemmlowp::MapOrder::ColMajor;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  static const gemmlowp::MapOrder LhsOrder =
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      !TransposeA ? gemmlowp::MapOrder::RowMajor : gemmlowp::MapOrder::ColMajor;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  static const gemmlowp::MapOrder RhsOrder =
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      !TransposeB ? gemmlowp::MapOrder::RowMajor : gemmlowp::MapOrder::ColMajor;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  gemmlowp::MatrixMap<const std::uint8_t, LhsOrder> lhs(a_data_as_uint8, m, k,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                                                        lda);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  gemmlowp::MatrixMap<const std::uint8_t, RhsOrder> rhs(b_data_as_uint8, k, n,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                                                        ldb);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  gemmlowp::MatrixMap<std::int32_t, ResultOrder> result(c_data_as_int32, m, n,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                                                        ldc);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  const std::tuple<> empty_pipeline = {};
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower  auto& worker_threads =
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower      *(op_context->device()->tensorflow_cpu_worker_threads());
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower  TensorflowGemmContext context(worker_threads.num_threads,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                worker_threads.workers);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  gemmlowp::GemmWithOutputPipeline<std::uint8_t, std::int32_t,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                                   gemmlowp::DefaultL8R8BitDepthParams>(
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      &context, lhs, rhs, &result, -offset_a, -offset_b, empty_pipeline);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden}
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardentemplate <class T1, class T2, class Toutput>
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardenclass QuantizedMatMulOp : public OpKernel {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden public:
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  explicit QuantizedMatMulOp(OpKernelConstruction* context)
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      : OpKernel(context) {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES_OK(context, context->GetAttr("transpose_a", &transpose_a_));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES_OK(context, context->GetAttr("transpose_b", &transpose_b_));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  }
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  void Compute(OpKernelContext* context) override {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const Tensor& a = context->input(0);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const Tensor& b = context->input(1);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const float min_a = context->input(2).flat<float>()(0);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const float max_a = context->input(3).flat<float>()(0);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const float min_b = context->input(4).flat<float>()(0);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const float max_b = context->input(5).flat<float>()(0);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    // Make sure that we have valid quantization ranges for the input buffers.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    // If the difference between the min and max is negative or zero, it makes
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    // it hard to do meaningful intermediate operations on the values.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES(context, (max_a > min_a),
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                errors::InvalidArgument("max_a must be larger than min_a."));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES(context, (max_b > min_b),
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                errors::InvalidArgument("max_b must be larger than min_b."));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const int32 offset_a = FloatToQuantizedUnclamped<T1>(0.0f, min_a, max_a);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const int32 offset_b = FloatToQuantizedUnclamped<T2>(0.0f, min_b, max_b);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const int32 offset_c = 0;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const int32 mult_c = 1;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const int32 shift_c = 0;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    // Check that the dimensions of the two matrices are valid.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES(context, TensorShapeUtils::IsMatrix(a.shape()),
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                errors::InvalidArgument("In[0] is not a matrix"));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES(context, TensorShapeUtils::IsMatrix(b.shape()),
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                errors::InvalidArgument("In[1] is not a matrix"));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    Eigen::array<Eigen::IndexPair<Eigen::DenseIndex>, 1> dim_pair;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    dim_pair[0].first = transpose_a_ ? 0 : 1;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    dim_pair[0].second = transpose_b_ ? 1 : 0;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES(context,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                a.dim_size(dim_pair[0].first) == b.dim_size(dim_pair[0].second),
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                errors::InvalidArgument("Matrix size-compatible: In[0]: ",
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                                        a.shape().DebugString(), ", In[1]: ",
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                                        b.shape().DebugString()));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES(context, ((shift_c >= 0) && (shift_c <= 31)),
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                errors::InvalidArgument("shift_c must be between 0 and 31, "
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                                        "inclusive."));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    int a_dim_remaining = 1 - dim_pair[0].first;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    int b_dim_remaining = 1 - dim_pair[0].second;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    TensorShape out_shape(
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        {a.dim_size(a_dim_remaining), b.dim_size(b_dim_remaining)});
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    Tensor* c = nullptr;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES_OK(context, context->allocate_output(0, out_shape, &c));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    CHECK(c);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const T1* a_data = a.flat<T1>().data();
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const T2* b_data = b.flat<T2>().data();
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    Toutput* c_data = c->flat<Toutput>().data();
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const bool transpose_c = false;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const size_t m = a.dim_size(a_dim_remaining);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const size_t n = b.dim_size(b_dim_remaining);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const size_t k = a.dim_size(dim_pair[0].first);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const size_t lda = a.dim_size(1);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const size_t ldb = b.dim_size(1);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const size_t ldc = n;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    // The gemmlowp optimized library only works for a particular set of data
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    // types, so check if we meet those requirements and
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    // fall back to a slower reference implementation if not.
19376f7010507f5f690bba2176a429ee3436afebA. Unique TensorFlower    if (std::is_same<T1, quint8>() && std::is_same<T2, quint8>() &&
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        std::is_same<Toutput, qint32>() && (offset_c == 0) && (mult_c == 1) &&
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        (shift_c == 0) && (transpose_c == false)) {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      if (transpose_a_) {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        if (transpose_b_) {
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower          GemmlowpMultiply<true, true, false>(context, a_data, b_data, c_data,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                              m, n, k, offset_a, offset_b, lda,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                              ldb, ldc);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        } else {
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower          GemmlowpMultiply<true, false, false>(context, a_data, b_data, c_data,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                               m, n, k, offset_a, offset_b, lda,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                               ldb, ldc);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        }
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      } else {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        if (transpose_b_) {
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower          GemmlowpMultiply<false, true, false>(context, a_data, b_data, c_data,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                               m, n, k, offset_a, offset_b, lda,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                               ldb, ldc);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        } else {
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower          GemmlowpMultiply<false, false, false>(context, a_data, b_data, c_data,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                                m, n, k, offset_a, offset_b,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                                lda, ldb, ldc);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        }
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      }
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    } else {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      ReferenceGemm<T1, T2, Toutput>(
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden          transpose_a_, transpose_b_, transpose_c, m, n, k, a_data, offset_a,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden          lda, b_data, offset_b, ldb, c_data, shift_c, offset_c, mult_c, ldc);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    }
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    float min_c_value;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    float max_c_value;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    QuantizationRangeForMultiplication<T1, T2, Toutput>(
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        min_a, max_a, min_b, max_b, &min_c_value, &max_c_value);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    Tensor* c_min = nullptr;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES_OK(context, context->allocate_output(1, {}, &c_min));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    c_min->flat<float>()(0) = min_c_value;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    Tensor* c_max = nullptr;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES_OK(context, context->allocate_output(2, {}, &c_max));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    c_max->flat<float>()(0) = max_c_value;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  }
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden private:
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  bool transpose_a_;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  bool transpose_b_;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden};
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete WardenREGISTER_KERNEL_BUILDER(Name("QuantizedMatMul")
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                            .Device(DEVICE_CPU)
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                            .TypeConstraint<quint8>("T1")
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                            .TypeConstraint<quint8>("T2")
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                            .TypeConstraint<qint32>("Toutput"),
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                        QuantizedMatMulOp<quint8, quint8, qint32>);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden}  // namespace tensorflow