core/kernels/quantized_matmul_op.cc

122cdce33e3e0a01a7f82645617317530aa571fbA. Unique TensorFlower/* Copyright 2015 The TensorFlow Authors. All Rights Reserved.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete WardenLicensed under the Apache License, Version 2.0 (the "License");
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardenyou may not use this file except in compliance with the License.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete WardenYou may obtain a copy of the License at
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    http://www.apache.org/licenses/LICENSE-2.0
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete WardenUnless required by applicable law or agreed to in writing, software
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardendistributed under the License is distributed on an "AS IS" BASIS,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete WardenWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete WardenSee the License for the specific language governing permissions and
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardenlimitations under the License.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden==============================================================================*/
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden// Implements a quantized eight-bit version of the matmul operation.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower#define EIGEN_USE_THREADS
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower
c4b09b5df79625a70853fd66b5caa7dd92fb4d1fA. Unique TensorFlower#define GEMMLOWP_ALLOW_SLOW_SCALAR_FALLBACK
0811b0b6e0bae76489866d7649bdbb7ffdb4e3efKiril Gorovoy#include "public/gemmlowp.h"
3e3633c8b5e2817d502de6dd892c5495cb5e85a3A. Unique TensorFlower#include "tensorflow/core/framework/op_kernel.h"
3e3633c8b5e2817d502de6dd892c5495cb5e85a3A. Unique TensorFlower#include "tensorflow/core/framework/tensor.h"
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower#include "tensorflow/core/kernels/meta_support.h"
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower#include "tensorflow/core/kernels/quantization_utils.h"
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower#include "tensorflow/core/kernels/reference_gemm.h"
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden#include "tensorflow/core/lib/core/errors.h"
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardennamespace tensorflow {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden// We have to break this out as a separate function because there are multiple
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden// combinations of transpose attributes we need to support, and they have to be
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden// compile-time constants to work with the templates used internally.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardentemplate <bool TransposeA, bool TransposeB, bool TransposeC>
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlowervoid GemmlowpMultiply(OpKernelContext* op_context, const quint8* a_data,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                      const quint8* b_data, qint32* c_data, int m, int n, int k,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                      int offset_a, int offset_b, int lda, int ldb, int ldc) {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  const uint8* a_data_as_uint8 = &(a_data->value);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  const uint8* b_data_as_uint8 = &(b_data->value);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  int32* c_data_as_int32 = &(c_data->value);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  static const gemmlowp::MapOrder ResultOrder =
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      !TransposeC ? gemmlowp::MapOrder::RowMajor : gemmlowp::MapOrder::ColMajor;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  static const gemmlowp::MapOrder LhsOrder =
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      !TransposeA ? gemmlowp::MapOrder::RowMajor : gemmlowp::MapOrder::ColMajor;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  static const gemmlowp::MapOrder RhsOrder =
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      !TransposeB ? gemmlowp::MapOrder::RowMajor : gemmlowp::MapOrder::ColMajor;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  gemmlowp::MatrixMap<const std::uint8_t, LhsOrder> lhs(a_data_as_uint8, m, k,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                                                        lda);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  gemmlowp::MatrixMap<const std::uint8_t, RhsOrder> rhs(b_data_as_uint8, k, n,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                                                        ldb);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  gemmlowp::MatrixMap<std::int32_t, ResultOrder> result(c_data_as_int32, m, n,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                                                        ldc);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  const std::tuple<> empty_pipeline = {};
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower  auto& worker_threads =
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower      *(op_context->device()->tensorflow_cpu_worker_threads());
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower  TensorflowGemmContext context(worker_threads.num_threads,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                worker_threads.workers);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  gemmlowp::GemmWithOutputPipeline<std::uint8_t, std::int32_t,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                                   gemmlowp::DefaultL8R8BitDepthParams>(
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      &context, lhs, rhs, &result, -offset_a, -offset_b, empty_pipeline);
1118de02db298159d7df7008df59ffd92801b59fPatrick Nguyen  // Since gemmlowp uses assembly to write to the output, msan won't detect
1118de02db298159d7df7008df59ffd92801b59fPatrick Nguyen  // the output buffer as written to, so we mark it manually.
1118de02db298159d7df7008df59ffd92801b59fPatrick Nguyen  TF_ANNOTATE_MEMORY_IS_INITIALIZED(c_data_as_int32, m * n * sizeof(int32));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden}
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardentemplate <class T1, class T2, class Toutput>
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Wardenclass QuantizedMatMulOp : public OpKernel {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden public:
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  explicit QuantizedMatMulOp(OpKernelConstruction* context)
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      : OpKernel(context) {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES_OK(context, context->GetAttr("transpose_a", &transpose_a_));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES_OK(context, context->GetAttr("transpose_b", &transpose_b_));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  }
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  void Compute(OpKernelContext* context) override {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const Tensor& a = context->input(0);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const Tensor& b = context->input(1);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const float min_a = context->input(2).flat<float>()(0);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const float max_a = context->input(3).flat<float>()(0);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const float min_b = context->input(4).flat<float>()(0);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const float max_b = context->input(5).flat<float>()(0);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    // Make sure that we have valid quantization ranges for the input buffers.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    // If the difference between the min and max is negative or zero, it makes
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    // it hard to do meaningful intermediate operations on the values.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES(context, (max_a > min_a),
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                errors::InvalidArgument("max_a must be larger than min_a."));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES(context, (max_b > min_b),
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                errors::InvalidArgument("max_b must be larger than min_b."));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const int32 offset_a = FloatToQuantizedUnclamped<T1>(0.0f, min_a, max_a);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const int32 offset_b = FloatToQuantizedUnclamped<T2>(0.0f, min_b, max_b);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const int32 offset_c = 0;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const int32 mult_c = 1;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const int32 shift_c = 0;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    // Check that the dimensions of the two matrices are valid.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES(context, TensorShapeUtils::IsMatrix(a.shape()),
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                errors::InvalidArgument("In[0] is not a matrix"));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES(context, TensorShapeUtils::IsMatrix(b.shape()),
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                errors::InvalidArgument("In[1] is not a matrix"));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    Eigen::array<Eigen::IndexPair<Eigen::DenseIndex>, 1> dim_pair;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    dim_pair[0].first = transpose_a_ ? 0 : 1;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    dim_pair[0].second = transpose_b_ ? 1 : 0;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES(context,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                a.dim_size(dim_pair[0].first) == b.dim_size(dim_pair[0].second),
982549ea3423df4270ff154e5c764beb43d472daRasmus Munk Larsen                errors::InvalidArgument(
982549ea3423df4270ff154e5c764beb43d472daRasmus Munk Larsen                    "Matrix size-compatible: In[0]: ", a.shape().DebugString(),
982549ea3423df4270ff154e5c764beb43d472daRasmus Munk Larsen                    ", In[1]: ", b.shape().DebugString()));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES(context, ((shift_c >= 0) && (shift_c <= 31)),
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                errors::InvalidArgument("shift_c must be between 0 and 31, "
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                                        "inclusive."));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    int a_dim_remaining = 1 - dim_pair[0].first;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    int b_dim_remaining = 1 - dim_pair[0].second;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    TensorShape out_shape(
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        {a.dim_size(a_dim_remaining), b.dim_size(b_dim_remaining)});
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    Tensor* c = nullptr;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES_OK(context, context->allocate_output(0, out_shape, &c));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    CHECK(c);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const T1* a_data = a.flat<T1>().data();
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const T2* b_data = b.flat<T2>().data();
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    Toutput* c_data = c->flat<Toutput>().data();
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const bool transpose_c = false;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const size_t m = a.dim_size(a_dim_remaining);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const size_t n = b.dim_size(b_dim_remaining);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const size_t k = a.dim_size(dim_pair[0].first);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const size_t lda = a.dim_size(1);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const size_t ldb = b.dim_size(1);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    const size_t ldc = n;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower    if (meta::IsSupportedAndEnabled() && std::is_same<T1, quint8>() &&
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower        std::is_same<T2, quint8>() && std::is_same<Toutput, qint32>() &&
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower        (offset_c == 0) && (mult_c == 1) && (shift_c == 0) &&
bdb2967a298236e24011405907cd19737386934eA. Unique TensorFlower        (transpose_c == false) && (k <= 2048)) {
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower      // Gemmlowp/meta code path works on 32 & 64 bit Arm with NEON Simd and
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower      // allows optimized quantized 8bit to 32bit gemm.
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower      meta::QuantizedGemm(context, transpose_a_, transpose_b_, a_data, b_data,
f9694e876e56c8e4f46e355e8686d7174fdc3b69A. Unique TensorFlower                          c_data, m, n, k, -offset_a, -offset_b, lda, ldb, ldc);
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower    } else if (std::is_same<T1, quint8>() && std::is_same<T2, quint8>() &&
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower               std::is_same<Toutput, qint32>() && (offset_c == 0) &&
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower               (mult_c == 1) && (shift_c == 0) && (transpose_c == false)) {
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower      // The gemmlowp optimized library only works for a particular set of data
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower      // types, so check if we meet those requirements and fall back to a slower
16cda320d92cfbfc6870140691ae2c5e6286688cA. Unique TensorFlower      // reference implementation if not.
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      if (transpose_a_) {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        if (transpose_b_) {
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower          GemmlowpMultiply<true, true, false>(context, a_data, b_data, c_data,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                              m, n, k, offset_a, offset_b, lda,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                              ldb, ldc);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        } else {
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower          GemmlowpMultiply<true, false, false>(context, a_data, b_data, c_data,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                               m, n, k, offset_a, offset_b, lda,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                               ldb, ldc);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        }
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      } else {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        if (transpose_b_) {
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower          GemmlowpMultiply<false, true, false>(context, a_data, b_data, c_data,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                               m, n, k, offset_a, offset_b, lda,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                               ldb, ldc);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        } else {
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower          GemmlowpMultiply<false, false, false>(context, a_data, b_data, c_data,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                                m, n, k, offset_a, offset_b,
9f2fa2ec4a68bb9e88ee20146927f84e4f9fe199A. Unique TensorFlower                                                lda, ldb, ldc);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        }
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      }
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    } else {
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden      ReferenceGemm<T1, T2, Toutput>(
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden          transpose_a_, transpose_b_, transpose_c, m, n, k, a_data, offset_a,
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden          lda, b_data, offset_b, ldb, c_data, shift_c, offset_c, mult_c, ldc);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    }
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    float min_c_value;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    float max_c_value;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    QuantizationRangeForMultiplication<T1, T2, Toutput>(
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden        min_a, max_a, min_b, max_b, &min_c_value, &max_c_value);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    Tensor* c_min = nullptr;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES_OK(context, context->allocate_output(1, {}, &c_min));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    c_min->flat<float>()(0) = min_c_value;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    Tensor* c_max = nullptr;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    OP_REQUIRES_OK(context, context->allocate_output(2, {}, &c_max));
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden    c_max->flat<float>()(0) = max_c_value;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  }
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden private:
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  bool transpose_a_;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden  bool transpose_b_;
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden};
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete WardenREGISTER_KERNEL_BUILDER(Name("QuantizedMatMul")
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                            .Device(DEVICE_CPU)
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                            .TypeConstraint<quint8>("T1")
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                            .TypeConstraint<quint8>("T2")
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                            .TypeConstraint<qint32>("Toutput"),
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden                        QuantizedMatMulOp<quint8, quint8, qint32>);
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden
ca4e053aa52ab9a42467d4df814ca9272487dbdfPete Warden}  // namespace tensorflow