core/kernels/depthwise_conv_op_gpu.cu.cc

c8b59c046895fa5b6d79f73e0b5817330fcfbfc1A. Unique TensorFlower/* Copyright 2015 The TensorFlow Authors. All Rights Reserved.
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin ChenLicensed under the Apache License, Version 2.0 (the "License");
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chenyou may not use this file except in compliance with the License.
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin ChenYou may obtain a copy of the License at
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    http://www.apache.org/licenses/LICENSE-2.0
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin ChenUnless required by applicable law or agreed to in writing, software
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chendistributed under the License is distributed on an "AS IS" BASIS,
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin ChenWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin ChenSee the License for the specific language governing permissions and
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chenlimitations under the License.
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen==============================================================================*/
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen#if GOOGLE_CUDA
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen#define EIGEN_USE_GPU
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen#include "third_party/eigen3/unsupported/Eigen/CXX11/Tensor"
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan#include "tensorflow/core/kernels/depthwise_conv_op.h"
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen#include "tensorflow/core/platform/types.h"
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen#include "tensorflow/core/util/cuda_kernel_helper.h"
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan#include "tensorflow/core/util/tensor_format.h"
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
e2d51a87f0727f8537b46048d8241aeebb6e48d6Xiaoqiang Zheng#if !defined(_MSC_VER)
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen#define UNROLL _Pragma("unroll")
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower#define NOUNROLL _Pragma("nounroll")
e2d51a87f0727f8537b46048d8241aeebb6e48d6Xiaoqiang Zheng#else
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan#define UNROLL
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower#define NOUNROLL
e2d51a87f0727f8537b46048d8241aeebb6e48d6Xiaoqiang Zheng#endif
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chennamespace tensorflow {
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlowerusing Eigen::GpuDevice;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan// A Cuda kernel to compute the depthwise convolution forward pass
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan// in NHWC format.
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlowertemplate <typename T, int kKnownFilterWidth, int kKnownFilterHeight,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower          int kKnownDepthMultiplier>
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower__global__ void __launch_bounds__(1024, 2)
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower    DepthwiseConv2dGPUKernelNHWC(const DepthwiseArgs args, const T* input,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                 const T* filter, T* output, int num_outputs) {
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen  const int in_rows = args.in_rows;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen  const int in_cols = args.in_cols;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen  const int in_depth = args.in_depth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int filter_rows =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownFilterHeight < 0 ? args.filter_rows : kKnownFilterHeight;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int filter_cols =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownFilterWidth < 0 ? args.filter_cols : kKnownFilterWidth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int depth_multiplier =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownDepthMultiplier < 0 ? args.depth_multiplier : kKnownDepthMultiplier;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen  const int stride = args.stride;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen  const int pad_rows = args.pad_rows;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen  const int pad_cols = args.pad_cols;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen  const int out_rows = args.out_rows;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen  const int out_cols = args.out_cols;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen  const int out_depth = args.out_depth;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen  CUDA_1D_KERNEL_LOOP(thread_id, num_outputs) {
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    // Compute the indexes of this thread in the output.
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    const int OD = thread_id % out_depth;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    const int OC = (thread_id / out_depth) % out_cols;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    const int OR = (thread_id / out_depth / out_cols) % out_rows;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    const int OB = thread_id / out_depth / out_cols / out_rows;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    // Compute the input depth and the index of depth multiplier.
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    const int in_d = OD / depth_multiplier;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    const int multiplier = OD % depth_multiplier;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // Decide if all input is valid, if yes, we can skip the boundary checks
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // for each input.
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    const int input_row_start = OR * stride - pad_rows;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    const int input_col_start = OC * stride - pad_cols;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    const int input_row_end = input_row_start + filter_rows;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    const int input_col_end = input_col_start + filter_cols;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    T sum = 0;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int input_offset_temp = in_rows * OB;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    if (input_row_start >= 0 && input_col_start >= 0 &&
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen        input_row_end < in_rows && input_col_end < in_cols) {
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen      UNROLL for (int f_r = 0; f_r < filter_rows; ++f_r) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        const int in_r = input_row_start + f_r;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        const int filter_offset_temp = filter_cols * f_r;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen        UNROLL for (int f_c = 0; f_c < filter_cols; ++f_c) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          const int in_c = input_col_start + f_c;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          const int input_offset =
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen              in_d + in_depth * (in_c + in_cols * (in_r + input_offset_temp));
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          const int filter_offset =
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen              multiplier +
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen              depth_multiplier * (in_d + in_depth * (f_c + filter_offset_temp));
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          sum += ldg(input + input_offset) * ldg(filter + filter_offset);
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen        }
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen      }
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    } else {
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen      UNROLL for (int f_r = 0; f_r < filter_rows; ++f_r) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        const int in_r = input_row_start + f_r;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        const int filter_offset_temp = filter_cols * f_r;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen        UNROLL for (int f_c = 0; f_c < filter_cols; ++f_c) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          const int in_c = input_col_start + f_c;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen          if (in_r >= 0 && in_r < in_rows && in_c >= 0 && in_c < in_cols) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen            const int in_c = input_col_start + f_c;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen            const int input_offset =
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen                in_d + in_depth * (in_c + in_cols * (in_r + input_offset_temp));
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen            const int filter_offset =
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                multiplier + depth_multiplier *
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                                 (in_d + in_depth * (f_c + filter_offset_temp));
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen            sum += ldg(input + input_offset) * ldg(filter + filter_offset);
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen          }
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen        }
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen      }
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen    }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    output[thread_id] = sum;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen  }
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen}
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan// A Cuda kernel to compute the depthwise convolution forward pass
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan// in NCHW format.
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlowertemplate <typename T, int kKnownFilterWidth, int kKnownFilterHeight,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower          int kKnownDepthMultiplier>
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower__global__ void __launch_bounds__(1024, 2)
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower    DepthwiseConv2dGPUKernelNCHW(const DepthwiseArgs args, const T* input,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                 const T* filter, T* output, int num_outputs) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int in_rows = args.in_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int in_cols = args.in_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int in_depth = args.in_depth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int filter_rows =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownFilterHeight < 0 ? args.filter_rows : kKnownFilterHeight;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int filter_cols =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownFilterWidth < 0 ? args.filter_cols : kKnownFilterWidth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int depth_multiplier =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownDepthMultiplier < 0 ? args.depth_multiplier : kKnownDepthMultiplier;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int stride = args.stride;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int pad_rows = args.pad_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int pad_cols = args.pad_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int out_rows = args.out_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int out_cols = args.out_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int out_depth = args.out_depth;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  CUDA_1D_KERNEL_LOOP(thread_id, num_outputs) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // Compute the indexes of this thread in the output.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    //
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // We want coalesced reads so we make sure that each warp reads
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // a contiguous chunk of memory.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    //
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // THIS IS PROBABLY WRONG, we are not doing coalesced reads
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // into the input, because of the depth multiplier division...
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int OC = thread_id % out_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int OR = (thread_id / out_cols) % out_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int OD = (thread_id / out_cols / out_rows) % out_depth;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int OB = thread_id / out_cols / out_rows / out_depth;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // Compute the input depth and the index of depth multiplier
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // based off the output depth index that this thread is
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // computing n.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int in_d = OD / depth_multiplier;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int multiplier = OD % depth_multiplier;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // Data is stored in the following format (let's assume we
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // flatten the height and width into one contiguous dimension
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // called "P".
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    //
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // B1C1P1 B1C1P2 ..... B1C2P1 B1C2P2 ....
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // B2C1P1 B2C1P2 ..... B2C2P1 B2C2P2 ....
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    //
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // Each row contains in_depth * in_rows * in_cols values
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // for each sample in the batch.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    //
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // We can further flatten it into:
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    //
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // B1C1P1 B1C1P2 .....
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // B1C2P1 B1C2P2 ....
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // B2C1P1 B2C1P2 .....
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // B2C2P1 B2C2P2 ....
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    //
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // where each row is a contiguous array of all of the spatial
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // pixels for a given batch and input depth.  The following
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // loop unrolls across the filter dimensions for a given thread,
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // indexing into the filter value and the corresponding input
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // patch.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    //
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // We can compute the index into the patch once right here.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int input_offset_temp = (OB * in_depth + in_d) * (in_rows * in_cols);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // Finally, we can iterate over the spatial dimensions and perform the
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // convolution, writing into the output at the end.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    //
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // We perform an additional optimization, where we can determine
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // whether the patch fits within the image indices statically, and
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // avoid boundary checking within the loop.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int input_row_start = OR * stride - pad_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int input_col_start = OC * stride - pad_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int input_row_end = input_row_start + filter_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int input_col_end = input_col_start + filter_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    T sum = 0;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    if (input_row_start >= 0 && input_col_start >= 0 &&
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        input_row_end < in_rows && input_col_end < in_cols) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      // Loop that doesn't need to check for boundary conditions.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      UNROLL for (int f_r = 0; f_r < filter_rows; ++f_r) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        const int in_r = input_row_start + f_r;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        const int filter_offset_temp = filter_cols * f_r;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        UNROLL for (int f_c = 0; f_c < filter_cols; ++f_c) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          const int in_c = input_col_start + f_c;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          const int input_offset =
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan              (input_offset_temp) + (in_r * in_cols) + in_c;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          const int filter_offset =
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan              multiplier +
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan              depth_multiplier * (in_d + in_depth * (f_c + filter_offset_temp));
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          sum += ldg(input + input_offset) * ldg(filter + filter_offset);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    } else {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      // Loop that needs to check for boundary conditions.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      UNROLL for (int f_r = 0; f_r < filter_rows; ++f_r) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        const int in_r = input_row_start + f_r;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        const int filter_offset_temp = filter_cols * f_r;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        UNROLL for (int f_c = 0; f_c < filter_cols; ++f_c) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          const int in_c = input_col_start + f_c;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          // TODO(vrv): the in_r check can be done outside of this loop;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          // benchmark both methods to determine the better decision.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          if (in_r >= 0 && in_r < in_rows && in_c >= 0 && in_c < in_cols) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            const int in_c = input_col_start + f_c;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // input_offset_temp indexes into the start of memory
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // where the spatial data starts.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            const int input_offset =
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                (input_offset_temp) + (in_r * in_cols) + in_c;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            const int filter_offset =
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                multiplier + depth_multiplier *
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                                 (in_d + in_depth * (f_c + filter_offset_temp));
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            sum += ldg(input + input_offset) * ldg(filter + filter_offset);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    output[thread_id] = sum;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan}
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlowertemplate <typename T, int kKnownFilterWidth, int kKnownFilterHeight,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower          int kKnownDepthMultiplier>
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlowervoid LaunchDepthwiseConv2dGPU(const GpuDevice& d, const DepthwiseArgs args,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                              const T* input, const T* filter, T* output,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                              TensorFormat data_format) {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int num_outputs =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      args.batch * args.out_rows * args.out_cols * args.out_depth;
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower  // The compile-time constant version runs faster with a single block.
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower  const int max_block_count = kKnownFilterWidth < 0 || kKnownFilterHeight < 0 ||
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                      kKnownDepthMultiplier < 0 ||
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                      args.out_rows * args.out_cols <= 256
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                  ? std::numeric_limits<int>::max()
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                  : d.getNumCudaMultiProcessors();
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  if (data_format == FORMAT_NHWC) {
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower    CudaLaunchConfig config = GetCudaLaunchConfig(
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        num_outputs, d,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        DepthwiseConv2dGPUKernelNHWC<T, kKnownFilterWidth, kKnownFilterHeight,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                     kKnownDepthMultiplier>,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        0);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower    DepthwiseConv2dGPUKernelNHWC<T, kKnownFilterWidth, kKnownFilterHeight,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                                 kKnownDepthMultiplier>
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        <<<std::min(max_block_count, config.block_count),
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower           config.thread_per_block, 0, d.stream()>>>(args, input, filter,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                                     output, num_outputs);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  } else if (data_format == FORMAT_NCHW) {
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower    CudaLaunchConfig config = GetCudaLaunchConfig(
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        num_outputs, d,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        DepthwiseConv2dGPUKernelNCHW<T, kKnownFilterWidth, kKnownFilterHeight,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                     kKnownDepthMultiplier>,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        0);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower    DepthwiseConv2dGPUKernelNCHW<T, kKnownFilterWidth, kKnownFilterHeight,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                                 kKnownDepthMultiplier>
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        <<<std::min(max_block_count, config.block_count),
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower           config.thread_per_block, 0, d.stream()>>>(args, input, filter,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                                     output, num_outputs);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  } else {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower    assert(false);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  }
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower}
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen// A simple launch pad to launch the Cuda kernel for depthwise convolution.
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chentemplate <typename T>
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chenstruct DepthwiseConv2dGPULaunch {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  static void Run(const GpuDevice& d, const DepthwiseArgs args, const T* input,
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                  const T* filter, T* output, TensorFormat data_format) {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower    if (args.filter_rows == 3 && args.filter_cols == 3 &&
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower        args.depth_multiplier == 1) {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      LaunchDepthwiseConv2dGPU<T, 3, 3, 1>(d, args, input, filter, output,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                                           data_format);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    } else {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      LaunchDepthwiseConv2dGPU<T, -1, -1, -1>(d, args, input, filter, output,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                                              data_format);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    }
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen  }
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen};
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chentemplate struct DepthwiseConv2dGPULaunch<float>;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chentemplate struct DepthwiseConv2dGPULaunch<double>;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen// A Cuda kernel to compute the depthwise convolution backprop w.r.t. input.
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlowertemplate <typename T, int kKnownFilterWidth, int kKnownFilterHeight,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower          int kKnownDepthMultiplier>
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower__global__ void __launch_bounds__(640, 2)
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower    DepthwiseConv2dBackpropInputGPUKernelNHWC(const DepthwiseArgs args,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                              const T* out_backprop,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                              const T* filter, T* in_backprop,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                              int num_in_backprop) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int in_rows = args.in_rows;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int in_cols = args.in_cols;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int in_depth = args.in_depth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int filter_rows =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownFilterHeight < 0 ? args.filter_rows : kKnownFilterHeight;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int filter_cols =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownFilterWidth < 0 ? args.filter_cols : kKnownFilterWidth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int depth_multiplier =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownDepthMultiplier < 0 ? args.depth_multiplier : kKnownDepthMultiplier;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int stride = args.stride;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int pad_rows = args.pad_rows;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int pad_cols = args.pad_cols;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int out_rows = args.out_rows;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int out_cols = args.out_cols;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int out_depth = args.out_depth;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  CUDA_1D_KERNEL_LOOP(thread_id, num_in_backprop) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    // Compute the indexes of this thread in the output.
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int in_d = thread_id % in_depth;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int in_c = (thread_id / in_depth) % in_cols;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int in_r = (thread_id / in_depth / in_cols) % in_rows;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int b = thread_id / in_depth / in_cols / in_rows;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    T sum = 0;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int out_r_start =
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        tf_max<int>(0, (in_r - filter_rows + pad_rows + stride) / stride);
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int out_r_end = tf_min(out_rows - 1, (in_r + pad_rows) / stride);
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int out_c_start =
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        tf_max(0, (in_c - filter_cols + pad_cols + stride) / stride);
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int out_c_end = tf_min(out_cols - 1, (in_c + pad_cols) / stride);
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower    NOUNROLL for (int out_r = out_r_start; out_r <= out_r_end; ++out_r) {
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower      const int f_r = in_r + pad_rows - out_r * stride;
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower      const int temp_out_backprop_offset =
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower          out_depth * out_cols * (out_r + out_rows * b);
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower      const int temp_filter_offset = filter_cols * f_r;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      NOUNROLL for (int out_c = out_c_start; out_c <= out_c_end; ++out_c) {
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower        const int f_c = in_c + pad_cols - out_c * stride;
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower        int filter_offset =
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower            depth_multiplier * (in_d + in_depth * (f_c + temp_filter_offset));
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower        const int out_backprop_offset =
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower            out_depth * out_c + temp_out_backprop_offset;
b286574da19e18371e759fe6b676bb07728ef9acA. Unique TensorFlower#pragma unroll 6
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower        for (int i = 0; i < depth_multiplier; ++i) {
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower          sum += ldg(out_backprop + out_backprop_offset +
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower                     in_d * depth_multiplier + i) *
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower                 ldg(filter + filter_offset + i);
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen      }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int in_backprop_offset =
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        in_d + in_depth * (in_c + in_cols * (in_r + in_rows * b));
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    in_backprop[in_backprop_offset] = sum;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen}
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlowertemplate <typename T, int kKnownFilterWidth, int kKnownFilterHeight,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower          int kKnownDepthMultiplier>
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower__global__ void __launch_bounds__(640, 2)
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    DepthwiseConv2dBackpropInputGPUKernelNCHW(const DepthwiseArgs args,
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                                              const T* out_backprop,
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                                              const T* filter, T* in_backprop,
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                                              int num_in_backprop) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int in_rows = args.in_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int in_cols = args.in_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int in_depth = args.in_depth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int filter_rows =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownFilterHeight < 0 ? args.filter_rows : kKnownFilterHeight;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int filter_cols =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownFilterWidth < 0 ? args.filter_cols : kKnownFilterWidth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int depth_multiplier =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownDepthMultiplier < 0 ? args.depth_multiplier : kKnownDepthMultiplier;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int stride = args.stride;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int pad_rows = args.pad_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int pad_cols = args.pad_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int out_rows = args.out_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int out_cols = args.out_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int out_depth = args.out_depth;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  // TODO(vrv): Consider assigning threads to output and using
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  // atomics for accumulation, similar to the filter case.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  CUDA_1D_KERNEL_LOOP(thread_id, num_in_backprop) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // Compute the indexes of this thread in the input.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int in_c = thread_id % in_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int in_r = (thread_id / in_cols) % in_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int in_d = (thread_id / in_cols / in_rows) % in_depth;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int b = thread_id / in_depth / in_cols / in_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    T sum = 0;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int out_d_start = in_d * depth_multiplier;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int out_d_end = out_d_start + depth_multiplier;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int out_r_start =
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        tf_max<int>(0, (in_r - filter_rows + pad_rows + stride) / stride);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int out_r_end = tf_min(out_rows - 1, (in_r + pad_rows) / stride);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int out_c_start =
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        tf_max(0, (in_c - filter_cols + pad_cols + stride) / stride);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int out_c_end = tf_min(out_cols - 1, (in_c + pad_cols) / stride);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    UNROLL for (int out_d = out_d_start; out_d < out_d_end; ++out_d) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      UNROLL for (int out_r = out_r_start; out_r <= out_r_end; ++out_r) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        const int f_r = in_r + pad_rows - out_r * stride;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        const int filter_dm = out_d - out_d_start;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        const int temp_filter_offset = filter_cols * f_r;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        for (int out_c = out_c_start; out_c <= out_c_end; ++out_c) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          const int f_c = in_c + pad_cols - out_c * stride;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          const int filter_offset =
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan              filter_dm + args.depth_multiplier *
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                              (in_d + in_depth * (f_c + temp_filter_offset));
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          const int out_backprop_offset =
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan              (b * out_depth * out_rows * out_cols) +
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan              (out_d * out_rows * out_cols) + (out_r * out_cols) + (out_c);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          sum += ldg(out_backprop + out_backprop_offset) *
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                 ldg(filter + filter_offset);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int in_backprop_offset = (b * in_rows * in_cols * in_depth) +
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                                   (in_d * in_rows * in_cols) +
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                                   (in_r * in_cols) + (in_c);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    in_backprop[in_backprop_offset] = sum;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan}
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlowertemplate <typename T, int kKnownFilterWidth, int kKnownFilterHeight,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower          int kKnownDepthMultiplier>
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlowervoid LaunchDepthwiseConv2dBackpropInputGPU(const GpuDevice& d,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                                           const DepthwiseArgs args,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                                           const T* out_backprop,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                                           const T* filter, T* in_backprop,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                                           TensorFormat data_format) {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int num_in_backprop =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      args.batch * args.in_rows * args.in_cols * args.in_depth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  if (data_format == FORMAT_NHWC) {
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower    CudaLaunchConfig config = GetCudaLaunchConfig(
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        num_in_backprop, d,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        DepthwiseConv2dBackpropInputGPUKernelNHWC<
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower            T, kKnownFilterWidth, kKnownFilterHeight, kKnownDepthMultiplier>,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        0);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower    DepthwiseConv2dBackpropInputGPUKernelNHWC<
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower        T, kKnownFilterWidth, kKnownFilterHeight, kKnownDepthMultiplier>
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower        <<<config.block_count, config.thread_per_block, 0, d.stream()>>>(
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower            args, out_backprop, filter, in_backprop, num_in_backprop);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  } else if (data_format == FORMAT_NCHW) {
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower    CudaLaunchConfig config = GetCudaLaunchConfig(
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        num_in_backprop, d,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        DepthwiseConv2dBackpropInputGPUKernelNCHW<
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower            T, kKnownFilterWidth, kKnownFilterHeight, kKnownDepthMultiplier>,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        0);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower    DepthwiseConv2dBackpropInputGPUKernelNCHW<
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower        T, kKnownFilterWidth, kKnownFilterHeight, kKnownDepthMultiplier>
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower        <<<config.block_count, config.thread_per_block, 0, d.stream()>>>(
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower            args, out_backprop, filter, in_backprop, num_in_backprop);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  } else {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower    assert(false);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  }
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower}
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen// A simple launch pad to launch the Cuda kernel for depthwise convolution.
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chentemplate <typename T>
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chenstruct DepthwiseConv2dBackpropInputGPULaunch {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  static void Run(const GpuDevice& d, const DepthwiseArgs args,
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                  const T* out_backprop, const T* filter, T* in_backprop,
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                  TensorFormat data_format) {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower    if (args.depth_multiplier == 1) {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      if (args.filter_rows == 3 && args.filter_cols == 3) {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower        LaunchDepthwiseConv2dBackpropInputGPU<T, 3, 3, 1>(
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower            d, args, out_backprop, filter, in_backprop, data_format);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      } else {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower        LaunchDepthwiseConv2dBackpropInputGPU<T, -1, -1, 1>(
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower            d, args, out_backprop, filter, in_backprop, data_format);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      }
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower    } else {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      LaunchDepthwiseConv2dBackpropInputGPU<T, -1, -1, -1>(
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower          d, args, out_backprop, filter, in_backprop, data_format);
2f9c1d2d205e1b7be111dd87a26d7c3a4d57c6c1A. Unique TensorFlower    }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen};
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chentemplate struct DepthwiseConv2dBackpropInputGPULaunch<float>;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chentemplate struct DepthwiseConv2dBackpropInputGPULaunch<double>;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen// A Cuda kernel to compute the depthwise convolution backprop w.r.t. filter.
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlowertemplate <typename T, int kKnownFilterWidth, int kKnownFilterHeight,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower          int kKnownDepthMultiplier>
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower__global__ void __launch_bounds__(640, 2)
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower    DepthwiseConv2dBackpropFilterGPUKernelNHWC(const DepthwiseArgs args,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                               const T* out_backprop,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                               const T* input,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                               T* filter_backprop,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                               int num_out_backprop) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int in_rows = args.in_rows;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int in_cols = args.in_cols;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int in_depth = args.in_depth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int filter_rows =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownFilterHeight < 0 ? args.filter_rows : kKnownFilterHeight;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int filter_cols =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownFilterWidth < 0 ? args.filter_cols : kKnownFilterWidth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int depth_multiplier =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownDepthMultiplier < 0 ? args.depth_multiplier : kKnownDepthMultiplier;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int stride = args.stride;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int pad_rows = args.pad_rows;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int pad_cols = args.pad_cols;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int out_rows = args.out_rows;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int out_cols = args.out_cols;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  const int out_depth = args.out_depth;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  CUDA_1D_KERNEL_LOOP(thread_id, num_out_backprop) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    // Compute the indexes of this thread in the output.
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int out_d = thread_id % out_depth;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int out_c = (thread_id / out_depth) % out_cols;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int out_r = (thread_id / out_depth / out_cols) % out_rows;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int b = thread_id / out_depth / out_cols / out_rows;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    // Compute the input depth and the index of depth multiplier.
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int in_d = out_d / depth_multiplier;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int dm = out_d % depth_multiplier;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // Decide if all input is valid, if yes, we can skip the boundary checks
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // for each input.
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int in_r_start = out_r * stride - pad_rows;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int in_c_start = out_c * stride - pad_cols;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int in_r_end = in_r_start + filter_rows;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int in_c_end = in_c_start + filter_cols;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const int out_backprop_offset =
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        out_d + out_depth * (out_c + out_cols * (out_r + out_rows * b));
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    const T out_bp = ldg(out_backprop + out_backprop_offset);
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    if (in_r_start >= 0 && in_c_start >= 0 && in_r_end < in_rows &&
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        in_c_end < in_cols) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen      UNROLL for (int f_r = 0; f_r < filter_rows; ++f_r) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        const int in_r = in_r_start + f_r;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        // Avoid repeated computation.
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        const int input_offset_temp = in_cols * (in_r + in_rows * b);
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        UNROLL for (int f_c = 0; f_c < filter_cols; ++f_c) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          const int in_c = in_c_start + f_c;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          const int input_offset = in_d + in_depth * (in_c + input_offset_temp);
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          T partial_sum = ldg(input + input_offset) * out_bp;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          T* addr = filter_backprop +
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                    (dm + depth_multiplier *
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                              (in_d + in_depth * (f_c + filter_cols * f_r)));
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          CudaAtomicAdd(addr, partial_sum);
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen      }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    } else {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen      UNROLL for (int f_r = 0; f_r < filter_rows; ++f_r) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        const int in_r = in_r_start + f_r;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        // Avoid repeated computation.
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        const int input_offset_temp = in_cols * (in_r + in_rows * b);
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        UNROLL for (int f_c = 0; f_c < filter_cols; ++f_c) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          const int in_c = in_c_start + f_c;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          const int addr_temp = filter_cols * f_r;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          if (in_r >= 0 && in_r < in_rows && in_c >= 0 && in_c < in_cols) {
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen            const int input_offset =
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen                in_d + in_depth * (in_c + input_offset_temp);
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen            T partial_sum = ldg(input + input_offset) * out_bp;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen            T* addr =
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen                filter_backprop +
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen                (dm + depth_multiplier * (in_d + in_depth * (f_c + addr_temp)));
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen            // Potentially many threads can add to the same address so we have
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen            // to use atomic add here.
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen            // TODO(jmchen): If atomic add turns out to be slow, we can:
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen            // 1. allocate multiple buffers for the gradients (one for each
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // example in a batch, for example). This can reduce the
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // contention on the destination; 2. Have each thread compute one
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // gradient for an element in the filters. This should work well
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // when the input depth is big and filter size is not too small.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            CudaAtomicAdd(addr, partial_sum);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan}
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan// A Cuda kernel to compute the depthwise convolution backprop w.r.t. filter.
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlowertemplate <typename T, int kKnownFilterWidth, int kKnownFilterHeight,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower          int kKnownDepthMultiplier>
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower__global__ void __launch_bounds__(640, 2)
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower    DepthwiseConv2dBackpropFilterGPUKernelNCHW(const DepthwiseArgs args,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                               const T* out_backprop,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                               const T* input,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                               T* filter_backprop,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower                                               int num_out_backprop) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int in_rows = args.in_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int in_cols = args.in_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int in_depth = args.in_depth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int filter_rows =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownFilterHeight < 0 ? args.filter_rows : kKnownFilterHeight;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int filter_cols =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownFilterWidth < 0 ? args.filter_cols : kKnownFilterWidth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int depth_multiplier =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      kKnownDepthMultiplier < 0 ? args.depth_multiplier : kKnownDepthMultiplier;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int stride = args.stride;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int pad_rows = args.pad_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int pad_cols = args.pad_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int out_rows = args.out_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int out_cols = args.out_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  const int out_depth = args.out_depth;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan  CUDA_1D_KERNEL_LOOP(thread_id, num_out_backprop) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // Compute the indexes of this thread in the output.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int out_c = thread_id % out_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int out_r = (thread_id / out_cols) % out_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int out_d = (thread_id / out_cols / out_rows) % out_depth;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int b = thread_id / out_depth / out_cols / out_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // Compute the input depth and the index of depth multiplier.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int in_d = out_d / depth_multiplier;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int dm = out_d % depth_multiplier;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // Decide if all input is valid, if yes, we can skip the boundary checks
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    // for each input.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int in_r_start = out_r * stride - pad_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int in_c_start = out_c * stride - pad_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int in_r_end = in_r_start + filter_rows;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int in_c_end = in_c_start + filter_cols;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const int out_backprop_offset = (b * out_depth * out_rows * out_cols) +
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                                    (out_d * out_rows * out_cols) +
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                                    (out_r * out_cols) + (out_c);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    const T out_bp = ldg(out_backprop + out_backprop_offset);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    if (in_r_start >= 0 && in_c_start >= 0 && in_r_end < in_rows &&
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        in_c_end < in_cols) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      UNROLL for (int f_r = 0; f_r < filter_rows; ++f_r) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        const int in_r = in_r_start + f_r;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        // Avoid repeated computation.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        const int input_offset_temp = (b * in_depth * in_rows * in_cols) +
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                                      (in_d * in_rows * in_cols) +
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                                      (in_r * in_cols);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        UNROLL for (int f_c = 0; f_c < filter_cols; ++f_c) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          const int in_c = in_c_start + f_c;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          const int input_offset = input_offset_temp + in_c;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          T partial_sum = ldg(input + input_offset) * out_bp;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          T* addr = filter_backprop +
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                    (dm + depth_multiplier *
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                              (in_d + in_depth * (f_c + filter_cols * f_r)));
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          CudaAtomicAdd(addr, partial_sum);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      }
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    } else {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan      UNROLL for (int f_r = 0; f_r < filter_rows; ++f_r) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        const int in_r = in_r_start + f_r;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        // Avoid repeated computation.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        const int input_offset_temp = (b * in_depth * in_rows * in_cols) +
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                                      (in_d * in_rows * in_cols) +
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                                      (in_r * in_cols);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan        UNROLL for (int f_c = 0; f_c < filter_cols; ++f_c) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          const int in_c = in_c_start + f_c;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          const int addr_temp = filter_cols * f_r;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan          if (in_r >= 0 && in_r < in_rows && in_c >= 0 && in_c < in_cols) {
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            const int input_offset = input_offset_temp + in_c;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            T partial_sum = ldg(input + input_offset) * out_bp;
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            T* addr =
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                filter_backprop +
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                (dm + depth_multiplier * (in_d + in_depth * (f_c + addr_temp)));
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // Potentially many threads can add to the same address so we have
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // to use atomic add here.
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // TODO(jmchen): If atomic add turns out to be slow, we can:
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // 1. allocate multiple buffers for the gradients (one for each
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // example in a batch, for example). This can reduce the
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // contention on the destination; 2. Have each thread compute one
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // gradient for an element in the filters. This should work well
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan            // when the input depth is big and filter size is not too small.
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen            CudaAtomicAdd(addr, partial_sum);
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen          }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen        }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen      }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen    }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen}
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlowertemplate <typename T, int kKnownFilterWidth, int kKnownFilterHeight,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower          int kKnownDepthMultiplier>
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlowervoid LaunchDepthwiseConv2dBackpropFilterGPU(const GpuDevice& d,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                                            const DepthwiseArgs args,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                                            const T* out_backprop,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                                            const T* input, T* filter_backprop,
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower                                            TensorFormat data_format) {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  const int num_out_backprop =
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      args.batch * args.out_rows * args.out_cols * args.out_depth;
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  if (data_format == FORMAT_NHWC) {
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower    CudaLaunchConfig config = GetCudaLaunchConfig(
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        num_out_backprop, d,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        DepthwiseConv2dBackpropFilterGPUKernelNHWC<
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower            T, kKnownFilterWidth, kKnownFilterHeight, kKnownDepthMultiplier>,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        0);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower    DepthwiseConv2dBackpropFilterGPUKernelNHWC<
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower        T, kKnownFilterWidth, kKnownFilterHeight, kKnownDepthMultiplier>
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower        <<<config.block_count, config.thread_per_block, 0, d.stream()>>>(
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower            args, out_backprop, input, filter_backprop, num_out_backprop);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  } else if (data_format == FORMAT_NCHW) {
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower    CudaLaunchConfig config = GetCudaLaunchConfig(
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        num_out_backprop, d,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        DepthwiseConv2dBackpropFilterGPUKernelNCHW<
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower            T, kKnownFilterWidth, kKnownFilterHeight, kKnownDepthMultiplier>,
3c02d1100788789b04e04feb93761f0ad898ea77A. Unique TensorFlower        0);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower    DepthwiseConv2dBackpropFilterGPUKernelNCHW<
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower        T, kKnownFilterWidth, kKnownFilterHeight, kKnownDepthMultiplier>
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower        <<<config.block_count, config.thread_per_block, 0, d.stream()>>>(
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower            args, out_backprop, input, filter_backprop, num_out_backprop);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  } else {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower    assert(false);
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  }
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower}
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen// A simple launch pad to launch the Cuda kernel for depthwise convolution.
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chentemplate <typename T>
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chenstruct DepthwiseConv2dBackpropFilterGPULaunch {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower  static void Run(const GpuDevice& d, const DepthwiseArgs args,
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                  const T* out_backprop, const T* input, T* filter_backprop,
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan                  TensorFormat data_format) {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower    if (args.filter_rows == 3 && args.filter_cols == 3 &&
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower        args.depth_multiplier == 1) {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      LaunchDepthwiseConv2dBackpropFilterGPU<T, 3, 3, 1>(
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower          d, args, out_backprop, input, filter_backprop, data_format);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    } else {
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower      LaunchDepthwiseConv2dBackpropFilterGPU<T, -1, -1, -1>(
7828637e07b0081a37dfdc66ff912dd1d6ff3228A. Unique TensorFlower          d, args, out_backprop, input, filter_backprop, data_format);
ce016c8726a9250be98337691090acb6655a0aceVijay Vasudevan    }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen  }
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen};
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chen
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chentemplate struct DepthwiseConv2dBackpropFilterGPULaunch<float>;
5f7683ea100c06bba66536fd97b5c141f576e0d7Jianmin Chentemplate struct DepthwiseConv2dBackpropFilterGPULaunch<double>;
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen}  // namespace tensorflow
b51ef0cd06e1bfb529b272e55010790ff3ead31fJianmin Chen#endif  // GOOGLE_CUDA