core/util/cuda_device_functions.h

abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower/* Copyright 2017 The TensorFlow Authors. All Rights Reserved.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowerLicensed under the Apache License, Version 2.0 (the "License");
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFloweryou may not use this file except in compliance with the License.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowerYou may obtain a copy of the License at
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    http://www.apache.org/licenses/LICENSE-2.0
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowerUnless required by applicable law or agreed to in writing, software
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowerdistributed under the License is distributed on an "AS IS" BASIS,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowerWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowerSee the License for the specific language governing permissions and
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowerlimitations under the License.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower==============================================================================*/
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#ifndef TENSORFLOW_CORE_UTIL_CUDA_DEVICE_FUNCTIONS_H_
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#define TENSORFLOW_CORE_UTIL_CUDA_DEVICE_FUNCTIONS_H_
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower/**
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower * Wrappers and helpers for CUDA device code.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower *
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower * Wraps the warp-cooperative intrinsics introduced in CUDA 9 to provide
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower * backwards compatibility, see go/volta-porting for details.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower * Provides atomic operations on types that aren't natively supported.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower */
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if GOOGLE_CUDA
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#include <algorithm>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#include <complex>
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil#include "third_party/eigen3/unsupported/Eigen/CXX11/Tensor"
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#include "cuda/include/cuda.h"
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#include "tensorflow/core/platform/types.h"
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowernamespace tensorflow {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowernamespace detail {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Helper for range-based for loop using 'delta' increments.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Usage: see CudaGridRange?() functions below.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowerclass CudaGridRange {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  struct Iterator {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    __device__ Iterator(T index, T delta) : index_(index), delta_(delta) {}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    __device__ T operator*() const { return index_; }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    __device__ Iterator& operator++() {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      index_ += delta_;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      return *this;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    __device__ bool operator!=(const Iterator& other) const {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      bool greater = index_ > other.index_;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      bool less = index_ < other.index_;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      // Anything past an end iterator (delta_ == 0) is equal.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      // In range-based for loops, this optimizes to 'return less'.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      if (!other.delta_) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower        return less;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      if (!delta_) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower        return greater;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      return less || greater;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower   private:
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    T index_;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    const T delta_;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  };
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower public:
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  __device__ CudaGridRange(T begin, T delta, T end)
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      : begin_(begin), delta_(delta), end_(end) {}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  __device__ Iterator begin() const { return Iterator{begin_, delta_}; }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  __device__ Iterator end() const { return Iterator{end_, 0}; }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower private:
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  T begin_;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  T delta_;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  T end_;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower};
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}  // namespace detail
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Helper to visit indices in the range 0 <= i < count, using the x-coordinate
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// of the global thread index. That is, each index i is visited by all threads
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// with the same x-coordinate.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Usage: for(int i : CudaGridRangeX(count)) { visit(i); }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ detail::CudaGridRange<T> CudaGridRangeX(T count) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return detail::CudaGridRange<T>(blockIdx.x * blockDim.x + threadIdx.x,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                  gridDim.x * blockDim.x, count);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Helper to visit indices in the range 0 <= i < count using the y-coordinate.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Usage: for(int i : CudaGridRangeY(count)) { visit(i); }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ detail::CudaGridRange<T> CudaGridRangeY(T count) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return detail::CudaGridRange<T>(blockIdx.y * blockDim.y + threadIdx.y,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                  gridDim.y * blockDim.y, count);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Helper to visit indices in the range 0 <= i < count using the z-coordinate.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Usage: for(int i : CudaGridRangeZ(count)) { visit(i); }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ detail::CudaGridRange<T> CudaGridRangeZ(T count) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return detail::CudaGridRange<T>(blockIdx.z * blockDim.z + threadIdx.z,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                  gridDim.z * blockDim.z, count);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Mask for all 32 threads in a warp.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowerconst unsigned kCudaWarpAll = 0xffffffff;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Returns the warp lane ID of the calling thread
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline unsigned CudaLaneId() {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  unsigned int lane_id;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  asm("mov.u32 %0, %%laneid;" : "=r"(lane_id));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return lane_id;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowernamespace detail {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Returns true if mask is a valid parameter for __shfl*sync to return a well
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// defined value, assuming the calling lane will read from src_lane as part of
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// the shuffle operation.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower//
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Specifically, returns true iff mask has the calling lane bit and the src_lane
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// bit set, and the src_lane calls this function with the same mask value
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// (required for the two threads to wait for each other).
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower//
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// On Volta, for some invalid masks, this function hangs or returns false
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// positives, because the implementation shuffles with the same mask that
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// we are validating. Run on Pascal if you suspect that the mask is incorrect.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline bool CudaValidateShuffleSyncMask(unsigned mask,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                                   unsigned src_lane) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  unsigned src_dst_mask = 1u << CudaLaneId() | 1u << src_lane;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if CUDA_VERSION >= 9000
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  unsigned src_lane_mask = __shfl_sync(mask, mask, src_lane);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#else
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  unsigned src_lane_mask = __shfl(mask, src_lane);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return (src_dst_mask & ~mask) == 0 && src_lane_mask == mask;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Returns the actual source lane for shuffle.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline unsigned CudaShuffleGetSrcLane(int src_lane, int width) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  int lane_id = CudaLaneId();
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  int lane_base = lane_id & ~width + 1;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  int lane_offset = src_lane & width - 1;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return lane_base + lane_offset;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Returns the source lane for shuffle up.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline unsigned CudaShuffleUpGetSrcLane(unsigned delta, int width) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  unsigned lane_id = CudaLaneId();
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  if ((lane_id & width - 1) < delta) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    return lane_id;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return lane_id - delta;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Returns the source lane for shuffle down.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline unsigned CudaShuffleDownGetSrcLane(unsigned delta,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                                     int width) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  unsigned lane_id = CudaLaneId();
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  if ((lane_id & width - 1) + delta >= width) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    return lane_id;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return lane_id + delta;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Returns the source lane for shuffle xor.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline unsigned CudaShuffleXorGetSrcLane(int lane_mask, int width) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  int lane_id = CudaLaneId();
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  int src_lane = lane_id ^ lane_mask;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  if (src_lane > (lane_id | width - 1)) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    return lane_id;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return src_lane;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}  // namespace detail
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// For all *_sync wrappers below, it is illegal to synchronize threads from
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// different program locations, because that is not supported before sm_70.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// In other words, all threads in 'mask' must call the functions in convergence.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Code that requires sm_70 (and CUDA 9) may use the intrinsic directly.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower//
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// It is also illegal to shuffle with a mask that produces an undefined result
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// for any of the threads. Specifically, all source threads of the shuffle
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// must have their corresponding bit in 'mask' set.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Wrapper for __syncwarp. No-op for CUDA 8 and earlier.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline void CudaSyncWarp(unsigned mask = kCudaWarpAll) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(mask & 1u << CudaLaneId());
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if CUDA_VERSION >= 9000
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  __syncwarp(mask);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Wrapper for __ballot_sync. All threads in 'mask' must call this function in
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// convergence, see comment above for details.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline unsigned CudaBallotSync(unsigned mask, int pred) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(mask & 1u << CudaLaneId());
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if CUDA_VERSION >= 9000
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __ballot_sync(mask, pred);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#else
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __ballot(pred) & mask;  // Apply mask to match __ballot_sync's spec.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Wrapper for __any_sync. All threads in 'mask' must call this function in
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// convergence, see comment above for details.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline int CudaAnySync(unsigned mask, int pred) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(mask & 1u << CudaLaneId());
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if CUDA_VERSION >= 9000
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __any_sync(mask, pred);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#else
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __any(pred);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Wrapper for __all_sync. All threads in 'mask' must call this function in
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// convergence, see comment above for details.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline int CudaAllSync(unsigned mask, int pred) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(mask & 1u << CudaLaneId());
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if CUDA_VERSION >= 9000
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __all_sync(mask, pred);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#else
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __all(pred);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Wrapper for __shfl_sync. All threads in 'mask' must call this function in
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// convergence, see comment above for details.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ T CudaShuffleSync(unsigned mask, T value, int src_lane,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                             int width = warpSize) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(!(width & width - 1));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(detail::CudaValidateShuffleSyncMask(
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      mask, detail::CudaShuffleGetSrcLane(src_lane, width)));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if CUDA_VERSION >= 9000
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __shfl_sync(mask, value, src_lane, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#else
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __shfl(value, src_lane, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Variant of the (undocumented) version from the CUDA SDK, but using unsigned
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// instead of float for lo and hi (which is incorrect with ftz, for example).
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// See b/69446944.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline double CudaShuffleSync(unsigned mask, double value,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                         int src_lane, int width = warpSize) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  unsigned lo, hi;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  asm volatile("mov.b64 {%0,%1}, %2;" : "=r"(lo), "=r"(hi) : "d"(value));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  hi = CudaShuffleSync(mask, hi, src_lane, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  lo = CudaShuffleSync(mask, lo, src_lane, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  asm volatile("mov.b64 %0, {%1,%2};" : "=d"(value) : "r"(lo), "r"(hi));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return value;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Wrapper for __shfl_up_sync. All threads in 'mask' must call this function in
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// convergence, see comment above for details.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline T CudaShuffleUpSync(unsigned mask, T value, unsigned delta,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                      int width = warpSize) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(!(width & width - 1));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(detail::CudaValidateShuffleSyncMask(
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      mask, detail::CudaShuffleUpGetSrcLane(delta, width)));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if CUDA_VERSION >= 9000
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __shfl_up_sync(mask, value, delta, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#else
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __shfl_up(value, delta, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Variant of the (undocumented) version from the CUDA SDK, but using unsigned
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// instead of float for lo and hi (which is incorrect with ftz, for example).
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// See b/69446944.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline double CudaShuffleUpSync(unsigned mask, double value,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                           unsigned delta,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                           int width = warpSize) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  unsigned lo, hi;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  asm volatile("mov.b64 {%0,%1}, %2;" : "=r"(lo), "=r"(hi) : "d"(value));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  hi = CudaShuffleUpSync(mask, hi, delta, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  lo = CudaShuffleUpSync(mask, lo, delta, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  asm volatile("mov.b64 %0, {%1,%2};" : "=d"(value) : "r"(lo), "r"(hi));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return value;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Wrapper for __shfl_down_sync. All threads in 'mask' must call this function
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// in convergence, see comment above for details.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline T CudaShuffleDownSync(unsigned mask, T value, unsigned delta,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                        int width = warpSize) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(!(width & width - 1));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(detail::CudaValidateShuffleSyncMask(
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      mask, detail::CudaShuffleDownGetSrcLane(delta, width)));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if CUDA_VERSION >= 9000
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __shfl_down_sync(mask, value, delta, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#else
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __shfl_down(value, delta, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Variant of the (undocumented) version from the CUDA SDK, but using unsigned
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// instead of float for lo and hi (which is incorrect with ftz, for example).
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// See b/69446944.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline double CudaShuffleDownSync(unsigned mask, double value,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                             unsigned delta,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                             int width = warpSize) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  unsigned lo, hi;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  asm volatile("mov.b64 {%0,%1}, %2;" : "=r"(lo), "=r"(hi) : "d"(value));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  hi = CudaShuffleDownSync(mask, hi, delta, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  lo = CudaShuffleDownSync(mask, lo, delta, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  asm volatile("mov.b64 %0, {%1,%2};" : "=d"(value) : "r"(lo), "r"(hi));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return value;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Wrapper for __shfl_xor_sync. All threads in 'mask' must call this function in
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// convergence, see comment above for details.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ T CudaShuffleXorSync(unsigned mask, T value, int lane_mask,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                int width = warpSize) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(!(width & width - 1));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(detail::CudaValidateShuffleSyncMask(
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      mask, detail::CudaShuffleXorGetSrcLane(lane_mask, width)));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if CUDA_VERSION >= 9000
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __shfl_xor_sync(mask, value, lane_mask, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#else
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __shfl_xor(value, lane_mask, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Variant of the (undocumented) version from the CUDA SDK, but using unsigned
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// instead of float for lo and hi (which is incorrect with ftz, for example).
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// See b/69446944.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline double CudaShuffleXorSync(unsigned mask, double value,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                            int lane_mask,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                            int width = warpSize) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  unsigned lo, hi;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  asm volatile("mov.b64 {%0,%1}, %2;" : "=r"(lo), "=r"(hi) : "d"(value));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  hi = CudaShuffleXorSync(mask, hi, lane_mask, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  lo = CudaShuffleXorSync(mask, lo, lane_mask, width);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  asm volatile("mov.b64 %0, {%1,%2};" : "=d"(value) : "r"(lo), "r"(hi));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return value;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Wrapper for __ldg.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__host__ __device__ T CudaLdg(const T* address) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if __CUDA_ARCH__ >= 350
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __ldg(address);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#else
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return *address;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__host__ __device__ inline bool CudaLdg(const bool* address) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return CudaLdg(reinterpret_cast<const char*>(address)) != 0;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__host__ __device__ inline std::complex<float> CudaLdg(
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    const std::complex<float>* address) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if __CUDA_ARCH__ >= 350
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  float2 mem = __ldg(reinterpret_cast<const float2*>(address));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return std::complex<float>(mem.x, mem.y);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#else
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return *address;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__host__ __device__ inline std::complex<double> CudaLdg(
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    const std::complex<double>* address) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if __CUDA_ARCH__ >= 350
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  double2 mem = __ldg(reinterpret_cast<const double2*>(address));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return std::complex<double>(mem.x, mem.y);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#else
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return *address;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Zeroes count elements starting at ptr using all threads of a 1-D grid.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Note: this function does not synchronize, and therefore the memory range is
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// not guaranteed to be zero until the next kernel launch.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__global__ void SetZero(const int count, T* ptr) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  // Check that the grid is one dimensional and index doesn't overflow.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(blockDim.y == 1 && blockDim.z == 1);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  assert(blockDim.x * gridDim.x / blockDim.x == gridDim.x);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  for (int i : CudaGridRangeX(count)) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    ptr[i] = T(0);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  }
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// Helper to set all tensor entries to a specific value.
3d86d8ce14989ca65a59ad4cf37f690694bf6267Philtemplate <typename T>
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__global__ void SetToValue(const int count, T* ptr, T value) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  // Check that the grid is one dimensional and index doesn't overflow.
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  assert(blockDim.y == 1 && blockDim.z == 1);
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  assert(blockDim.x * gridDim.x / blockDim.x == gridDim.x);
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  for (int i : CudaGridRangeX(count)) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil    ptr[i] = value;
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  }
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowernamespace detail {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Helper function for atomic accumulation implemented as CAS.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T, typename F>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ T CudaAtomicCasHelper(T* ptr, F accumulate) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  T old = *ptr;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  T assumed;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  do {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    assumed = old;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    old = atomicCAS(ptr, assumed, accumulate(assumed));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  } while (assumed != old);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return old;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Overload for floating point (using integer comparison to handle NaN
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// correctly).
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename F>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ float CudaAtomicCasHelper(float* ptr, F accumulate) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __float_as_int(
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      CudaAtomicCasHelper(reinterpret_cast<int32*>(ptr), [accumulate](int32 a) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower        return __float_as_int(accumulate(__int_as_float(a)));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      }));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename F>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ double CudaAtomicCasHelper(double* ptr, F accumulate) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return __longlong_as_double(CudaAtomicCasHelper(
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      reinterpret_cast<tensorflow::uint64*>(ptr),
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      [accumulate](tensorflow::uint64 a) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower        return __double_as_longlong(accumulate(__longlong_as_double(a)));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      }));
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// Overload of above function for half. Note that we don't have
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// atomicCAS() for anything less than 32 bits, so we need to include the
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// other 16 bits in the operation.
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil//
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// This version is going to be very slow
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// under high concurrency, since most threads will be spinning on failing
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// their compare-and-swap tests. (The fact that we get false sharing on the
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// neighboring fp16 makes this even worse.) If you are doing a large reduction,
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// you are much better off with doing the intermediate steps in fp32 and then
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// switching to fp16 as late as you can in the calculations.
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil//
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// Note: Assumes little endian.
3d86d8ce14989ca65a59ad4cf37f690694bf6267Philtemplate <typename F>
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__device__ Eigen::half CudaAtomicCasHelper(Eigen::half* ptr, F accumulate) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil#if defined(__BYTE_ORDER__) && defined(__ORDER_LITTLE_ENDIAN__)
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  static_assert(__BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__, "Not little endian");
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil#endif
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  namespace half_impl = Eigen::half_impl;
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  intptr_t intptr = reinterpret_cast<intptr_t>(ptr);
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  assert(!(intptr & 0x1));  // should be 2-aligned.
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  if (intptr & 0x2) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil    // The half is in the second part of the uint32 (upper 16 bits).
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil    uint32* address = reinterpret_cast<uint32*>(intptr - 2);
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil    uint32 result = CudaAtomicCasHelper(address, [accumulate](uint32 arg) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      unsigned short high = static_cast<unsigned short>(arg >> 16);
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      Eigen::half acc = accumulate(half_impl::raw_uint16_to_half(high));
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      return (static_cast<uint32>(acc.x) << 16) | (arg & 0xffff);
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil    });
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil    return half_impl::raw_uint16_to_half(static_cast<uint16>(result >> 16));
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  } else {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil    // The half is in the first part of the uint32 (lower 16 bits).
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil    uint32* address = reinterpret_cast<uint32*>(intptr);
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil    uint32 result = CudaAtomicCasHelper(address, [accumulate](uint32 arg) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      unsigned short low = static_cast<unsigned short>(arg & 0xffff);
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      Eigen::half acc = accumulate(half_impl::raw_uint16_to_half(low));
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      return (arg & 0xffff0000) | static_cast<uint32>(acc.x);
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil    });
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil    return half_impl::raw_uint16_to_half(static_cast<uint16>(result & 0xffff));
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  }
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename From, typename To>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowerusing ToTypeIfConvertible =
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower    typename std::enable_if<std::is_convertible<From, To>::value, To>::type;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}  // namespace detail
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// CUDA provides atomic ops, but not for all types.  We provide wrappers
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// for some ops and provide implementation for all reasonable types.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T, typename U>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ detail::ToTypeIfConvertible<U, T> CudaAtomicAdd(T* ptr, U value) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return atomicAdd(ptr, value);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__device__ inline Eigen::half CudaAtomicAdd(Eigen::half* ptr,
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil                                            Eigen::half value) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  return detail::CudaAtomicCasHelper(
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      ptr, [value](Eigen::half a) { return a + value; });
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if __CUDA_ARCH__ < 600
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline double CudaAtomicAdd(double* ptr, double value) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return detail::CudaAtomicCasHelper(ptr,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                     [value](double a) { return a + value; });
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#elif __clang__
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Clang cannot compile __nvvm_atom_add_gen_d builtin yet, use inline PTX.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// see https://reviews.llvm.org/D39638
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline double CudaAtomicAdd(double* ptr, double value) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  double result;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  asm volatile("atom.add.f64 %0, [%1], %2;"
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower               : "=d"(result)
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower               : "l"(ptr), "d"(value)
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower               : "memory");
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return result;
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// CudaAtomicAdd
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// Specializations of CudaAtomicAdd for complex types, which CudaAtomicAdd does
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// not support. We treat a std::complex<T>* as a T* (the C++ standard section
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// 26.4.4 allows this explicitly) and atomic add the real and imaginary
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// components individually. The operation as a whole is not atomic, but we can
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// safely treat the components independently for the purpose of accumulating.
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__device__ inline std::complex<float> CudaAtomicAdd(std::complex<float>* ptr,
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil                                                    std::complex<float> value) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  auto ptr_scalar = reinterpret_cast<float*>(ptr);
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  return std::complex<float>(CudaAtomicAdd(ptr_scalar, value.real()),
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil                             CudaAtomicAdd(ptr_scalar + 1, value.imag()));
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__device__ inline std::complex<double> CudaAtomicAdd(
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil    std::complex<double>* ptr, std::complex<double> value) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  auto ptr_scalar = reinterpret_cast<double*>(ptr);
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  return std::complex<double>(CudaAtomicAdd(ptr_scalar, value.real()),
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil                              CudaAtomicAdd(ptr_scalar + 1, value.imag()));
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// CudaAtomicSub
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T, typename U>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ detail::ToTypeIfConvertible<U, T> CudaAtomicSub(T* ptr, U value) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return atomicSub(ptr, value);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower// Specializations of substraction which add the negative value.
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline float CudaAtomicSub(float* ptr, float value) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return CudaAtomicAdd(ptr, -value);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline double CudaAtomicSub(double* ptr, double value) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return CudaAtomicAdd(ptr, -value);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline tensorflow::uint64 CudaAtomicSub(tensorflow::uint64* ptr,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                                   tensorflow::uint64 value) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return CudaAtomicAdd(ptr, -value);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__device__ inline Eigen::half CudaAtomicSub(Eigen::half* ptr,
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil                                            Eigen::half value) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  return detail::CudaAtomicCasHelper(
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      ptr, [value](Eigen::half a) { return a - value; });
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// CudaAtomicMax
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T, typename U>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ detail::ToTypeIfConvertible<U, T> CudaAtomicMax(T* ptr, U value) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return atomicMax(ptr, value);
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__device__ inline float CudaAtomicMax(float* ptr, float value) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  return detail::CudaAtomicCasHelper(
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      ptr, [value](float a) { return max(a, value); });
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__device__ inline double CudaAtomicMax(double* ptr, double value) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  return detail::CudaAtomicCasHelper(
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      ptr, [value](double a) { return max(a, value); });
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__device__ inline Eigen::half CudaAtomicMax(Eigen::half* ptr,
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil                                            Eigen::half value) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  return detail::CudaAtomicCasHelper(
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      ptr, [value](Eigen::half a) { return max(a, value); });
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#if __CUDA_ARCH__ < 320
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ inline tensorflow::uint64 CudaAtomicMax(tensorflow::uint64* ptr,
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower                                                   tensorflow::uint64 value) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return detail::CudaAtomicCasHelper(
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower      ptr, [value](tensorflow::uint64 a) { return max(a, value); });
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// CudaAtomicMin
3d86d8ce14989ca65a59ad4cf37f690694bf6267Philtemplate <typename T, typename U>
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__device__ detail::ToTypeIfConvertible<U, T> CudaAtomicMin(T* ptr, U value) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  return atomicMin(ptr, value);
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__device__ inline float CudaAtomicMin(float* ptr, float value) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  return detail::CudaAtomicCasHelper(
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      ptr, [value](float a) { return min(a, value); });
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__device__ inline double CudaAtomicMin(double* ptr, double value) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  return detail::CudaAtomicCasHelper(
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      ptr, [value](double a) { return min(a, value); });
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__device__ inline Eigen::half CudaAtomicMin(Eigen::half* ptr,
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil                                            Eigen::half value) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  return detail::CudaAtomicCasHelper(
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      ptr, [value](Eigen::half a) { return min(a, value); });
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil#if __CUDA_ARCH__ < 320
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil__device__ inline tensorflow::uint64 CudaAtomicMin(tensorflow::uint64* ptr,
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil                                                   tensorflow::uint64 value) {
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil  return detail::CudaAtomicCasHelper(
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil      ptr, [value](tensorflow::uint64 a) { return min(a, value); });
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil#endif
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// CudaAtomicMul
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T, typename U>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ detail::ToTypeIfConvertible<U, T> CudaAtomicMul(T* ptr, U value) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return detail::CudaAtomicCasHelper(ptr, [value](T a) { return a * value; });
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil
3d86d8ce14989ca65a59ad4cf37f690694bf6267Phil// CudaAtomicDiv
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlowertemplate <typename T, typename U>
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower__device__ detail::ToTypeIfConvertible<U, T> CudaAtomicDiv(T* ptr, U value) {
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower  return detail::CudaAtomicCasHelper(ptr, [value](T a) { return a / value; });
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower}  // namespace tensorflow
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif  // GOOGLE_CUDA
abdc62aee1eeba32be56d761a2f9988306356084A. Unique TensorFlower#endif  // TENSORFLOW_CORE_UTIL_CUDA_KERNEL_HELPER_H_