lib/random/philox_random.h

c8b59c046895fa5b6d79f73e0b5817330fcfbfc1A. Unique TensorFlower/* Copyright 2015 The TensorFlow Authors. All Rights Reserved.
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath Kudlur
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath KudlurLicensed under the Apache License, Version 2.0 (the "License");
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath Kudluryou may not use this file except in compliance with the License.
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath KudlurYou may obtain a copy of the License at
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath Kudlur
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath Kudlur    http://www.apache.org/licenses/LICENSE-2.0
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath Kudlur
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath KudlurUnless required by applicable law or agreed to in writing, software
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath Kudlurdistributed under the License is distributed on an "AS IS" BASIS,
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath KudlurWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath KudlurSee the License for the specific language governing permissions and
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath Kudlurlimitations under the License.
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath Kudlur==============================================================================*/
9c3043ff3bf31a6a81810b4ce9e87ef936f1f529Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// Implement the Philox algorithm to generate random numbers in parallel.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// Salmon et al. SC 2011. Parallel random numbers: as easy as 1, 2, 3.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//   http://www.thesalmons.org/john/random123/papers/random123sc11.pdf
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#ifndef TENSORFLOW_LIB_RANDOM_PHILOX_RANDOM_H_
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#define TENSORFLOW_LIB_RANDOM_PHILOX_RANDOM_H_
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#include <stdlib.h>
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
5a24d3a2514698b0ae11563b2ea21e368de48a4fJosh Levenberg#include "tensorflow/core/platform/types.h"
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// Function qualifiers that need to work on both CPU and GPU.
e1ac9aea1ca0a5aac83fa5b0f1e0929e412e44bdA. Unique TensorFlower#if defined(__CUDACC__)
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// For nvcc.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#define PHILOX_DEVICE_FUNC __host__ __device__
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#define PHILOX_INLINE __inline__
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#else
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// For non-nvcc.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#define PHILOX_DEVICE_FUNC
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#define PHILOX_INLINE inline
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#endif
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#define PHILOX_DEVICE_INLINE PHILOX_DEVICE_FUNC PHILOX_INLINE
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#include <math.h>
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlurnamespace tensorflow {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlurnamespace random {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// A class that represents an inline array. It can be used on both CPU and GPU,
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// and also trivially copyable between CPU and GPU.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// Arguments:
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//   T: the array element type;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//   ElementCount: the fixed size of the array;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlurtemplate <typename T, int ElementCount>
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlurclass Array {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur public:
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  PHILOX_DEVICE_INLINE Array() {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    for (int i = 0; i < ElementCount; ++i) {
529e29712e681aefbf08539b6fae50fafdae8cc3Benoit Steiner      data_[i] = T(0);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  PHILOX_DEVICE_INLINE const T& operator[](int index) const {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    return data_[index];
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  PHILOX_DEVICE_INLINE T& operator[](int index) { return data_[index]; }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  size_t size() const { return ElementCount; }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur private:
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  T data_[ElementCount];
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur};
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// A class that encapsulates all the states for a random number generator using
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// the philox_4x32_10 algorithm. Each invocation returns a 128-bit random bits
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// in the form of four uint32.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// There are multiple variants of this algorithm, we picked the 4x32_10 version
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// that is most suited for our applications.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// Since this class is meant to be copied between CPU to GPU, it maintains a
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// value semantics.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// For example: To use this class and populate an array of 1024 randoms on CPU
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// with two threads,
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//  void Fill(PhiloxRandom rnd, uint32* output, int start, int limit) {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//    assert(start % 4 == 0);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//    assert(limit % 4 == 0);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//    rnd.Skip(start / 4);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//    for (int i = start; i < limit; i += 4) {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//      auto sample = rnd();
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//      ... copy sample[0..3] to output[i..i+3]
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//    }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//  }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//  PhiloxRandom rng(seed);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//  PhiloxRandom rng_copy = rng;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//  rng.Skip(1000/4);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//  ... schedule Fill(rng_copy, output, 0, 512) in thread 1;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//  ... schedule Fill(rng_copy, output, 512, 1024) in thread 2;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//  ... wait for thread 1 & 2 to finish executing Fill().
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur//
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// NOTE:
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// 1. PhiloxRandom is trivially copyable.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur// 2. PhiloxRandom is compilable by gcc and nvcc.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlurclass PhiloxRandom {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur public:
52dcb2590bb9274262656c958c105cb5e5cc1300Rohan Jain  using ResultType = Array<uint32, 4>;
52dcb2590bb9274262656c958c105cb5e5cc1300Rohan Jain  using ResultElementType = uint32;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  // The number of elements that will be returned.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  static const int kResultElementCount = 4;
6855bcc08cfcbba1a20699b3d53458a490cde2a8A. Unique TensorFlower  // Cost of generation of a single element (in cycles).
6855bcc08cfcbba1a20699b3d53458a490cde2a8A. Unique TensorFlower  static const int kElementCost = 10;
52dcb2590bb9274262656c958c105cb5e5cc1300Rohan Jain  // The type for the 64-bit key stored in the form of two 32-bit uint
52dcb2590bb9274262656c958c105cb5e5cc1300Rohan Jain  // that are used in the diffusion process.
52dcb2590bb9274262656c958c105cb5e5cc1300Rohan Jain  using Key = Array<uint32, 2>;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  PHILOX_DEVICE_INLINE
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  PhiloxRandom() {}
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  PHILOX_DEVICE_INLINE
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  explicit PhiloxRandom(uint64 seed) {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    key_[0] = static_cast<uint32>(seed);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    key_[1] = static_cast<uint32>(seed >> 32);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  PHILOX_DEVICE_INLINE
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  explicit PhiloxRandom(uint64 seed_lo, uint64 seed_hi) {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    key_[0] = static_cast<uint32>(seed_lo);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    key_[1] = static_cast<uint32>(seed_lo >> 32);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter_[2] = static_cast<uint32>(seed_hi);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter_[3] = static_cast<uint32>(seed_hi >> 32);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
52dcb2590bb9274262656c958c105cb5e5cc1300Rohan Jain  PHILOX_DEVICE_INLINE
52dcb2590bb9274262656c958c105cb5e5cc1300Rohan Jain  PhiloxRandom(ResultType counter, Key key) : counter_(counter), key_(key) {}
52dcb2590bb9274262656c958c105cb5e5cc1300Rohan Jain
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  // Skip the specified number of samples of 128-bits in the current stream.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  PHILOX_DEVICE_INLINE
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  void Skip(uint64 count) {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    const uint32 count_lo = static_cast<uint32>(count);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    uint32 count_hi = static_cast<uint32>(count >> 32);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter_[0] += count_lo;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    if (counter_[0] < count_lo) {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur      ++count_hi;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter_[1] += count_hi;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    if (counter_[1] < count_hi) {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur      if (++counter_[2] == 0) {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur        ++counter_[3];
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur      }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  // Returns a group of four random numbers using the underlying Philox
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  // algorithm.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  PHILOX_DEVICE_INLINE ResultType operator()() {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    ResultType counter = counter_;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    Key key = key_;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    // Run the single rounds for ten times. Manually unrolling the loop
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    // for better performance.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter = ComputeSingleRound(counter, key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    RaiseKey(&key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter = ComputeSingleRound(counter, key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    RaiseKey(&key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter = ComputeSingleRound(counter, key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    RaiseKey(&key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter = ComputeSingleRound(counter, key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    RaiseKey(&key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter = ComputeSingleRound(counter, key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    RaiseKey(&key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter = ComputeSingleRound(counter, key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    RaiseKey(&key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter = ComputeSingleRound(counter, key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    RaiseKey(&key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter = ComputeSingleRound(counter, key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    RaiseKey(&key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter = ComputeSingleRound(counter, key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    RaiseKey(&key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    counter = ComputeSingleRound(counter, key);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    SkipOne();
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    return counter;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur private:
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  // We use the same constants as recommended by the original paper.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  static const uint32 kPhiloxW32A = 0x9E3779B9;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  static const uint32 kPhiloxW32B = 0xBB67AE85;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  static const uint32 kPhiloxM4x32A = 0xD2511F53;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  static const uint32 kPhiloxM4x32B = 0xCD9E8D57;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  // Helper function to skip the next sample of 128-bits in the current stream.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  PHILOX_DEVICE_INLINE void SkipOne() {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    if (++counter_[0] == 0) {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur      if (++counter_[1] == 0) {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur        if (++counter_[2] == 0) {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur          ++counter_[3];
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur        }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur      }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  // Helper function to return the lower and higher 32-bits from two 32-bit
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  // integer multiplications.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  PHILOX_DEVICE_INLINE
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  static void MultiplyHighLow(uint32 a, uint32 b, uint32* result_low,
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur                              uint32* result_high) {
895a0a423bca9118faa66fb144d434e5c06751ccA. Unique TensorFlower#ifndef __CUDA_ARCH__
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    const uint64 product = static_cast<uint64>(a) * b;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    *result_low = static_cast<uint32>(product);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    *result_high = static_cast<uint32>(product >> 32);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#else
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    *result_low = a * b;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    *result_high = __umulhi(a, b);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#endif
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  // Helper function for a single round of the underlying Philox algorithm.
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  PHILOX_DEVICE_INLINE static ResultType ComputeSingleRound(
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur      const ResultType& counter, const Key& key) {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    uint32 lo0;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    uint32 hi0;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    MultiplyHighLow(kPhiloxM4x32A, counter[0], &lo0, &hi0);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    uint32 lo1;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    uint32 hi1;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    MultiplyHighLow(kPhiloxM4x32B, counter[2], &lo1, &hi1);
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    ResultType result;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    result[0] = hi1 ^ counter[1] ^ key[0];
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    result[1] = lo1;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    result[2] = hi0 ^ counter[3] ^ key[1];
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    result[3] = lo0;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    return result;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  PHILOX_DEVICE_INLINE void RaiseKey(Key* key) {
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    (*key)[0] += kPhiloxW32A;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur    (*key)[1] += kPhiloxW32B;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  }
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur private:
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  ResultType counter_;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur  Key key_;
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur};
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur}  // namespace random
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur}  // namespace tensorflow
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur
f41959ccb2d9d4c722fe8fc3351401d53bcf490Manjunath Kudlur#endif  // TENSORFLOW_LIB_RANDOM_PHILOX_RANDOM_H_