doc/hackathon/Cuda_2Arithmetic_8cu_source.html

// @(#)root/tmva/tmva/dnn:$Id$

// Author: Simon Pfreundschuh 13/07/16


/*************************************************************************

 * Copyright (C) 2016, Simon Pfreundschuh                                *

 * All rights reserved.                                                  *

 *                                                                       *

 * For the licensing terms see $ROOTSYS/LICENSE.                         *

 * For the list of contributors see $ROOTSYS/README/CREDITS.             *

 *************************************************************************/


///////////////////////////////////////////////////////////////////

// Contains additional arithmetic functions required by the CUDA //

// neural network implementation.                                //

///////////////////////////////////////////////////////////////////


#include "TMVA/DNN/Architectures/Cuda.h"

#include "TMVA/DNN/Architectures/Cuda/Device.h"

#include "Kernels.cuh"


namespace TMVA

{

namespace DNN

{


//____________________________________________________________________________

template<>


void TCuda<float>::Multiply(TCudaMatrix<float> &C,

                             const TCudaMatrix<float> &A,

                             const TCudaMatrix<float> &B)

{

   int m, n, k;

   m = A.GetNrows();

   k = A.GetNcols();

   n = B.GetNcols();

   float alpha = 1.0, beta = 0.0;


   cudaStream_t s = A.GetComputeStream();

   cublasSetStream(A.GetCublasHandle(), s);


   // Compute C = beta * C + alpha * (A * B)

   cublasSgemm(A.GetCublasHandle(),

               CUBLAS_OP_N, CUBLAS_OP_N,

               m, n, k, & alpha,

               A.GetDataPointer(), m,   // *A, lda

               B.GetDataPointer(), k,   // *B, ldb

               & beta,                  // beta

               C.GetDataPointer(), m);  // *C, ldc


   C.SetComputeStream(s);

}


//____________________________________________________________________________

template<>


void TCuda<double>::Multiply(TCudaMatrix<double> &C,

                             const TCudaMatrix<double> &A,

                             const TCudaMatrix<double> &B)

{

   int m, n, k;

   m = A.GetNrows();

   k = A.GetNcols();

   n = B.GetNcols();

   double alpha = 1.0, beta = 0.0;


   cudaStream_t s = A.GetComputeStream();

   cublasSetStream(A.GetCublasHandle(), s);


   // Compute C = beta * C + alpha * (A * B)

   cublasDgemm(A.GetCublasHandle(),

               CUBLAS_OP_N, CUBLAS_OP_N,

               m, n, k, & alpha,

               A.GetDataPointer(), m,   // *A, lda

               B.GetDataPointer(), k,   // *B, ldb

               & beta,                  // beta

               C.GetDataPointer(), m);  // *C, ldc


   C.SetComputeStream(s);

}


//____________________________________________________________________________

template<>


void TCuda<float>::TransposeMultiply(TCudaMatrix<float> & C,

                                      const TCudaMatrix<float> & A,

                                      const TCudaMatrix<float> & B,

                                      float alpha, float beta)

{

   int m, n, k;

   k = A.GetNrows();

   m = A.GetNcols();

   n = B.GetNcols();

   //float alpha = 1.0, beta = 0.0;


   cudaStream_t s = A.GetComputeStream();

   cublasSetStream(A.GetCublasHandle(), s);


   // Compute C = beta * C + alpha * (A^T * B)

   cublasSgemm(A.GetCublasHandle(),

               CUBLAS_OP_T, CUBLAS_OP_N,

               m, n, k, & alpha,

               A.GetDataPointer(), k,     // *A, lda

               B.GetDataPointer(), k,     // *B, ldb

               & beta,                    // beta

               C.GetDataPointer(), m);    // *C, ldc


   C.SetComputeStream(s);

}


//____________________________________________________________________________

template<>


void TCuda<double>::TransposeMultiply(TCudaMatrix<double> & C,

                                      const TCudaMatrix<double> & A,

                                      const TCudaMatrix<double> & B,

                                      double alpha, double beta)

{

   int m, n, k;

   k = A.GetNrows();

   m = A.GetNcols();

   n = B.GetNcols();

   //double alpha = 1.0, beta = 0.0;


   cudaStream_t s = A.GetComputeStream();

   cublasSetStream(A.GetCublasHandle(), s);


   // Compute C = beta * C + alpha * (A^T * B)

   cublasDgemm(A.GetCublasHandle(),

               CUBLAS_OP_T, CUBLAS_OP_N,

               m, n, k, & alpha,

               A.GetDataPointer(), k,     // *A, lda

               B.GetDataPointer(), k,     // *B, ldb

               & beta,                    // beta

               C.GetDataPointer(), m);    // *C, ldc


   C.SetComputeStream(s);

}


//____________________________________________________________________________

template<typename AFloat>

void TCuda<AFloat>::Hadamard(TCudaMatrix<AFloat> & B,

                             const TCudaMatrix<AFloat> &A)

{

   dim3 blockDims = TDevice::BlockDims2D();

   dim3 gridDims  = TDevice::GridDims2D(B);

   cudaStream_t s = A.GetComputeStream();

   ::TMVA::DNN::Cuda::Hadamard<<<gridDims, blockDims, 0, s>>>(B.GetDataPointer(),

                                                              A.GetDataPointer(),

                                                              A.GetNrows(),

                                                              A.GetNcols());

   B.SetComputeStream(s);

}

//____________________________________________________________________________

template<typename AFloat>

void TCuda<AFloat>::Hadamard(TCudaTensor<AFloat> & B,

                             const TCudaTensor<AFloat> &A)

{

   dim3 blockDims = TDevice::BlockDims2D();

   int ncols = A.GetFirstSize();   // ncols (size X)

   int nrows = A.GetFirstStride(); // nrows  (y size)

   if (ncols == 1) {

      ncols = A.GetWSize();

      nrows = A.GetHSize();

   }


   dim3 gridDims  = TDevice::GridDims2D(nrows, ncols);

   cudaStream_t s = A.GetComputeStream();

   ::TMVA::DNN::Cuda::Hadamard<<<gridDims, blockDims, 0, s>>>(B.GetDataPointer(),

                                                              A.GetDataPointer(),

                                                              nrows,ncols);

   B.SetComputeStream(s);

}


//____________________________________________________________________________

template<typename AFloat>


AFloat TCuda<AFloat>::Sum(const TCudaMatrix<AFloat> & A)

{

   dim3 blockDims = TDevice::BlockDims2D();

   dim3 gridDims  = TDevice::GridDims2D(A);

   cudaStream_t s = A.GetComputeStream();


   TCudaMatrix<AFloat>::ResetDeviceReturn();

   ::TMVA::DNN::Cuda::ReduceMatrix<<<gridDims, blockDims, 0, s>>>(

       TCudaMatrix<AFloat>::GetDeviceReturnPointer(),

       A.GetDataPointer(),

       A.GetNrows(),

       A.GetNcols());

   return TCudaMatrix<AFloat>::GetDeviceReturn();

}


//____________________________________________________________________________

template<>


void TCuda<float>::SumColumns(TCudaMatrix<float> & B,

                              const TCudaMatrix<float> & A,

                              float alpha, float beta)

{

   int m, n;

   m = A.GetNrows();

   n = A.GetNcols();

   //float alpha = 1.0, beta = 0.0;


   cudaStream_t s = A.GetComputeStream();

   cublasSetStream(A.GetCublasHandle(), s);


   // Compute C = beta * C + alpha * (A * B)

   cublasSgemv(A.GetCublasHandle(), CUBLAS_OP_T,

               m, n, & alpha,

               A.GetDataPointer(), m,             // *A, lda

               TCudaMatrix<float>::GetOnes(), 1, // *x, incx

               & beta, B.GetDataPointer(), 1);    // beta, *y, incy


   B.SetComputeStream(s);

}


//____________________________________________________________________________

template<>


void TCuda<double>::SumColumns(TCudaMatrix<double> & B,

                               const TCudaMatrix<double> & A,

                               double alpha, double beta)

{

   int m, n;

   m = A.GetNrows();

   n = A.GetNcols();

   //double alpha = 1.0, beta = 0.0;


   cudaStream_t s = A.GetComputeStream();

   cublasSetStream(A.GetCublasHandle(), s);


   // Compute C = beta * C + alpha * (A * B)

   cublasDgemv(A.GetCublasHandle(), CUBLAS_OP_T,

               m, n, & alpha,

               A.GetDataPointer(), m,             // *A, lda

               TCudaMatrix<double>::GetOnes(), 1, // *x, incx

               & beta, B.GetDataPointer(), 1);    // beta, *y, incy


   B.SetComputeStream(s);

}


template<>


void TCuda<float>::SumRows(TCudaMatrix<float> & B,

                           const TCudaMatrix<float> & A)

{

    int m, n;

    m = A.GetNrows();

    n = A.GetNcols();

    float alpha = 1.0, beta = 0.0;


    cudaStream_t s = A.GetComputeStream();

    cublasSetStream(A.GetCublasHandle(), s);


    // Compute C = beta * C + alpha * (A * B)

    cublasSgemv(A.GetCublasHandle(), CUBLAS_OP_N,

                m, n, & alpha,

                A.GetDataPointer(), m,             // *A, lda

                TCudaMatrix<float>::GetOnes(), 1, // *x, incx

                & beta, B.GetDataPointer(), 1);    // beta, *y, incy


    B.SetComputeStream(s);

}


//____________________________________________________________________________

template<>


void TCuda<double>::SumRows(TCudaMatrix<double> & B,

                            const TCudaMatrix<double> & A)

{

    int m, n;

    m = A.GetNrows();

    n = A.GetNcols();

    double alpha = 1.0, beta = 0.0;


    cudaStream_t s = A.GetComputeStream();

    cublasSetStream(A.GetCublasHandle(), s);


    // Compute C = beta * C + alpha * (A * B)

    cublasDgemv(A.GetCublasHandle(), CUBLAS_OP_N,

                m, n, & alpha,

                A.GetDataPointer(), m,             // *A, lda

                TCudaMatrix<double>::GetOnes(), 1, // *x, incx

                & beta, B.GetDataPointer(), 1);    // beta, *y, incy


    B.SetComputeStream(s);

}


////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

/// \brief Checks two matrices for element-wise equality.

/// \tparam AFloat An architecture-specific floating point number type.

/// \param A The first matrix.

/// \param B The second matrix.

/// \param epsilon Equality tolerance, needed to address floating point arithmetic.

/// \return Whether the two matrices can be considered equal element-wise

////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

template<typename AFloat>


bool TCuda<AFloat>::AlmostEquals(const TCudaMatrix<AFloat> &A, const TCudaMatrix<AFloat> &B, double epsilon)

{

    if (A.GetNrows() != B.GetNrows() || A.GetNcols() != B.GetNcols()) {

        Fatal("AlmostEquals", "The passed matrices have unequal shapes.");

    }


    dim3 blockDims = TDevice::BlockDims2D();

    dim3 gridDims  = TDevice::GridDims2D(A);

    cudaStream_t s = A.GetComputeStream();


    bool * dResult = 0;

    cudaMalloc((void**) &dResult, sizeof(bool));

    cudaMemset(dResult, 1, sizeof(bool));


    ::TMVA::DNN::Cuda::AlmostEquals<<<gridDims, blockDims, 0, s>>>(dResult, A.GetDataPointer(), B.GetDataPointer(),

                                                                   epsilon, A.GetNrows(), A.GetNcols());


    bool result;

    cudaMemcpy(&result, dResult, sizeof(bool), cudaMemcpyDeviceToHost);

    cudaFree(dResult);


    return result;

}


//____________________________________________________________________________

template<>


void TCuda<float>::ScaleAdd(TCudaMatrix<float> & B,

                            const TCudaMatrix<float> & A,

                            float alpha)

{

   cudaStream_t s = 0;

   cublasSetStream(A.GetCublasHandle(), s);

   cublasSaxpy(A.GetCublasHandle(), A.GetNoElements(), &alpha,

               A.GetDataPointer(), 1,

               B.GetDataPointer(), 1);

}


//____________________________________________________________________________

template<>


void TCuda<double>::ScaleAdd(TCudaMatrix<double> & B,

                             const TCudaMatrix<double> & A,

                             double alpha)

{

   cudaStream_t s = 0;

   cublasSetStream(A.GetCublasHandle(), s);

   cublasDaxpy(A.GetCublasHandle(), A.GetNoElements(), &alpha,

               A.GetDataPointer(), 1,

               B.GetDataPointer(), 1);

}


//____________________________________________________________________________

template<typename AFloat>

void TCuda<AFloat>::ScaleAdd(TCudaTensor<AFloat> & B,

                            const TCudaTensor<AFloat> & A,

                            AFloat alpha)

{

   // should re-implemented at tensor level

   for (size_t i = 0; i < A.GetFirstSize(); ++i) {

      TCudaMatrix<AFloat> B_m = B.At(i).GetMatrix();

      TCudaMatrix<AFloat> A_m = A.At(i).GetMatrix();

      ScaleAdd(B_m, A_m, alpha);

   }

}


//____________________________________________________________________________

template<typename AFloat>


void TCuda<AFloat>::ConstAdd(TCudaMatrix<AFloat> &A, AFloat beta)

{

   dim3 blockDims = TDevice::BlockDims2D();

   dim3 gridDims  = TDevice::GridDims2D(A);

   cudaStream_t s = A.GetComputeStream();

   ::TMVA::DNN::Cuda::ConstAdd<<<gridDims, blockDims, 0, s>>>(

       A.GetDataPointer(),

       beta,

       (int) A.GetNrows(),

       (int) A.GetNcols());

}


//____________________________________________________________________________

template<typename AFloat>


void TCuda<AFloat>::ConstMult(TCudaMatrix<AFloat> &A, AFloat beta)

{

   dim3 blockDims = TDevice::BlockDims2D();

   dim3 gridDims  = TDevice::GridDims2D(A);

   cudaStream_t s = A.GetComputeStream();

   ::TMVA::DNN::Cuda::ConstMult<<<gridDims, blockDims, 0, s>>>(

       A.GetDataPointer(),

       beta,

       (int) A.GetNrows(),

       (int) A.GetNcols());

}


//____________________________________________________________________________

template<typename AFloat>


void TCuda<AFloat>::ReciprocalElementWise(TCudaMatrix<AFloat> &A)

{

   dim3 blockDims = TDevice::BlockDims2D();

   dim3 gridDims  = TDevice::GridDims2D(A);

   cudaStream_t s = A.GetComputeStream();

   ::TMVA::DNN::Cuda::ReciprocalElementWise<<<gridDims, blockDims, 0, s>>>(

       A.GetDataPointer(),

       (int) A.GetNrows(),

       (int) A.GetNcols());

}


//____________________________________________________________________________

template<typename AFloat>


void TCuda<AFloat>::SquareElementWise(TCudaMatrix<AFloat> &A)

{

   dim3 blockDims = TDevice::BlockDims2D();

   dim3 gridDims  = TDevice::GridDims2D(A);

   cudaStream_t s = A.GetComputeStream();

   ::TMVA::DNN::Cuda::SquareElementWise<<<gridDims, blockDims, 0, s>>>(

       A.GetDataPointer(),

       (int) A.GetNrows(),

       (int) A.GetNcols());

}


//____________________________________________________________________________

template<typename AFloat>


void TCuda<AFloat>::SqrtElementWise(TCudaMatrix<AFloat> &A)

{

   dim3 blockDims = TDevice::BlockDims2D();

   dim3 gridDims  = TDevice::GridDims2D(A);

   cudaStream_t s = A.GetComputeStream();

   ::TMVA::DNN::Cuda::SqrtElementWise<<<gridDims, blockDims, 0, s>>>(

       A.GetDataPointer(),

       (int) A.GetNrows(),

       (int) A.GetNcols());

}


/// Adam updates

//____________________________________________________________________________

template<typename AFloat>


void TCuda<AFloat>::AdamUpdate(TCudaMatrix<AFloat> &A, const TCudaMatrix<AFloat> & M, const TCudaMatrix<AFloat> & V, AFloat alpha, AFloat eps)

{

   dim3 blockDims = TDevice::BlockDims2D();

   dim3 gridDims  = TDevice::GridDims2D(A);

   cudaStream_t s = A.GetComputeStream();

   ::TMVA::DNN::Cuda::AdamUpdate<<<gridDims, blockDims, 0, s>>>(

       A.GetDataPointer(),

       M.GetDataPointer(),

       V.GetDataPointer(),

       (int) A.GetNrows(),

       (int) A.GetNcols(),

       alpha, eps);

}


//____________________________________________________________________________

template<typename AFloat>


void TCuda<AFloat>::AdamUpdateFirstMom(TCudaMatrix<AFloat> &A, const TCudaMatrix<AFloat> & B, AFloat beta)

{

   dim3 blockDims = TDevice::BlockDims2D();

   dim3 gridDims  = TDevice::GridDims2D(A);

   cudaStream_t s = A.GetComputeStream();

   ::TMVA::DNN::Cuda::AdamUpdateFirstMom<<<gridDims, blockDims, 0, s>>>(

       A.GetDataPointer(),

       B.GetDataPointer(),

       (int) A.GetNrows(),

       (int) A.GetNcols(), beta);

}


//____________________________________________________________________________

template<typename AFloat>


void TCuda<AFloat>::AdamUpdateSecondMom(TCudaMatrix<AFloat> &A, const TCudaMatrix<AFloat> & B, AFloat beta)

{

   dim3 blockDims = TDevice::BlockDims2D();

   dim3 gridDims  = TDevice::GridDims2D(A);

   cudaStream_t s = A.GetComputeStream();

   ::TMVA::DNN::Cuda::AdamUpdateSecondMom<<<gridDims, blockDims, 0, s>>>(

       A.GetDataPointer(),

       B.GetDataPointer(),

       (int) A.GetNrows(),

       (int) A.GetNcols(), beta);

}


} // DNN

} // TMVA

Cuda.h

Device.h

Kernels.cuh

Fatal
void Fatal(const char *location, const char *msgfmt,...)
Use this function in case of a fatal error. It will abort the program.
Definition TError.cxx:267

result
Option_t Option_t TPoint TPoint const char GetTextMagnitude GetFillStyle GetLineColor GetLineWidth GetMarkerStyle GetTextAlign GetTextColor GetTextSize void char Point_t Rectangle_t WindowAttributes_t Float_t Float_t Float_t Int_t Int_t UInt_t UInt_t Rectangle_t result
Definition TGWin32VirtualXProxy.cxx:174

TMVA::DNN::TCudaMatrix
TCudaMatrix Class.
Definition CudaMatrix.h:103

TMVA::DNN::TCudaMatrix::GetNcols
size_t GetNcols() const
Definition CudaMatrix.h:160

TMVA::DNN::TCudaMatrix::GetDeviceReturn
static AFloat GetDeviceReturn()
Transfer the value in the device return buffer to the host.
Definition CudaMatrix.h:301

TMVA::DNN::TCudaMatrix::SetComputeStream
void SetComputeStream(cudaStream_t stream)
Definition CudaMatrix.h:275

TMVA::DNN::TCudaMatrix::GetComputeStream
cudaStream_t GetComputeStream() const
Definition CudaMatrix.h:268

TMVA::DNN::TCudaMatrix::GetNoElements
size_t GetNoElements() const
Definition CudaMatrix.h:161

TMVA::DNN::TCudaMatrix::GetDeviceReturnPointer
static AFloat * GetDeviceReturnPointer()
Return device pointer to the device return buffer.
Definition CudaMatrix.h:151

TMVA::DNN::TCudaMatrix::GetCublasHandle
const cublasHandle_t & GetCublasHandle() const
Definition CudaMatrix.h:165

TMVA::DNN::TCudaMatrix::ResetDeviceReturn
static void ResetDeviceReturn(AFloat value=0.0)
Set the return buffer on the device to the specified value.
Definition CudaMatrix.h:293

TMVA::DNN::TCudaMatrix::GetDataPointer
const AFloat * GetDataPointer() const
Definition CudaMatrix.h:163

TMVA::DNN::TCudaMatrix::GetOnes
static AFloat * GetOnes()
Definition CudaMatrix.h:125

TMVA::DNN::TCudaMatrix::GetNrows
size_t GetNrows() const
Definition CudaMatrix.h:159

TMVA::DNN::TCudaTensor
TCudaTensor Class.
Definition CudaTensor.h:84

TMVA::DNN::TCudaTensor::At
TCudaTensor< AFloat > At(size_t i) const
Definition CudaTensor.h:364

TMVA::DNN::TCudaTensor::GetWSize
size_t GetWSize() const
Definition CudaTensor.h:289

TMVA::DNN::TCudaTensor::GetComputeStream
cudaStream_t GetComputeStream() const
Definition CudaTensor.h:213

TMVA::DNN::TCudaTensor::GetDataPointer
const AFloat * GetDataPointer() const
Definition CudaTensor.h:194

TMVA::DNN::TCudaTensor::GetHSize
size_t GetHSize() const
Definition CudaTensor.h:283

TMVA::DNN::TCudaTensor::GetFirstStride
size_t GetFirstStride() const
Definition CudaTensor.h:276

TMVA::DNN::TCudaTensor::SetComputeStream
void SetComputeStream(cudaStream_t stream)
Definition CudaTensor.h:216

TMVA::DNN::TCudaTensor::GetFirstSize
size_t GetFirstSize() const
Definition CudaTensor.h:274

TMVA::DNN::TCuda::AlmostEquals
static bool AlmostEquals(const Matrix_t &A, const Matrix_t &B, double epsilon=0.1)
Check two matrices for equality, taking floating point arithmetic errors into account.
Definition Arithmetic.cu:291

TMVA::DNN::TCuda::SqrtElementWise
static void SqrtElementWise(Matrix_t &A)
Square root each element of the matrix A and write the result into A.
Definition Arithmetic.cu:411

TMVA::DNN::TCuda::SumRows
static void SumRows(Matrix_t &B, const Matrix_t &A)
extra functions defined only for CPU architecture !!!

TMVA::DNN::TCuda::Multiply
static void Multiply(Matrix_t &C, const Matrix_t &A, const Matrix_t &B)
Standard multiplication of two matrices A and B with the result being written into C.

TMVA::DNN::TCuda::AdamUpdate
static void AdamUpdate(Matrix_t &A, const Matrix_t &M, const Matrix_t &V, Scalar_t alpha, Scalar_t eps)
Adam updates.
Definition Arithmetic.cu:425

TMVA::DNN::TCuda::SumColumns
static void SumColumns(Matrix_t &B, const Matrix_t &A, Scalar_t alpha=1.0, Scalar_t beta=0.)
Sum columns of (m x n) matrix A and write the results into the first m elements in A.

TMVA::DNN::TCuda::AFloat
AReal AFloat
Definition Cuda.h:70

TMVA::DNN::TCuda::AdamUpdateSecondMom
static void AdamUpdateSecondMom(Matrix_t &A, const Matrix_t &B, Scalar_t beta)
Definition Arithmetic.cu:455

TMVA::DNN::TCuda::Hadamard
static void Hadamard(Tensor_t &A, const Tensor_t &B)
In-place Hadamard (element-wise) product of matrices A and B with the result being written into A.

TMVA::DNN::TCuda::ReciprocalElementWise
static void ReciprocalElementWise(Matrix_t &A)
Reciprocal each element of the matrix A and write the result into A.
Definition Arithmetic.cu:385

TMVA::DNN::TCuda::SquareElementWise
static void SquareElementWise(Matrix_t &A)
Square each element of the matrix A and write the result into A.
Definition Arithmetic.cu:398

TMVA::DNN::TCuda::Sum
static Scalar_t Sum(const Matrix_t &A)
Compute the sum of all elements in A.
Definition Arithmetic.cu:172

TMVA::DNN::TCuda::ConstMult
static void ConstMult(Matrix_t &A, Scalar_t beta)
Multiply the constant beta to all the elements of matrix A and write the result into A.
Definition Arithmetic.cu:371

TMVA::DNN::TCuda::AdamUpdateFirstMom
static void AdamUpdateFirstMom(Matrix_t &A, const Matrix_t &B, Scalar_t beta)
Definition Arithmetic.cu:441

TMVA::DNN::TCuda::ConstAdd
static void ConstAdd(Matrix_t &A, Scalar_t beta)
Add the constant beta to all the elements of matrix A and write the result into A.
Definition Arithmetic.cu:357

TMVA::DNN::TCuda::TransposeMultiply
static void TransposeMultiply(Matrix_t &output, const Matrix_t &input, const Matrix_t &Weights, Scalar_t alpha=1.0, Scalar_t beta=0.)
Matrix multiplication of two matrices A and B^T (transposed) with the result being written into C.

TMVA::DNN::TCuda::ScaleAdd
static void ScaleAdd(Matrix_t &A, const Matrix_t &B, Scalar_t beta=1.0)
Adds a the elements in matrix B scaled by c to the elements in the matrix A.

TMVA::DNN::TDevice::BlockDims2D
static dim3 BlockDims2D()
Definition Device.h:55

TMVA::DNN::TDevice::GridDims2D
static dim3 GridDims2D(int nrows, int ncols)
Definition Device.h:74

n
const Int_t n
Definition legend1.C:16

TMVA::DNN::Cuda::SqrtElementWise
__global__ void SqrtElementWise(AFloat *A, int m, int n)
Definition Kernels.cuh:391

TMVA::DNN::Cuda::AdamUpdate
__global__ void AdamUpdate(AFloat *A, const AFloat *M, const AFloat *V, int m, int n, AFloat alpha, AFloat eps)
optimizer kernel functions
Definition Kernels.cuh:408

TMVA::DNN::Cuda::ConstMult
__global__ void ConstMult(AFloat *A, AFloat beta, int m, int n)
Definition Kernels.cuh:349

TMVA::DNN::Cuda::ReduceMatrix
__global__ void ReduceMatrix(AFloat *result, const AFloat *A, int m, int n)
Definition Kernels.cuh:907

TMVA::DNN::Cuda::ConstAdd
__global__ void ConstAdd(AFloat *A, AFloat beta, int m, int n)
Definition Kernels.cuh:335

TMVA::DNN::Cuda::SquareElementWise
__global__ void SquareElementWise(AFloat *A, int m, int n)
Definition Kernels.cuh:377

TMVA::DNN::Cuda::Hadamard
__global__ void Hadamard(AFloat *B, const AFloat *A, int m, int n)
Definition Kernels.cuh:321

TMVA::DNN::Cuda::AlmostEquals
__global__ void AlmostEquals(bool *result, const AFloat *A, const AFloat *B, double epsilon, int m, int n)
Definition Kernels.cuh:949

TMVA::DNN::Cuda::AdamUpdateFirstMom
__global__ void AdamUpdateFirstMom(AFloat *A, const AFloat *B, int m, int n, AFloat beta)
Definition Kernels.cuh:422

TMVA::DNN::Cuda::ReciprocalElementWise
__global__ void ReciprocalElementWise(AFloat *A, int m, int n)
Definition Kernels.cuh:363

TMVA::DNN::Cuda::AdamUpdateSecondMom
__global__ void AdamUpdateSecondMom(AFloat *A, const AFloat *B, int m, int n, AFloat beta)
Definition Kernels.cuh:436

TMVA::DNN
Definition Adadelta.h:36

TMVA
create variable transformations
Definition GeneticMinimizer.h:22

m
TMarker m
Definition textangle.C:8