8 年之前 · a41080d2a6
--- a/doc/doxygen/chapters/api/cuda_extensions.doxy
+++ b/doc/doxygen/chapters/api/cuda_extensions.doxy
@@ -67,6 +67,14 @@ starpu_cublas_init() will initialize CUBLAS on every CUDA device
 
				 controlled by StarPU. This call blocks until CUBLAS has been properly
			
 
				 initialized on every device.
			
 
				 
			
 
				+\fn void starpu_cublas_set_stream(void)
			
 
				+\ingroup API_CUDA_Extensions
			
 
				+This function sets the proper cublas stream. This must be called from the CUDA
			
 
				+codelet before calling cublas kernels, so that they are queued on the proper
			
 
				+CUDA stream. When using one thread per CUDA worker, this function does not
			
 
				+do anything since the cublas stream does not change, and is set once by
			
 
				+starpu_cublas_init().
			
 
				+
			
 
				 \fn void starpu_cublas_shutdown(void)
			
 
				 \ingroup API_CUDA_Extensions
			
 
				 This function synchronously deinitializes the CUBLAS library on
			
--- a/examples/audio/starpu_audio_processing.c
+++ b/examples/audio/starpu_audio_processing.c
@@ -198,6 +198,7 @@ static void band_filter_kernel_gpu(void *descr[], STARPU_ATTRIBUTE_UNUSED void *
 
				 
			
 
				 	localout = plans[workerid].localout;
			
 
				 
			
 
				+	starpu_cublas_set_stream();
			
 
				 	/* FFT */
			
 
				 	cures = cufftExecR2C(plans[workerid].plan, localA, localout);
			
 
				 	STARPU_ASSERT(cures == CUFFT_SUCCESS);
			
--- a/examples/axpy/axpy.c
+++ b/examples/axpy/axpy.c
@@ -74,6 +74,7 @@ void axpy_gpu(void *descr[], STARPU_ATTRIBUTE_UNUSED void *arg)
 
				 	TYPE *block_x = (TYPE *)STARPU_VECTOR_GET_PTR(descr[0]);
			
 
				 	TYPE *block_y = (TYPE *)STARPU_VECTOR_GET_PTR(descr[1]);
			
 
				 
			
 
				+	starpu_cublas_set_stream();
			
 
				 	CUBLASAXPY((int)n, alpha, block_x, 1, block_y, 1);
			
 
				 }
			
 
				 #endif
			
--- a/examples/cg/cg_kernels.c
+++ b/examples/cg/cg_kernels.c
@@ -81,6 +81,7 @@ static void accumulate_variable_cuda(void *descr[], void *cl_arg)
 
				 	TYPE *v_dst = (TYPE *)STARPU_VARIABLE_GET_PTR(descr[0]);
			
 
				 	TYPE *v_src = (TYPE *)STARPU_VARIABLE_GET_PTR(descr[1]);
			
 
				  
			
 
				+	starpu_cublas_set_stream();
			
 
				 	cublasaxpy(1, (TYPE)1.0, v_src, 1, v_dst, 1);
			
 
				 }
			
 
				 #endif
			
@@ -120,6 +121,7 @@ static void accumulate_vector_cuda(void *descr[], void *cl_arg)
 
				 	TYPE *v_src = (TYPE *)STARPU_VECTOR_GET_PTR(descr[1]);
			
 
				 	unsigned n = STARPU_VECTOR_GET_NX(descr[0]);
			
 
				  
			
 
				+	starpu_cublas_set_stream();
			
 
				 	cublasaxpy(n, (TYPE)1.0, v_src, 1, v_dst, 1);
			
 
				 }
			
 
				 #endif
			
@@ -335,6 +337,7 @@ static void scal_kernel_cuda(void *descr[], void *cl_arg)
 
				  
			
 
				 	/* v1 = p1 v1 */
			
 
				 	TYPE alpha = p1;
			
 
				+	starpu_cublas_set_stream();
			
 
				 	cublasscal(n, alpha, v1, 1);
			
 
				 }
			
 
				 #endif
			
@@ -389,6 +392,7 @@ static void gemv_kernel_cuda(void *descr[], void *cl_arg)
 
				 	starpu_codelet_unpack_args(cl_arg, &beta, &alpha);
			
 
				 
			
 
				 	/* Compute v1 = alpha M v2 + beta v1 */
			
 
				+	starpu_cublas_set_stream();
			
 
				 	cublasgemv('N', nx, ny, alpha, M, ld, v2, 1, beta, v1, 1);
			
 
				 }
			
 
				 #endif
			
@@ -504,6 +508,7 @@ static void scal_axpy_kernel_cuda(void *descr[], void *cl_arg)
 
				 	 *	v1 = p1 v1
			
 
				 	 *	v1 = v1 + p2 v2
			
 
				 	 */
			
 
				+	starpu_cublas_set_stream();
			
 
				 	cublasscal(n, p1, v1, 1);
			
 
				 	cublasaxpy(n, p2, v2, 1, v1, 1);
			
 
				 }
			
@@ -584,6 +589,7 @@ static void axpy_kernel_cuda(void *descr[], void *cl_arg)
 
				  
			
 
				 	/* Compute v1 = v1 + p1 * v2.
			
 
				 	 */
			
 
				+	starpu_cublas_set_stream();
			
 
				 	cublasaxpy(n, p1, v2, 1, v1, 1);
			
 
				 }
			
 
				 #endif
			
--- a/examples/cholesky/cholesky_kernels.c
+++ b/examples/cholesky/cholesky_kernels.c
@@ -80,6 +80,8 @@ static inline void chol_common_cpu_codelet_update_u22(void *descr[], int s, STAR
 
				 #ifdef STARPU_USE_CUDA
			
 
				 #ifdef STARPU_HAVE_MAGMA
			
 
				 		cublasSetKernelStream(starpu_cuda_get_local_stream());
			
 
				+#else
			
 
				+		starpu_cublas_set_stream();
			
 
				 #endif
			
 
				 		cublasSgemm('n', 't', dy, dx, dz, 
			
 
				 				-1.0f, left, ld21, right, ld12, 
			
@@ -129,6 +131,8 @@ static inline void chol_common_codelet_update_u21(void *descr[], int s, STARPU_A
 
				 		case 1:
			
 
				 #ifdef STARPU_HAVE_MAGMA
			
 
				 			cublasSetKernelStream(starpu_cuda_get_local_stream());
			
 
				+#else
			
 
				+			starpu_cublas_set_stream();
			
 
				 #endif
			
 
				 			cublasStrsm('R', 'L', 'T', 'N', nx21, ny21, 1.0f, sub11, ld11, sub21, ld21);
			
 
				 			break;
			
@@ -205,6 +209,8 @@ static inline void chol_common_codelet_update_u11(void *descr[], int s, STARPU_A
 
				 #if (MAGMA_VERSION_MAJOR > 1) || (MAGMA_VERSION_MAJOR == 1 && MAGMA_VERSION_MINOR >= 4)
			
 
				 			cublasSetKernelStream(starpu_cuda_get_local_stream());
			
 
				 			magmablasSetKernelStream(starpu_cuda_get_local_stream());
			
 
				+#else
			
 
				+			starpu_cublas_set_stream();
			
 
				 #endif
			
 
				 			ret = magma_spotrf_gpu(MagmaLower, nx, sub11, ld, &info);
			
 
				 			if (ret != MAGMA_SUCCESS)
			
--- a/examples/heat/dw_factolu_kernels.c
+++ b/examples/heat/dw_factolu_kernels.c
@@ -134,6 +134,7 @@ static inline void dw_common_cpu_codelet_update_u22(void *descr[], int s, STARPU
 
				 
			
 
				 #ifdef STARPU_USE_CUDA
			
 
				 		case 1:
			
 
				+			starpu_cublas_set_stream();
			
 
				 			cublasSgemm('n', 'n', dx, dy, dz, -1.0f, left, ld21,
			
 
				 					right, ld12, 1.0f, center, ld22);
			
 
				 			status = cublasGetError();
			
@@ -197,6 +198,7 @@ static inline void dw_common_codelet_update_u12(void *descr[], int s, STARPU_ATT
 
				 			break;
			
 
				 #ifdef STARPU_USE_CUDA
			
 
				 		case 1:
			
 
				+			starpu_cublas_set_stream();
			
 
				 			cublasStrsm('L', 'L', 'N', 'N', ny12, nx12,
			
 
				 					1.0f, sub11, ld11, sub12, ld12);
			
 
				 			status = cublasGetError();
			
@@ -258,6 +260,7 @@ static inline void dw_common_codelet_update_u21(void *descr[], int s, STARPU_ATT
 
				 			break;
			
 
				 #ifdef STARPU_USE_CUDA
			
 
				 		case 1:
			
 
				+			starpu_cublas_set_stream();
			
 
				 			cublasStrsm('R', 'U', 'N', 'U', ny21, nx21, 1.0f, sub11, ld11, sub21, ld21);
			
 
				 			status = cublasGetError();
			
 
				 			if (status != CUBLAS_STATUS_SUCCESS)
			
@@ -338,6 +341,7 @@ static inline void dw_common_codelet_update_u11(void *descr[], int s, STARPU_ATT
 
				 			break;
			
 
				 #ifdef STARPU_USE_CUDA
			
 
				 		case 1:
			
 
				+			starpu_cublas_set_stream();
			
 
				 			for (z = 0; z < nx; z++)
			
 
				 			{
			
 
				 				float pivot;
			
--- a/examples/heat/dw_sparse_cg_kernels.c
+++ b/examples/heat/dw_sparse_cg_kernels.c
@@ -146,6 +146,7 @@ void cublas_codelet_func_3(void *descr[], void *arg)
 
				 	vec = (float *)STARPU_VECTOR_GET_PTR(descr[0]);
			
 
				 	size = STARPU_VECTOR_GET_NX(descr[0]);
			
 
				 
			
 
				+	starpu_cublas_set_stream();
			
 
				 	dot = cublasSdot (size, vec, 1, vec, 1);
			
 
				 
			
 
				 	pb->delta_new = dot;
			
@@ -238,6 +239,7 @@ void cublas_codelet_func_5(void *descr[], void *arg)
 
				 	STARPU_ASSERT(STARPU_VECTOR_GET_NX(descr[0]) == STARPU_VECTOR_GET_NX(descr[1]));
			
 
				 	size = STARPU_VECTOR_GET_NX(descr[0]);
			
 
				 
			
 
				+	starpu_cublas_set_stream();
			
 
				 	dot = cublasSdot (size, vecd, 1, vecq, 1);
			
 
				 
			
 
				 	pb->alpha = pb->delta_new / dot;
			
@@ -281,6 +283,7 @@ void cublas_codelet_func_6(void *descr[], void *arg)
 
				 
			
 
				 	size = STARPU_VECTOR_GET_NX(descr[0]);
			
 
				 
			
 
				+	starpu_cublas_set_stream();
			
 
				 	cublasSaxpy (size, pb->alpha, vecd, 1, vecx, 1);
			
 
				 }
			
 
				 #endif
			
@@ -320,6 +323,7 @@ void cublas_codelet_func_7(void *descr[], void *arg)
 
				 
			
 
				 	size = STARPU_VECTOR_GET_NX(descr[0]);
			
 
				 
			
 
				+	starpu_cublas_set_stream();
			
 
				 	cublasSaxpy (size, -pb->alpha, vecq, 1, vecr, 1);
			
 
				 }
			
 
				 #endif
			
@@ -363,6 +367,7 @@ void cublas_codelet_func_8(void *descr[], void *arg)
 
				 	vecr = (float *)STARPU_VECTOR_GET_PTR(descr[0]);
			
 
				 	size = STARPU_VECTOR_GET_NX(descr[0]);
			
 
				 
			
 
				+	starpu_cublas_set_stream();
			
 
				 	dot = cublasSdot (size, vecr, 1, vecr, 1);
			
 
				 
			
 
				 	pb->delta_old = pb->delta_new;
			
@@ -411,6 +416,7 @@ void cublas_codelet_func_9(void *descr[], void *arg)
 
				 
			
 
				 	size = STARPU_VECTOR_GET_NX(descr[0]);
			
 
				 
			
 
				+	starpu_cublas_set_stream();
			
 
				 	/* d = beta d */
			
 
				 	cublasSscal(size, pb->beta, vecd, 1);
			
 
				 
			
--- a/examples/lu/xlu_kernels.c
+++ b/examples/lu/xlu_kernels.c
@@ -65,6 +65,7 @@ static inline void STARPU_LU(common_u22)(void *descr[],
 
				 #ifdef STARPU_USE_CUDA
			
 
				 		case 1:
			
 
				 		{
			
 
				+			starpu_cublas_set_stream();
			
 
				 			CUBLAS_GEMM('n', 'n', dx, dy, dz,
			
 
				 				*(CUBLAS_TYPE*)&m1, (CUBLAS_TYPE *)right, ld21, (CUBLAS_TYPE *)left, ld12,
			
 
				 				*(CUBLAS_TYPE*)&p1, (CUBLAS_TYPE *)center, ld22);
			
@@ -185,6 +186,7 @@ static inline void STARPU_LU(common_u12)(void *descr[],
 
				 			break;
			
 
				 #ifdef STARPU_USE_CUDA
			
 
				 		case 1:
			
 
				+			starpu_cublas_set_stream();
			
 
				 			CUBLAS_TRSM('L', 'L', 'N', 'N', ny12, nx12,
			
 
				 					*(CUBLAS_TYPE*)&p1, (CUBLAS_TYPE*)sub11, ld11, (CUBLAS_TYPE*)sub12, ld12);
			
 
				 
			
@@ -271,6 +273,7 @@ static inline void STARPU_LU(common_u21)(void *descr[],
 
				 			break;
			
 
				 #ifdef STARPU_USE_CUDA
			
 
				 		case 1:
			
 
				+			starpu_cublas_set_stream();
			
 
				 			CUBLAS_TRSM('R', 'U', 'N', 'U', ny21, nx21,
			
 
				 					*(CUBLAS_TYPE*)&p1, (CUBLAS_TYPE*)sub11, ld11, (CUBLAS_TYPE*)sub21, ld21);
			
 
				 
			
@@ -366,6 +369,7 @@ static inline void STARPU_LU(common_u11)(void *descr[],
 
				 			break;
			
 
				 #ifdef STARPU_USE_CUDA
			
 
				 		case 1:
			
 
				+			starpu_cublas_set_stream();
			
 
				 			for (z = 0; z < nx; z++)
			
 
				 			{
			
 
				 				TYPE pivot;
			
@@ -496,6 +500,7 @@ static inline void STARPU_LU(common_u11_pivot)(void *descr[],
 
				 			break;
			
 
				 #ifdef STARPU_USE_CUDA
			
 
				 		case 1:
			
 
				+			starpu_cublas_set_stream();
			
 
				 			for (z = 0; z < nx; z++)
			
 
				 			{
			
 
				 				TYPE pivot;
			
@@ -614,6 +619,7 @@ static inline void STARPU_LU(common_pivot)(void *descr[],
 
				 			break;
			
 
				 #ifdef STARPU_USE_CUDA
			
 
				 		case 1:
			
 
				+			starpu_cublas_set_stream();
			
 
				 			for (row = 0; row < nx; row++)
			
 
				 			{
			
 
				 				unsigned rowpiv = ipiv[row+first] - first;
			
--- a/examples/mult/xgemm.c
+++ b/examples/mult/xgemm.c
@@ -161,6 +161,7 @@ static void cublas_mult(void *descr[], STARPU_ATTRIBUTE_UNUSED void *arg)
 
				 	unsigned ldB = STARPU_MATRIX_GET_LD(descr[1]);
			
 
				 	unsigned ldC = STARPU_MATRIX_GET_LD(descr[2]);
			
 
				 
			
 
				+	starpu_cublas_set_stream();
			
 
				 	CUBLAS_GEMM('n', 'n', nxC, nyC, nyA, (TYPE)1.0, subA, ldA, subB, ldB,
			
 
				 				     (TYPE)0.0, subC, ldC);
			
 
				 }
			
--- a/examples/pipeline/pipeline.c
+++ b/examples/pipeline/pipeline.c
@@ -101,6 +101,7 @@ void pipeline_cublas_axpy(void *descr[], void *arg)
 
				 	float *y = (float *) STARPU_VECTOR_GET_PTR(descr[1]);
			
 
				 	int n = STARPU_VECTOR_GET_NX(descr[0]);
			
 
				 
			
 
				+	starpu_cublas_set_stream();
			
 
				 	cublasSaxpy(n, 1., x, 1, y, 1);
			
 
				 	cudaStreamSynchronize(starpu_cuda_get_local_stream());
			
 
				 }
			
@@ -143,6 +144,7 @@ void pipeline_cublas_sum(void *descr[], void *arg)
 
				 	int n = STARPU_VECTOR_GET_NX(descr[0]);
			
 
				 	float y;
			
 
				 
			
 
				+	starpu_cublas_set_stream();
			
 
				 	y = cublasSasum(n, x, 1);
			
 
				 
			
 
				 	cudaStreamSynchronize(starpu_cuda_get_local_stream());
			
--- a/examples/reductions/dot_product.c
+++ b/examples/reductions/dot_product.c
@@ -256,6 +256,8 @@ void dot_cuda_func(void *descr[], void *cl_arg)
 
				 	cudaMemcpyAsync(&current_dot, dot, sizeof(DOT_TYPE), cudaMemcpyDeviceToHost, starpu_cuda_get_local_stream());
			
 
				 	cudaStreamSynchronize(starpu_cuda_get_local_stream());
			
 
				 
			
 
				+	if (cublas_version >= 7050)
			
 
				+		starpu_cublas_set_stream();
			
 
				 	local_dot = (DOT_TYPE)cublasSdot(n, local_x, 1, local_y, 1);
			
 
				 
			
 
				 	/* FPRINTF(stderr, "current_dot %f local dot %f -> %f\n", current_dot, local_dot, current_dot + local_dot); */
			
--- a/examples/spmv/dw_block_spmv_kernels.c
+++ b/examples/spmv/dw_block_spmv_kernels.c
@@ -43,6 +43,7 @@ static inline void common_block_spmv(void *descr[], int s, STARPU_ATTRIBUTE_UNUS
 
				 			break;
			
 
				 #ifdef STARPU_USE_CUDA
			
 
				 		case 1:
			
 
				+			starpu_cublas_set_stream();
			
 
				 			cublasSgemv ('t', dx, dy, 1.0f, block, ld, in, 1, 1.0f, out, 1);
			
 
				 			break;
			
 
				 #endif
			
--- a/include/starpu_cublas.h
+++ b/include/starpu_cublas.h
@@ -24,6 +24,7 @@ extern "C"
 
				 #endif
			
 
				 
			
 
				 void starpu_cublas_init(void);
			
 
				+void starpu_cublas_set_stream(void);
			
 
				 void starpu_cublas_shutdown(void);
			
 
				 
			
 
				 #ifdef __cplusplus
			
--- a/src/drivers/cuda/starpu_cublas.c
+++ b/src/drivers/cuda/starpu_cublas.c
@@ -73,3 +73,13 @@ void starpu_cublas_shutdown(void)
 
				 	starpu_execute_on_each_worker(shutdown_cublas_func, NULL, STARPU_CUDA);
			
 
				 #endif
			
 
				 }
			
 
				+
			
 
				+void starpu_cublas_set_stream(void)
			
 
				+{
			
 
				+#ifdef STARPU_USE_CUDA
			
 
				+	if (
			
 
				+		(!_starpu_get_machine_config()->topology.cuda_th_per_stream &&
			
 
				+		 _starpu_get_machine_config()->topology.nworkerpercuda > 1))
			
 
				+		cublasSetKernelStream(starpu_cuda_get_local_stream());
			
 
				+#endif
			
 
				+}
			
--- a/tests/microbenchs/matrix_as_vector.c
+++ b/tests/microbenchs/matrix_as_vector.c
@@ -55,6 +55,7 @@ void vector_cuda_func(void *descr[], void *cl_arg STARPU_ATTRIBUTE_UNUSED)
 
				 	float *matrix = (float *)STARPU_VECTOR_GET_PTR(descr[0]);
			
 
				 	int nx = STARPU_VECTOR_GET_NX(descr[0]);
			
 
				 
			
 
				+	starpu_cublas_set_stream();
			
 
				 	float sum = cublasSasum(nx, matrix, 1);
			
 
				 	sum /= nx;