15 år sedan · 2c390b92c0
--- a/examples/cg/cg.c
+++ b/examples/cg/cg.c
@@ -351,7 +351,7 @@ static void parse_args(int argc, char **argv)
 
																 		}
															
 
																 	        if (strcmp(argv[i], "-h") == 0) {
															
 
																-			fprintf(stderr, "usage: %s [-h] [-nblocks #blocks] [-n problem_size] [-no-reduction]\n", argv[0]);
															
 
																+			fprintf(stderr, "usage: %s [-h] [-nblocks #blocks] [-n problem_size] [-no-reduction] [-maxiter i]\n", argv[0]);
															
 
																 			exit(-1);
															
 
																 			continue;
															
 
																 		}
															
--- a/examples/cg/cg_kernels.c
+++ b/examples/cg/cg_kernels.c
@@ -17,11 +17,6 @@
 
																 #include "cg.h"
															
 
																 #include <math.h>
															
 
																-struct kernel_params {
															
 
																-	TYPE p1;
															
 
																-	TYPE p2;
															
 
																-};
															
 
																-
															
 
																 #if 0
															
 
																 static void print_vector_from_descr(unsigned nx, TYPE *v)
															
 
																 {
															
@@ -271,32 +266,17 @@ void dot_kernel(starpu_data_handle v1,
 
																 		unsigned nblocks,
															
 
																 		int use_reduction)
															
 
																 {
															
 
																-	int ret;
															
 
																-	struct starpu_task *task;
															
 
																-
															
 
																 	/* Blank the accumulation variable */
															
 
																-	task = starpu_task_create();
															
 
																-	task->cl = &bzero_variable_cl;
															
 
																-	task->buffers[0].handle = s;
															
 
																-	task->buffers[0].mode = STARPU_W;
															
 
																-	ret = starpu_task_submit(task);
															
 
																-	assert(!ret);
															
 
																+	starpu_insert_task(&bzero_variable_cl, STARPU_W, s, 0);
															
 
																 	unsigned b;
															
 
																 	for (b = 0; b < nblocks; b++)
															
 
																 	{
															
 
																-		task = starpu_task_create();
															
 
																-
															
 
																-		task->cl = &dot_kernel_cl;
															
 
																-		task->buffers[0].handle = s;
															
 
																-		task->buffers[0].mode = use_reduction?STARPU_REDUX:STARPU_RW;
															
 
																-		task->buffers[1].handle = starpu_data_get_sub_data(v1, 1, b);
															
 
																-		task->buffers[1].mode = STARPU_R;
															
 
																-		task->buffers[2].handle = starpu_data_get_sub_data(v2, 1, b);
															
 
																-		task->buffers[2].mode = STARPU_R;
															
 
																-
															
 
																-		ret = starpu_task_submit(task);
															
 
																-		assert(!ret);
															
 
																+		starpu_insert_task(&dot_kernel_cl,
															
 
																+			use_reduction?STARPU_REDUX:STARPU_RW, s,
															
 
																+			STARPU_R, starpu_data_get_sub_data(v1, 1, b),
															
 
																+			STARPU_R, starpu_data_get_sub_data(v2, 1, b),
															
 
																+			0);
															
 
																 	}
															
 
																 }
															
@@ -307,33 +287,29 @@ void dot_kernel(starpu_data_handle v1,
 
																 #ifdef STARPU_USE_CUDA
															
 
																 static void scal_kernel_cuda(void *descr[], void *cl_arg)
															
 
																 {
															
 
																-	struct kernel_params *params = cl_arg;
															
 
																+	TYPE p1;
															
 
																+	starpu_unpack_cl_args(cl_arg, &p1);
															
 
																 	TYPE *v1 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[0]);
															
 
																 	unsigned n = STARPU_VECTOR_GET_NX(descr[0]);
															
 
																 	/* v1 = p1 v1 */
															
 
																-	TYPE alpha = params->p1;
															
 
																+	TYPE alpha = p1;
															
 
																 	cublasscal(n, alpha, v1, 1);
															
 
																 	cudaThreadSynchronize();
															
 
																-
															
 
																-	free(params);
															
 
																 }
															
 
																 #endif
															
 
																 static void scal_kernel_cpu(void *descr[], void *cl_arg)
															
 
																 {
															
 
																-	struct kernel_params *params = cl_arg;
															
 
																+	TYPE alpha;
															
 
																+	starpu_unpack_cl_args(cl_arg, &alpha);
															
 
																 	TYPE *v1 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[0]);
															
 
																 	unsigned n = STARPU_VECTOR_GET_NX(descr[0]);
															
 
																-	/* v1 = p1 v1 */
															
 
																-	TYPE alpha = params->p1;
															
 
																-
															
 
																+	/* v1 = alpha v1 */
															
 
																 	SCAL(n, alpha, v1, 1);
															
 
																-
															
 
																-	free(params);
															
 
																 }
															
 
																 static struct starpu_perfmodel_t scal_kernel_model = {
															
@@ -358,8 +334,6 @@ static starpu_codelet scal_kernel_cl = {
 
																 #ifdef STARPU_USE_CUDA
															
 
																 static void gemv_kernel_cuda(void *descr[], void *cl_arg)
															
 
																 {
															
 
																-	struct kernel_params *params = cl_arg;
															
 
																-
															
 
																 	TYPE *v1 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[0]);
															
 
																 	TYPE *v2 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[2]);
															
 
																 	TYPE *M = (TYPE *)STARPU_MATRIX_GET_PTR(descr[1]);
															
@@ -368,21 +342,17 @@ static void gemv_kernel_cuda(void *descr[], void *cl_arg)
 
																 	unsigned nx = STARPU_MATRIX_GET_NX(descr[1]);
															
 
																 	unsigned ny = STARPU_MATRIX_GET_NY(descr[1]);
															
 
																-	TYPE alpha = params->p2;
															
 
																-	TYPE beta = params->p1;
															
 
																+	TYPE alpha, beta;
															
 
																+	starpu_unpack_cl_args(cl_arg, &beta, &alpha);
															
 
																 	/* Compute v1 = alpha M v2 + beta v1 */
															
 
																 	cublasgemv('N', nx, ny, alpha, M, ld, v2, 1, beta, v1, 1);
															
 
																 	cudaThreadSynchronize();
															
 
																-
															
 
																-	free(params);
															
 
																 }
															
 
																 #endif
															
 
																 static void gemv_kernel_cpu(void *descr[], void *cl_arg)
															
 
																 {
															
 
																-	struct kernel_params *params = cl_arg;
															
 
																-
															
 
																 	TYPE *v1 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[0]);
															
 
																 	TYPE *v2 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[2]);
															
 
																 	TYPE *M = (TYPE *)STARPU_MATRIX_GET_PTR(descr[1]);
															
@@ -391,13 +361,26 @@ static void gemv_kernel_cpu(void *descr[], void *cl_arg)
 
																 	unsigned nx = STARPU_MATRIX_GET_NX(descr[1]);
															
 
																 	unsigned ny = STARPU_MATRIX_GET_NY(descr[1]);
															
 
																-	TYPE alpha = params->p2;
															
 
																-	TYPE beta = params->p1;
															
 
																+	TYPE alpha, beta;
															
 
																+	starpu_unpack_cl_args(cl_arg, &beta, &alpha);
															
 
																+
															
 
																+	int worker_size = starpu_combined_worker_get_size();
															
 
																+
															
 
																+	if (worker_size > 1)
															
 
																+	{
															
 
																+		/* Parallel CPU task */
															
 
																+		int rank = starpu_combined_worker_get_rank();
															
 
																+		
															
 
																+		int block_size = (ny + worker_size - 1)/worker_size;
															
 
																+		int new_nx = STARPU_MIN(nx, block_size*(rank+1)) - block_size*rank;
															
 
																+
															
 
																+		nx = new_nx;
															
 
																+		v1 = &v1[block_size*rank];
															
 
																+		M = &M[block_size*rank];
															
 
																+	}
															
 
																 	/* Compute v1 = alpha M v2 + beta v1 */
															
 
																 	GEMV("N", nx, ny, alpha, M, ld, v2, 1, beta, v1, 1);
															
 
																-
															
 
																-	free(params);
															
 
																 }
															
 
																 static struct starpu_perfmodel_t gemv_kernel_model = {
															
@@ -407,6 +390,8 @@ static struct starpu_perfmodel_t gemv_kernel_model = {
 
																 static starpu_codelet gemv_kernel_cl = {
															
 
																 	.where = STARPU_CPU|STARPU_CUDA,
															
 
																+	.type = STARPU_SPMD,
															
 
																+	.max_parallelism = INT_MAX,
															
 
																 	.cpu_func = gemv_kernel_cpu,
															
 
																 #ifdef STARPU_USE_CUDA
															
 
																 	.cuda_func = gemv_kernel_cuda,
															
@@ -422,48 +407,28 @@ void gemv_kernel(starpu_data_handle v1,
 
																 		unsigned nblocks,
															
 
																 		int use_reduction)
															
 
																 {
															
 
																-	int ret;
															
 
																-
															
 
																 	unsigned b1, b2;
															
 
																 	for (b2 = 0; b2 < nblocks; b2++)
															
 
																 	{
															
 
																-		struct starpu_task *task = starpu_task_create();
															
 
																-		task->cl = &scal_kernel_cl;
															
 
																-		task->buffers[0].handle = starpu_data_get_sub_data(v1, 1, b2);
															
 
																-		task->buffers[0].mode = STARPU_RW;
															
 
																-		
															
 
																-		struct kernel_params *params = malloc(sizeof(struct kernel_params));
															
 
																-		params->p1 = p1;
															
 
																-
															
 
																-		task->cl_arg = params;
															
 
																-		ret = starpu_task_submit(task);
															
 
																-		assert(!ret);
															
 
																+		starpu_insert_task(&scal_kernel_cl,
															
 
																+			STARPU_RW, starpu_data_get_sub_data(v1, 1, b2),
															
 
																+			STARPU_VALUE, &p1, sizeof(p1),
															
 
																+			0);
															
 
																 	}
															
 
																 	for (b2 = 0; b2 < nblocks; b2++)
															
 
																 	{
															
 
																 		for (b1 = 0; b1 < nblocks; b1++)
															
 
																 		{
															
 
																-			struct starpu_task *task = starpu_task_create();
															
 
																-		
															
 
																-			task->cl = &gemv_kernel_cl;
															
 
																-			task->buffers[0].handle = starpu_data_get_sub_data(v1, 1, b2);
															
 
																-			task->buffers[0].mode = use_reduction?STARPU_REDUX:STARPU_RW;
															
 
																-			task->buffers[1].handle = starpu_data_get_sub_data(matrix, 2, b2, b1);
															
 
																-			task->buffers[1].mode = STARPU_R;
															
 
																-			task->buffers[2].handle = starpu_data_get_sub_data(v2, 1, b1);
															
 
																-			task->buffers[2].mode = STARPU_R;
															
 
																-		
															
 
																-			struct kernel_params *params = malloc(sizeof(struct kernel_params));
															
 
																-			assert(params);
															
 
																-			params->p1 = 1.0;
															
 
																-			params->p2 = p2;
															
 
																-		
															
 
																-			task->cl_arg = params;
															
 
																-		
															
 
																-			ret = starpu_task_submit(task);
															
 
																-			assert(!ret);
															
 
																+			TYPE one = 1.0;
															
 
																+			starpu_insert_task(&gemv_kernel_cl,
															
 
																+				use_reduction?STARPU_REDUX:STARPU_RW,	starpu_data_get_sub_data(v1, 1, b2),
															
 
																+				STARPU_R,	starpu_data_get_sub_data(matrix, 2, b2, b1),
															
 
																+				STARPU_R,	starpu_data_get_sub_data(v2, 1, b1),
															
 
																+				STARPU_VALUE,	&one,	sizeof(one),
															
 
																+				STARPU_VALUE,	&p2,	sizeof(p2),
															
 
																+				0);
															
 
																 		}
															
 
																 	}
															
 
																 }
															
@@ -474,7 +439,8 @@ void gemv_kernel(starpu_data_handle v1,
 
																 #ifdef STARPU_USE_CUDA
															
 
																 static void scal_axpy_kernel_cuda(void *descr[], void *cl_arg)
															
 
																 {
															
 
																-	struct kernel_params *params = cl_arg;
															
 
																+	TYPE p1, p2;
															
 
																+	starpu_unpack_cl_args(cl_arg, &p1, &p2);
															
 
																 	TYPE *v1 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[0]);
															
 
																 	TYPE *v2 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[1]);
															
@@ -485,17 +451,16 @@ static void scal_axpy_kernel_cuda(void *descr[], void *cl_arg)
 
																 	 *	v1 = p1 v1
															
 
																 	 *	v1 = v1 + p2 v2
															
 
																 	 */
															
 
																-	cublasscal(n, params->p1, v1, 1);
															
 
																-	cublasaxpy(n, params->p2, v2, 1, v1, 1);
															
 
																+	cublasscal(n, p1, v1, 1);
															
 
																+	cublasaxpy(n, p2, v2, 1, v1, 1);
															
 
																 	cudaThreadSynchronize();
															
 
																-
															
 
																-	free(params);
															
 
																 }
															
 
																 #endif
															
 
																 static void scal_axpy_kernel_cpu(void *descr[], void *cl_arg)
															
 
																 {
															
 
																-	struct kernel_params *params = cl_arg;
															
 
																+	TYPE p1, p2;
															
 
																+	starpu_unpack_cl_args(cl_arg, &p1, &p2);
															
 
																 	TYPE *v1 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[0]);
															
 
																 	TYPE *v2 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[1]);
															
@@ -506,10 +471,8 @@ static void scal_axpy_kernel_cpu(void *descr[], void *cl_arg)
 
																 	 *	v1 = p1 v1
															
 
																 	 *	v1 = v1 + p2 v2
															
 
																 	 */
															
 
																-	SCAL(nx, params->p1, v1, 1);
															
 
																-	AXPY(nx, params->p2, v2, 1, v1, 1);
															
 
																-
															
 
																-	free(params);
															
 
																+	SCAL(nx, p1, v1, 1);
															
 
																+	AXPY(nx, p2, v2, 1, v1, 1);
															
 
																 }
															
 
																 static struct starpu_perfmodel_t scal_axpy_kernel_model = {
															
@@ -531,28 +494,15 @@ void scal_axpy_kernel(starpu_data_handle v1, TYPE p1,
 
																 			starpu_data_handle v2, TYPE p2,
															
 
																 			unsigned nblocks)
															
 
																 {
															
 
																-	int ret;
															
 
																-
															
 
																 	unsigned b;
															
 
																 	for (b = 0; b < nblocks; b++)
															
 
																 	{
															
 
																-		struct starpu_task *task = starpu_task_create();
															
 
																-
															
 
																-		task->cl = &scal_axpy_kernel_cl;
															
 
																-		task->buffers[0].handle = starpu_data_get_sub_data(v1, 1, b);
															
 
																-		task->buffers[0].mode = STARPU_RW;
															
 
																-		task->buffers[1].handle = starpu_data_get_sub_data(v2, 1, b);
															
 
																-		task->buffers[1].mode = STARPU_R;
															
 
																-	
															
 
																-		struct kernel_params *params = malloc(sizeof(struct kernel_params));
															
 
																-		assert(params);
															
 
																-		params->p1 = p1;
															
 
																-		params->p2 = p2;
															
 
																-	
															
 
																-		task->cl_arg = params;
															
 
																-	
															
 
																-		ret = starpu_task_submit(task);
															
 
																-		assert(!ret);
															
 
																+		starpu_insert_task(&scal_axpy_kernel_cl,
															
 
																+			STARPU_RW, starpu_data_get_sub_data(v1, 1, b),
															
 
																+			STARPU_R,  starpu_data_get_sub_data(v2, 1, b),
															
 
																+			STARPU_VALUE, &p1, sizeof(p1),
															
 
																+			STARPU_VALUE, &p2, sizeof(p2),
															
 
																+			0);
															
 
																 	}
															
 
																 }
															
@@ -563,7 +513,8 @@ void scal_axpy_kernel(starpu_data_handle v1, TYPE p1,
 
																 #ifdef STARPU_USE_CUDA
															
 
																 static void axpy_kernel_cuda(void *descr[], void *cl_arg)
															
 
																 {
															
 
																-	struct kernel_params *params = cl_arg;
															
 
																+	TYPE p1;
															
 
																+	starpu_unpack_cl_args(cl_arg, &p1);
															
 
																 	TYPE *v1 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[0]);
															
 
																 	TYPE *v2 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[1]);
															
@@ -572,16 +523,15 @@ static void axpy_kernel_cuda(void *descr[], void *cl_arg)
 
																 	/* Compute v1 = v1 + p1 * v2.
															
 
																 	 */
															
 
																-	cublasaxpy(n, params->p1, v2, 1, v1, 1);
															
 
																+	cublasaxpy(n, p1, v2, 1, v1, 1);
															
 
																 	cudaThreadSynchronize();
															
 
																-
															
 
																-	free(params);
															
 
																 }
															
 
																 #endif
															
 
																 static void axpy_kernel_cpu(void *descr[], void *cl_arg)
															
 
																 {
															
 
																-	struct kernel_params *params = cl_arg;
															
 
																+	TYPE p1;
															
 
																+	starpu_unpack_cl_args(cl_arg, &p1);
															
 
																 	TYPE *v1 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[0]);
															
 
																 	TYPE *v2 = (TYPE *)STARPU_VECTOR_GET_PTR(descr[1]);
															
@@ -590,9 +540,7 @@ static void axpy_kernel_cpu(void *descr[], void *cl_arg)
 
																 	/* Compute v1 = p1 * v1 + p2 * v2.
															
 
																 	 */
															
 
																-	AXPY(nx, params->p1, v2, 1, v1, 1);
															
 
																-
															
 
																-	free(params);
															
 
																+	AXPY(nx, p1, v2, 1, v1, 1);
															
 
																 }
															
 
																 static struct starpu_perfmodel_t axpy_kernel_model = {
															
@@ -614,27 +562,14 @@ void axpy_kernel(starpu_data_handle v1,
 
																 		starpu_data_handle v2, TYPE p1,
															
 
																 		unsigned nblocks)
															
 
																 {
															
 
																-	int ret;
															
 
																 	unsigned b;
															
 
																-
															
 
																 	for (b = 0; b < nblocks; b++)
															
 
																 	{
															
 
																-		struct starpu_task *task = starpu_task_create();
															
 
																-	
															
 
																-		task->cl = &axpy_kernel_cl;
															
 
																-		task->buffers[0].handle = starpu_data_get_sub_data(v1, 1, b);
															
 
																-		task->buffers[0].mode = STARPU_RW;
															
 
																-		task->buffers[1].handle = starpu_data_get_sub_data(v2, 1, b);
															
 
																-		task->buffers[1].mode = STARPU_R;
															
 
																-	
															
 
																-		struct kernel_params *params = malloc(sizeof(struct kernel_params));
															
 
																-		assert(params);
															
 
																-		params->p1 = p1;
															
 
																-	
															
 
																-		task->cl_arg = params;
															
 
																-	
															
 
																-		ret = starpu_task_submit(task);
															
 
																-		assert(!ret);
															
 
																+		starpu_insert_task(&axpy_kernel_cl,
															
 
																+			STARPU_RW, starpu_data_get_sub_data(v1, 1, b),
															
 
																+			STARPU_R,  starpu_data_get_sub_data(v2, 1, b),
															
 
																+			STARPU_VALUE, &p1, sizeof(p1),
															
 
																+			0);
															
 
																 	}
															
 
																 }
															
@@ -685,20 +620,12 @@ static starpu_codelet copy_handle_cl = {
 
																 void copy_handle(starpu_data_handle dst, starpu_data_handle src, unsigned nblocks)
															
 
																 {
															
 
																-	int ret;
															
 
																 	unsigned b;
															
 
																-
															
 
																 	for (b = 0; b < nblocks; b++)
															
 
																 	{
															
 
																-		struct starpu_task *task = starpu_task_create();
															
 
																-	
															
 
																-		task->cl = &copy_handle_cl;
															
 
																-		task->buffers[0].handle = starpu_data_get_sub_data(dst, 1, b);
															
 
																-		task->buffers[0].mode = STARPU_W;
															
 
																-		task->buffers[1].handle = starpu_data_get_sub_data(src, 1, b);
															
 
																-		task->buffers[1].mode = STARPU_R;
															
 
																-	
															
 
																-		ret = starpu_task_submit(task);
															
 
																-		assert(!ret);
															
 
																+		starpu_insert_task(&copy_handle_cl,
															
 
																+			STARPU_W, starpu_data_get_sub_data(dst, 1, b),
															
 
																+			STARPU_R, starpu_data_get_sub_data(src, 1, b),
															
 
																+			0);
															
 
																 	}
															
 
																 }