лет назад: 12 · b24213f35d
--- a/doc/doxygen/chapters/api/data_interfaces.doxy
+++ b/doc/doxygen/chapters/api/data_interfaces.doxy
@@ -241,6 +241,12 @@ starpu_data_handle_t var_handle;
 
				 starpu_variable_data_register(&var_handle, STARPU_MAIN_RAM, (uintptr_t)&var, sizeof(var));
			
 
				 \endcode
			
 
				 
			
 
				+\fn void starpu_variable_ptr_register(starpu_data_handle_t handle, unsigned node, uintptr_t ptr, uintptr_t dev_handle, size_t offset)
			
 
				+\ingroup API_Data_Interfaces
			
 
				+Register into the \p handle that to store data on node \p node it should use the
			
 
				+buffer located at \p ptr, or device handle \p dev_handle and offset \p offset
			
 
				+(for OpenCL, notably)
			
 
				+
			
 
				 \fn void starpu_vector_data_register(starpu_data_handle_t *handle, unsigned home_node, uintptr_t ptr, uint32_t nx, size_t elemsize)
			
 
				 \ingroup API_Data_Interfaces
			
 
				 Register the \p nx elemsize-byte elements pointed to by \p ptr and initialize \p handle to represent it.
			
@@ -252,6 +258,12 @@ starpu_data_handle_t vector_handle;
 
				 starpu_vector_data_register(&vector_handle, STARPU_MAIN_RAM, (uintptr_t)vector, NX, sizeof(vector[0]));
			
 
				 \endcode
			
 
				 
			
 
				+\fn void starpu_vector_ptr_register(starpu_data_handle_t handle, unsigned node, uintptr_t ptr, uintptr_t dev_handle, size_t offset)
			
 
				+\ingroup API_Data_Interfaces
			
 
				+Register into the \p handle that to store data on node \p node it should use the
			
 
				+buffer located at \p ptr, or device handle \p dev_handle and offset \p offset
			
 
				+(for OpenCL, notably)
			
 
				+
			
 
				 \fn void starpu_matrix_data_register(starpu_data_handle_t *handle, unsigned home_node, uintptr_t ptr, uint32_t ld, uint32_t nx, uint32_t ny, size_t elemsize)
			
 
				 \ingroup API_Data_Interfaces
			
 
				 Register the \p nx x \p  ny 2D matrix of \p elemsize-byte elements pointed
			
@@ -267,6 +279,12 @@ matrix = (float*)malloc(width * height * sizeof(float));
 
				 starpu_matrix_data_register(&matrix_handle, STARPU_MAIN_RAM, (uintptr_t)matrix, width, width, height, sizeof(float));
			
 
				 \endcode
			
 
				 
			
 
				+\fn void starpu_matrix_ptr_register(starpu_data_handle_t handle, unsigned node, uintptr_t ptr, uintptr_t dev_handle, size_t offset, uint32_t ld)
			
 
				+\ingroup API_Data_Interfaces
			
 
				+Register into the \p handle that to store data on node \p node it should use the
			
 
				+buffer located at \p ptr, or device handle \p dev_handle and offset \p offset
			
 
				+(for OpenCL, notably), with \p ld elements between rows.
			
 
				+
			
 
				 \fn void starpu_block_data_register(starpu_data_handle_t *handle, unsigned home_node, uintptr_t ptr, uint32_t ldy, uint32_t ldz, uint32_t nx, uint32_t ny, uint32_t nz, size_t elemsize)
			
 
				 \ingroup API_Data_Interfaces
			
 
				 Register the \p nx x \p ny x \p nz 3D matrix of \p elemsize byte elements
			
@@ -281,6 +299,12 @@ block = (float*)malloc(nx*ny*nz*sizeof(float));
 
				 starpu_block_data_register(&block_handle, STARPU_MAIN_RAM, (uintptr_t)block, nx, nx*ny, nx, ny, nz, sizeof(float));
			
 
				 \endcode
			
 
				 
			
 
				+\fn void starpu_block_ptr_register(starpu_data_handle_t handle, unsigned node, uintptr_t ptr, uintptr_t dev_handle, size_t offset, uint32_t ldy, uint32_t ldz)
			
 
				+\ingroup API_Data_Interfaces
			
 
				+Register into the \p handle that to store data on node \p node it should use the
			
 
				+buffer located at \p ptr, or device handle \p dev_handle and offset \p offset
			
 
				+(for OpenCL, notably), with \p ldy elements between rows and \ldz elements between z planes.
			
 
				+
			
 
				 \fn void starpu_bcsr_data_register(starpu_data_handle_t *handle, unsigned home_node, uint32_t nnz, uint32_t nrow, uintptr_t nzval, uint32_t *colind, uint32_t *rowptr, uint32_t firstentry, uint32_t r, uint32_t c, size_t elemsize)
			
 
				 \ingroup API_Data_Interfaces
			
 
				 This variant of starpu_data_register() uses the BCSR (Blocked
			
--- a/doc/doxygen/chapters/api/data_management.doxy
+++ b/doc/doxygen/chapters/api/data_management.doxy
@@ -109,6 +109,12 @@ vector or matrix) which can be registered by the means of helper
 
				 functions (e.g. starpu_vector_data_register() or
			
 
				 starpu_matrix_data_register()).
			
 
				 
			
 
				+\fn void starpu_data_ptr_register(starpu_data_handle_t handle, unsigned node)
			
 
				+\ingroup API_Data_Management
			
 
				+Register that a buffer for \p handle on \p node will be set. This is typically
			
 
				+used by starpu_*_ptr_register helpers before setting the interface pointers for
			
 
				+this node, to tell the core that that is now allocated.
			
 
				+
			
 
				 \fn void starpu_data_register_same(starpu_data_handle_t *handledst, starpu_data_handle_t handlesrc)
			
 
				 \ingroup API_Data_Management
			
 
				 Register a new piece of data into the handle \p handledst with the
			
--- a/include/starpu_data_interfaces.h
+++ b/include/starpu_data_interfaces.h
@@ -125,6 +125,7 @@ struct starpu_data_interface_ops
 
				 int starpu_data_interface_get_next_id(void);
			
 
				 
			
 
				 void starpu_data_register(starpu_data_handle_t *handleptr, unsigned home_node, void *data_interface, struct starpu_data_interface_ops *ops);
			
 
				+void starpu_data_ptr_register(starpu_data_handle_t handle, unsigned node);
			
 
				 void starpu_data_register_same(starpu_data_handle_t *handledst, starpu_data_handle_t handlesrc);
			
 
				 
			
 
				 void *starpu_data_handle_to_pointer(starpu_data_handle_t handle, unsigned node);
			
@@ -148,6 +149,7 @@ struct starpu_matrix_interface
 
				 };
			
 
				 
			
 
				 void starpu_matrix_data_register(starpu_data_handle_t *handle, unsigned home_node, uintptr_t ptr, uint32_t ld, uint32_t nx, uint32_t ny, size_t elemsize);
			
 
				+void starpu_matrix_ptr_register(starpu_data_handle_t handle, unsigned node, uintptr_t ptr, uintptr_t dev_handle, size_t offset, uint32_t ld);
			
 
				 uint32_t starpu_matrix_get_nx(starpu_data_handle_t handle);
			
 
				 uint32_t starpu_matrix_get_ny(starpu_data_handle_t handle);
			
 
				 uint32_t starpu_matrix_get_local_ld(starpu_data_handle_t handle);
			
@@ -216,6 +218,7 @@ struct starpu_block_interface
 
				 };
			
 
				 
			
 
				 void starpu_block_data_register(starpu_data_handle_t *handle, unsigned home_node, uintptr_t ptr, uint32_t ldy, uint32_t ldz, uint32_t nx, uint32_t ny, uint32_t nz, size_t elemsize);
			
 
				+void starpu_block_ptr_register(starpu_data_handle_t handle, unsigned node, uintptr_t ptr, uintptr_t dev_handle, size_t offset, uint32_t ldy, uint32_t ldz);
			
 
				 uint32_t starpu_block_get_nx(starpu_data_handle_t handle);
			
 
				 uint32_t starpu_block_get_ny(starpu_data_handle_t handle);
			
 
				 uint32_t starpu_block_get_nz(starpu_data_handle_t handle);
			
@@ -246,6 +249,7 @@ struct starpu_vector_interface
 
				 };
			
 
				 
			
 
				 void starpu_vector_data_register(starpu_data_handle_t *handle, unsigned home_node, uintptr_t ptr, uint32_t nx, size_t elemsize);
			
 
				+void starpu_vector_ptr_register(starpu_data_handle_t handle, unsigned node, uintptr_t ptr, uintptr_t dev_handle, size_t offset);
			
 
				 uint32_t starpu_vector_get_nx(starpu_data_handle_t handle);
			
 
				 size_t starpu_vector_get_elemsize(starpu_data_handle_t handle);
			
 
				 uintptr_t starpu_vector_get_local_ptr(starpu_data_handle_t handle);
			
@@ -267,6 +271,7 @@ struct starpu_variable_interface
 
				 };
			
 
				 
			
 
				 void starpu_variable_data_register(starpu_data_handle_t *handle, unsigned home_node, uintptr_t ptr, size_t size);
			
 
				+void starpu_variable_ptr_register(starpu_data_handle_t handle, unsigned node, uintptr_t ptr, uintptr_t dev_handle, size_t offset);
			
 
				 size_t starpu_variable_get_elemsize(starpu_data_handle_t handle);
			
 
				 uintptr_t starpu_variable_get_local_ptr(starpu_data_handle_t handle);
			
 
				 
			
--- a/src/datawizard/interfaces/block_interface.c
+++ b/src/datawizard/interfaces/block_interface.c
@@ -169,6 +169,18 @@ void starpu_block_data_register(starpu_data_handle_t *handleptr, unsigned home_n
 
				 	starpu_data_register(handleptr, home_node, &block_interface, &starpu_interface_block_ops);
			
 
				 }
			
 
				 
			
 
				+void starpu_block_ptr_register(starpu_data_handle_t handle, unsigned node,
			
 
				+			uintptr_t ptr, uintptr_t dev_handle, size_t offset, uint32_t ldy, uint32_t ldz)
			
 
				+{
			
 
				+	struct starpu_block_interface *interface = starpu_data_get_interface_on_node(handle, node);
			
 
				+	starpu_data_ptr_register(handle, node);
			
 
				+	interface->ptr = ptr;
			
 
				+	interface->dev_handle = dev_handle;
			
 
				+	interface->offset = offset;
			
 
				+	interface->ldy = ldy;
			
 
				+	interface->ldz = ldz;
			
 
				+}
			
 
				+
			
 
				 static uint32_t footprint_block_interface_crc32(starpu_data_handle_t handle)
			
 
				 {
			
 
				 	uint32_t hash;
			
--- a/src/datawizard/interfaces/data_interface.c
+++ b/src/datawizard/interfaces/data_interface.c
@@ -295,6 +295,17 @@ static void _starpu_register_new_data(starpu_data_handle_t handle,
 
				 	}
			
 
				 }
			
 
				 
			
 
				+void starpu_data_ptr_register(starpu_data_handle_t handle, unsigned node)
			
 
				+{
			
 
				+	struct _starpu_data_replicate *replicate = &handle->per_node[node];
			
 
				+
			
 
				+	_starpu_spin_lock(&handle->header_lock);
			
 
				+	STARPU_ASSERT_MSG(replicate->allocated == 0, "starpu_data_ptr_register must be called right after starpu_data_register");
			
 
				+	replicate->allocated = 1;
			
 
				+	replicate->automatically_allocated = 0;
			
 
				+	_starpu_spin_unlock(&handle->header_lock);
			
 
				+}
			
 
				+
			
 
				 int _starpu_data_handle_init(starpu_data_handle_t handle, struct starpu_data_interface_ops *interface_ops, unsigned int mf_node)
			
 
				 {
			
 
				 	unsigned node;
			
--- a/src/datawizard/interfaces/matrix_interface.c
+++ b/src/datawizard/interfaces/matrix_interface.c
@@ -178,6 +178,17 @@ void starpu_matrix_data_register(starpu_data_handle_t *handleptr, unsigned home_
 
				 	starpu_data_register(handleptr, home_node, &matrix_interface, &starpu_interface_matrix_ops);
			
 
				 }
			
 
				 
			
 
				+void starpu_matrix_ptr_register(starpu_data_handle_t handle, unsigned node,
			
 
				+			uintptr_t ptr, uintptr_t dev_handle, size_t offset, uint32_t ld)
			
 
				+{
			
 
				+	struct starpu_matrix_interface *interface = starpu_data_get_interface_on_node(handle, node);
			
 
				+	starpu_data_ptr_register(handle, node);
			
 
				+	interface->ptr = ptr;
			
 
				+	interface->dev_handle = dev_handle;
			
 
				+	interface->offset = offset;
			
 
				+	interface->ld = ld;
			
 
				+}
			
 
				+
			
 
				 static uint32_t footprint_matrix_interface_crc32(starpu_data_handle_t handle)
			
 
				 {
			
 
				 	return starpu_hash_crc32c_be(starpu_matrix_get_nx(handle), starpu_matrix_get_ny(handle));
			
--- a/src/datawizard/interfaces/variable_interface.c
+++ b/src/datawizard/interfaces/variable_interface.c
@@ -119,6 +119,16 @@ void starpu_variable_data_register(starpu_data_handle_t *handleptr, unsigned hom
 
				 	starpu_data_register(handleptr, home_node, &variable, &starpu_interface_variable_ops);
			
 
				 }
			
 
				 
			
 
				+void starpu_variable_ptr_register(starpu_data_handle_t handle, unsigned node,
			
 
				+			uintptr_t ptr, uintptr_t dev_handle, size_t offset)
			
 
				+{
			
 
				+	struct starpu_variable_interface *interface = starpu_data_get_interface_on_node(handle, node);
			
 
				+	starpu_data_ptr_register(handle, node);
			
 
				+	interface->ptr = ptr;
			
 
				+	interface->dev_handle = dev_handle;
			
 
				+	interface->offset = offset;
			
 
				+}
			
 
				+
			
 
				 
			
 
				 static uint32_t footprint_variable_interface_crc32(starpu_data_handle_t handle)
			
 
				 {
			
--- a/src/datawizard/interfaces/vector_interface.c
+++ b/src/datawizard/interfaces/vector_interface.c
@@ -124,6 +124,16 @@ void starpu_vector_data_register(starpu_data_handle_t *handleptr, unsigned home_
 
				 	starpu_data_register(handleptr, home_node, &vector, &starpu_interface_vector_ops);
			
 
				 }
			
 
				 
			
 
				+void starpu_vector_ptr_register(starpu_data_handle_t handle, unsigned node,
			
 
				+			uintptr_t ptr, uintptr_t dev_handle, size_t offset)
			
 
				+{
			
 
				+	struct starpu_vector_interface *interface = starpu_data_get_interface_on_node(handle, node);
			
 
				+	starpu_data_ptr_register(handle, node);
			
 
				+	interface->ptr = ptr;
			
 
				+	interface->dev_handle = dev_handle;
			
 
				+	interface->offset = offset;
			
 
				+}
			
 
				+
			
 
				 
			
 
				 static uint32_t footprint_vector_interface_crc32(starpu_data_handle_t handle)
			
 
				 {
			
--- a/tests/Makefile.am
+++ b/tests/Makefile.am
@@ -198,6 +198,7 @@ noinst_PROGRAMS =				\
 
				 	datawizard/in_place_partition   	\
			
 
				 	datawizard/partition_lazy		\
			
 
				 	datawizard/gpu_register   		\
			
 
				+	datawizard/gpu_ptr_register   		\
			
 
				 	datawizard/wt_host			\
			
 
				 	datawizard/wt_broadcast			\
			
 
				 	datawizard/readonly			\
			
@@ -383,6 +384,18 @@ datawizard_gpu_register_SOURCES +=	\
 
				 	datawizard/scal_opencl.cl
			
 
				 endif
			
 
				 
			
 
				+datawizard_gpu_ptr_register_SOURCES =	\
			
 
				+	datawizard/gpu_ptr_register.c	\
			
 
				+	datawizard/scal.c
			
 
				+if STARPU_USE_CUDA
			
 
				+datawizard_gpu_ptr_register_SOURCES +=	\
			
 
				+	datawizard/scal_cuda.cu
			
 
				+endif
			
 
				+if STARPU_USE_OPENCL
			
 
				+datawizard_gpu_ptr_register_SOURCES +=	\
			
 
				+	datawizard/scal_opencl.cl
			
 
				+endif
			
 
				+
			
 
				 datawizard_wt_host_SOURCES =			\
			
 
				 	datawizard/wt_host.c
			
 
				 datawizard_wt_broadcast_SOURCES =		\
			
--- a/tests/datawizard/gpu_ptr_register.c
+++ b/tests/datawizard/gpu_ptr_register.c
@@ -0,0 +1,293 @@
 
				+/* StarPU --- Runtime system for heterogeneous multicore architectures.
			
 
				+ *
			
 
				+ * Copyright (C) 2011-2012, 2014  Université de Bordeaux 1
			
 
				+ * Copyright (C) 2012 inria
			
 
				+ *
			
 
				+ * StarPU is free software; you can redistribute it and/or modify
			
 
				+ * it under the terms of the GNU Lesser General Public License as published by
			
 
				+ * the Free Software Foundation; either version 2.1 of the License, or (at
			
 
				+ * your option) any later version.
			
 
				+ *
			
 
				+ * StarPU is distributed in the hope that it will be useful, but
			
 
				+ * WITHOUT ANY WARRANTY; without even the implied warranty of
			
 
				+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
			
 
				+ *
			
 
				+ * See the GNU Lesser General Public License in COPYING.LGPL for more details.
			
 
				+ */
			
 
				+
			
 
				+#include <starpu.h>
			
 
				+#include "../helper.h"
			
 
				+#include "scal.h"
			
 
				+
			
 
				+#if ! (defined(STARPU_USE_OPENCL) || defined(STARPU_USE_CUDA))
			
 
				+int main(int argc, char **argv)
			
 
				+{
			
 
				+	return STARPU_TEST_SKIPPED;
			
 
				+}
			
 
				+#else
			
 
				+
			
 
				+static int
			
 
				+submit_tasks(starpu_data_handle_t handle, int pieces, int n)
			
 
				+{
			
 
				+	int i, ret;
			
 
				+
			
 
				+	for (i = 0; i < pieces; i++)
			
 
				+	{
			
 
				+		struct starpu_task *task = starpu_task_create();
			
 
				+
			
 
				+		task->handles[0] = starpu_data_get_sub_data(handle, 1, i);
			
 
				+		task->cl = &scal_codelet;
			
 
				+		task->execute_on_a_specific_worker = 1;
			
 
				+		task->workerid = i%n;
			
 
				+
			
 
				+		ret = starpu_task_submit(task);
			
 
				+		if (ret == -ENODEV)
			
 
				+			return -ENODEV;
			
 
				+		STARPU_CHECK_RETURN_VALUE(ret, "starpu_task_submit");
			
 
				+	}
			
 
				+
			
 
				+	ret = starpu_task_wait_for_all();
			
 
				+	STARPU_CHECK_RETURN_VALUE(ret, "starpu_task_wait_for_all");
			
 
				+
			
 
				+	return 0;
			
 
				+}
			
 
				+
			
 
				+static int
			
 
				+find_a_worker(enum starpu_worker_archtype type)
			
 
				+{
			
 
				+	int worker;
			
 
				+	int ret = starpu_worker_get_ids_by_type(type, &worker, 1);
			
 
				+	if (ret == 0)
			
 
				+		return -ENODEV;
			
 
				+	return worker;
			
 
				+}
			
 
				+
			
 
				+static int
			
 
				+check_result(unsigned *t, size_t size)
			
 
				+{
			
 
				+	unsigned i;
			
 
				+	for (i = 0; i < size; i++)
			
 
				+	{
			
 
				+		if (t[i] != i*2)
			
 
				+		{
			
 
				+			FPRINTF(stderr,"t[%d] is %u instead of %u\n", i, t[i], 2*i);
			
 
				+			return 1;
			
 
				+		}
			
 
				+	}
			
 
				+	return 0;
			
 
				+}
			
 
				+
			
 
				+#ifdef STARPU_USE_CUDA
			
 
				+#if CUDART_VERSION >= 4000
			
 
				+static int
			
 
				+test_cuda(void)
			
 
				+{
			
 
				+	int ret;
			
 
				+	unsigned *foo_gpu;
			
 
				+	unsigned *foo;
			
 
				+	int n, i, size, pieces;
			
 
				+	int devid;
			
 
				+	int chosen;
			
 
				+	cudaError_t cures;
			
 
				+	starpu_data_handle_t handle;
			
 
				+
			
 
				+	/* Find a CUDA worker */
			
 
				+	chosen = find_a_worker(STARPU_CUDA_WORKER);
			
 
				+	if (chosen == -ENODEV)
			
 
				+		return -ENODEV;
			
 
				+
			
 
				+	n = starpu_worker_get_count();
			
 
				+	size = 10 * n;
			
 
				+
			
 
				+	devid = starpu_worker_get_devid(chosen);
			
 
				+	starpu_cuda_set_device(devid);
			
 
				+	cudaMalloc((void**)&foo_gpu, size * sizeof(*foo_gpu));
			
 
				+
			
 
				+	foo = calloc(size, sizeof(*foo));
			
 
				+	for (i = 0; i < size; i++)
			
 
				+		foo[i] = i;
			
 
				+
			
 
				+	starpu_vector_data_register(&handle, STARPU_MAIN_RAM, (uintptr_t)foo, size, sizeof(*foo));
			
 
				+	starpu_vector_ptr_register(handle, starpu_worker_get_memory_node(chosen), (uintptr_t)foo_gpu, (uintptr_t)foo_gpu, 0);
			
 
				+
			
 
				+	/* Broadcast the data to force in-place partitioning */
			
 
				+	for (i = 0; i < n; i++)
			
 
				+		starpu_data_prefetch_on_node(handle, starpu_worker_get_memory_node(i), 0);
			
 
				+
			
 
				+	/* Even with just one worker, split in at least two */
			
 
				+	if (n == 1)
			
 
				+		pieces = 2;
			
 
				+	else
			
 
				+		pieces = n;
			
 
				+
			
 
				+	struct starpu_data_filter f =
			
 
				+	{
			
 
				+		.filter_func = starpu_vector_filter_block,
			
 
				+		.nchildren = pieces,
			
 
				+	};
			
 
				+
			
 
				+	starpu_data_partition(handle, &f);
			
 
				+
			
 
				+	ret = submit_tasks(handle, pieces, n);
			
 
				+	if (ret == -ENODEV)
			
 
				+		return -ENODEV;
			
 
				+
			
 
				+	starpu_data_unpartition(handle, starpu_worker_get_memory_node(chosen));
			
 
				+	starpu_data_prefetch_on_node(handle, starpu_worker_get_memory_node(chosen), 0);
			
 
				+	starpu_data_unregister(handle);
			
 
				+
			
 
				+	starpu_cuda_set_device(devid);
			
 
				+	cures = cudaMemcpy(foo, foo_gpu, size * sizeof(*foo_gpu), cudaMemcpyDeviceToHost);
			
 
				+	if (STARPU_UNLIKELY(cures))
			
 
				+		STARPU_CUDA_REPORT_ERROR(cures);
			
 
				+
			
 
				+	return check_result(foo, size);
			
 
				+}
			
 
				+#endif
			
 
				+#endif
			
 
				+
			
 
				+#ifdef STARPU_USE_OPENCL
			
 
				+static int
			
 
				+test_opencl(void)
			
 
				+{
			
 
				+	int i;
			
 
				+	int ret;
			
 
				+	int chosen;
			
 
				+	int n;
			
 
				+	int size;
			
 
				+	int pieces;
			
 
				+	cl_mem foo_gpu;
			
 
				+	starpu_data_handle_t handle;
			
 
				+
			
 
				+	ret = starpu_opencl_load_opencl_from_file("tests/datawizard/scal_opencl.cl", &opencl_program, NULL);
			
 
				+	STARPU_CHECK_RETURN_VALUE(ret, "starpu_opencl_load_opencl_from_file");
			
 
				+
			
 
				+	/* Find an OpenCL worker */
			
 
				+	chosen = find_a_worker(STARPU_OPENCL_WORKER);
			
 
				+	if (chosen == -ENODEV)
			
 
				+		return -ENODEV;
			
 
				+
			
 
				+	n = starpu_worker_get_count();
			
 
				+	size = 10 * n;
			
 
				+
			
 
				+	int devid;
			
 
				+	cl_int err;
			
 
				+	cl_context context;
			
 
				+	cl_command_queue queue;
			
 
				+
			
 
				+	devid = starpu_worker_get_devid(chosen);
			
 
				+
			
 
				+	starpu_opencl_get_context(devid, &context);
			
 
				+	starpu_opencl_get_queue(devid, &queue);
			
 
				+
			
 
				+	foo_gpu = clCreateBuffer(context, CL_MEM_READ_WRITE, size*sizeof(int), NULL, &err);
			
 
				+	if (STARPU_UNLIKELY(err != CL_SUCCESS))
			
 
				+		STARPU_OPENCL_REPORT_ERROR(err);
			
 
				+
			
 
				+	unsigned int *foo = malloc(size*sizeof(*foo));
			
 
				+	for (i = 0; i < size; i++)
			
 
				+		foo[i] = i;
			
 
				+
			
 
				+	starpu_vector_data_register(&handle,
			
 
				+				    STARPU_MAIN_RAM,
			
 
				+				    (uintptr_t)foo,
			
 
				+				    size,
			
 
				+				    sizeof(int));
			
 
				+
			
 
				+	starpu_vector_ptr_register(handle,
			
 
				+				    starpu_worker_get_memory_node(chosen),
			
 
				+				    (uintptr_t)foo_gpu,
			
 
				+				    (uintptr_t)foo_gpu,
			
 
				+				    0);
			
 
				+
			
 
				+	/* Broadcast the data to force in-place partitioning */
			
 
				+	for (i = 0; i < n; i++)
			
 
				+		starpu_data_prefetch_on_node(handle, starpu_worker_get_memory_node(i), 0);
			
 
				+
			
 
				+	/* Even with just one worker, split in at least two */
			
 
				+	if (n == 1)
			
 
				+		pieces = 2;
			
 
				+	else
			
 
				+		pieces = n;
			
 
				+
			
 
				+	struct starpu_data_filter f =
			
 
				+	{
			
 
				+		.filter_func = starpu_vector_filter_block,
			
 
				+		.nchildren = pieces,
			
 
				+	};
			
 
				+
			
 
				+	starpu_data_partition(handle, &f);
			
 
				+
			
 
				+	ret = submit_tasks(handle, pieces, n);
			
 
				+	if (ret == -ENODEV)
			
 
				+		return -ENODEV;
			
 
				+
			
 
				+	starpu_data_unpartition(handle, starpu_worker_get_memory_node(chosen));
			
 
				+	starpu_data_prefetch_on_node(handle, starpu_worker_get_memory_node(chosen), 0);
			
 
				+	starpu_data_unregister(handle);
			
 
				+
			
 
				+	STARPU_CHECK_RETURN_VALUE(ret, "starpu_task_wait_for_all");
			
 
				+	ret = starpu_opencl_unload_opencl(&opencl_program);
			
 
				+	STARPU_CHECK_RETURN_VALUE(ret, "starpu_opencl_load_opencl_from_file");
			
 
				+
			
 
				+	err = clEnqueueReadBuffer(queue,
			
 
				+				  foo_gpu,
			
 
				+				  CL_FALSE,
			
 
				+				  0,
			
 
				+				  size*sizeof(*foo),
			
 
				+				  foo,
			
 
				+				  0,
			
 
				+				  NULL,
			
 
				+				  NULL);
			
 
				+	if (STARPU_UNLIKELY(err != CL_SUCCESS))
			
 
				+		STARPU_OPENCL_REPORT_ERROR(err);
			
 
				+	clFinish(queue);
			
 
				+	return check_result(foo, size);
			
 
				+}
			
 
				+#endif /* !STARPU_USE_OPENCL */
			
 
				+
			
 
				+int main(int argc, char **argv)
			
 
				+{
			
 
				+	int skipped_cuda = 1, skipped_opencl = 1;
			
 
				+	int ret;
			
 
				+	ret = starpu_initialize(NULL, &argc, &argv);
			
 
				+	if (ret == -ENODEV)
			
 
				+		return STARPU_TEST_SKIPPED;
			
 
				+	STARPU_CHECK_RETURN_VALUE(ret, "starpu_init");
			
 
				+
			
 
				+#ifdef STARPU_USE_OPENCL
			
 
				+	ret = starpu_opencl_load_opencl_from_file("tests/datawizard/scal_opencl.cl", &opencl_program, NULL);
			
 
				+	STARPU_CHECK_RETURN_VALUE(ret, "starpu_opencl_load_opencl_from_file");
			
 
				+#endif
			
 
				+
			
 
				+#ifdef STARPU_USE_CUDA
			
 
				+#if CUDART_VERSION >= 4000 /* We need thread-safety of CUDA */
			
 
				+	ret = test_cuda();
			
 
				+	if (ret == 1)
			
 
				+		goto fail;
			
 
				+	else if (ret == 0)
			
 
				+		skipped_cuda = 0;
			
 
				+#endif
			
 
				+#endif
			
 
				+
			
 
				+#ifdef STARPU_USE_OPENCL
			
 
				+	ret = test_opencl();
			
 
				+	if (ret == 1)
			
 
				+		goto fail;
			
 
				+	else if (ret == 0)
			
 
				+		skipped_opencl = 0;
			
 
				+#endif
			
 
				+
			
 
				+	starpu_shutdown();
			
 
				+
			
 
				+	if (skipped_cuda == 1 && skipped_opencl == 1)
			
 
				+		return STARPU_TEST_SKIPPED;
			
 
				+
			
 
				+	return EXIT_SUCCESS;
			
 
				+
			
 
				+fail:
			
 
				+	starpu_shutdown();
			
 
				+	return EXIT_FAILURE;
			
 
				+}
			
 
				+
			
 
				+#endif /* defined(STARPU_USE_OPENCL) || defined(STARPU_USE_CUDA) */