11 years ago · f99ef13c88
--- a/ChangeLog
+++ b/ChangeLog
@@ -47,6 +47,8 @@ New features:
 
				     CUDA and OpenCL kernel execution.
			
 
				   * Add CUDA concurrent kernel execution support through
			
 
				     the STARPU_NWORKER_PER_CUDA environment variable.
			
 
				+  * Add CUDA kernel submission pipelining, to overlap costs and allow concurrent
			
 
				+    kernel execution on Fermi cards.
			
 
				   * New locality work stealing scheduler (lws).
			
 
				   * Add STARPU_VARIABLE_NBUFFERS to be set in cl.nbuffers, and nbuffers and
			
 
				     modes field to the task structure, which permit to define codelets taking a
			
--- a/doc/doxygen/chapters/40environment_variables.doxy
+++ b/doc/doxygen/chapters/40environment_variables.doxy
@@ -51,6 +51,16 @@ Specify the number of workers per CUDA device, and thus the number of kernels
 
				 which will be concurrently running on the devices. The default value is 1.
			
 
				 </dd>
			
 
				 
			
 
				+<dt>STARPU_CUDA_PIPELINE</dt>
			
 
				+<dd>
			
 
				+\anchor STARPU_CUDA_PIPELINE
			
 
				+\addindex __env__STARPU_CUDA_PIPELINE
			
 
				+Specify how many asynchronous tasks are submitted in advance on CUDA
			
 
				+devices. This for instance permits to overlap task management with the execution
			
 
				+of previous tasks, but it also allows concurrent execution on Fermi cards, which
			
 
				+otherwise bring spurious synchronizations. The default is 2.
			
 
				+</dd>
			
 
				+
			
 
				 <dt>STARPU_NOPENCL</dt>
			
 
				 <dd>
			
 
				 \anchor STARPU_NOPENCL
			
--- a/src/core/workers.c
+++ b/src/core/workers.c
@@ -428,6 +428,9 @@ static void _starpu_worker_init(struct _starpu_worker *workerarg, struct _starpu
 
				 	STARPU_PTHREAD_MUTEX_INIT(&workerarg->sched_mutex, NULL);
			
 
				 	starpu_task_list_init(&workerarg->local_tasks);
			
 
				 	workerarg->current_task = NULL;
			
 
				+	workerarg->first_task = 0;
			
 
				+	workerarg->ntasks = 0;
			
 
				+	workerarg->pipeline_length = 0;
			
 
				 	workerarg->set = NULL;
			
 
				 
			
 
				 	/* if some codelet's termination cannot be handled directly :
			
--- a/src/core/workers.h
+++ b/src/core/workers.h
@@ -52,6 +52,8 @@
 
				 
			
 
				 #include <starpu_parameters.h>
			
 
				 
			
 
				+#define STARPU_MAX_PIPELINE 4
			
 
				+
			
 
				 /* This is initialized from in _starpu_worker_init */
			
 
				 LIST_TYPE(_starpu_worker,
			
 
				 	struct _starpu_machine_config *config;
			
@@ -73,7 +75,12 @@ LIST_TYPE(_starpu_worker,
 
				 	starpu_pthread_cond_t sched_cond; /* condition variable used when the worker waits for tasks. */
			
 
				         starpu_pthread_mutex_t sched_mutex; /* mutex protecting sched_cond */
			
 
				 	struct starpu_task_list local_tasks; /* this queue contains tasks that have been explicitely submitted to that queue */
			
 
				-	struct starpu_task *current_task; /* task currently executed by this worker */
			
 
				+	struct starpu_task *current_task; /* task currently executed by this worker (non-pipelined version) */
			
 
				+	struct starpu_task *current_tasks[STARPU_MAX_PIPELINE]; /* tasks currently executed by this worker (pipelined version) */
			
 
				+	unsigned char first_task; /* Index of first task in the pipeline */
			
 
				+	unsigned char ntasks; /* number of tasks in the pipeline */
			
 
				+	unsigned char pipeline_length; /* number of tasks to be put in the pipeline */
			
 
				+	unsigned char pipeline_stuck; /* whether a task prevents us from pipelining */
			
 
				 	struct _starpu_worker_set *set; /* in case this worker belongs to a set */
			
 
				 	struct _starpu_job_list *terminated_jobs; /* list of pending jobs which were executed */
			
 
				 	unsigned worker_is_running;
			
--- a/src/drivers/cuda/driver_cuda.c
+++ b/src/drivers/cuda/driver_cuda.c
@@ -49,7 +49,7 @@ static cudaStream_t in_transfer_streams[STARPU_MAXCUDADEVS];
 
				 static cudaStream_t in_peer_transfer_streams[STARPU_MAXCUDADEVS][STARPU_MAXCUDADEVS];
			
 
				 static cudaStream_t out_peer_transfer_streams[STARPU_MAXCUDADEVS][STARPU_MAXCUDADEVS];
			
 
				 static struct cudaDeviceProp props[STARPU_MAXCUDADEVS];
			
 
				-static cudaEvent_t task_events[STARPU_NMAXWORKERS];
			
 
				+static cudaEvent_t task_events[STARPU_NMAXWORKERS][STARPU_MAX_PIPELINE];
			
 
				 #endif /* STARPU_USE_CUDA */
			
 
				 
			
 
				 void
			
@@ -221,7 +221,7 @@ static void init_context(struct _starpu_worker_set *worker_set, unsigned devid)
 
				 {
			
 
				 	cudaError_t cures;
			
 
				 	int workerid;
			
 
				-	unsigned i;
			
 
				+	unsigned i, j;
			
 
				 
			
 
				 	/* TODO: cudaSetDeviceFlag(cudaDeviceMapHost) */
			
 
				 
			
@@ -276,7 +276,8 @@ static void init_context(struct _starpu_worker_set *worker_set, unsigned devid)
 
				 	{
			
 
				 		workerid = worker_set->workers[i].workerid;
			
 
				 
			
 
				-		cures = cudaEventCreateWithFlags(&task_events[workerid], cudaEventDisableTiming);
			
 
				+		for (j = 0; j < STARPU_MAX_PIPELINE; j++)
			
 
				+			cures = cudaEventCreateWithFlags(&task_events[workerid][j], cudaEventDisableTiming);
			
 
				 		if (STARPU_UNLIKELY(cures))
			
 
				 			STARPU_CUDA_REPORT_ERROR(cures);
			
 
				 
			
@@ -307,7 +308,7 @@ static void init_context(struct _starpu_worker_set *worker_set, unsigned devid)
 
				 static void deinit_context(struct _starpu_worker_set *worker_set)
			
 
				 {
			
 
				 	cudaError_t cures;
			
 
				-	unsigned i;
			
 
				+	unsigned i, j;
			
 
				 	int workerid = worker_set->workers[0].workerid;
			
 
				 	int devid = starpu_worker_get_devid(workerid);
			
 
				 
			
@@ -316,7 +317,8 @@ static void deinit_context(struct _starpu_worker_set *worker_set)
 
				 		workerid = worker_set->workers[i].workerid;
			
 
				 		devid = starpu_worker_get_devid(workerid);
			
 
				 
			
 
				-		cudaEventDestroy(task_events[workerid]);
			
 
				+		for (j = 0; j < STARPU_MAX_PIPELINE; j++)
			
 
				+			cudaEventDestroy(task_events[workerid][j]);
			
 
				 		cudaStreamDestroy(streams[workerid]);
			
 
				 	}
			
 
				 
			
@@ -396,7 +398,11 @@ static int start_job_on_cuda(struct _starpu_job *j, struct _starpu_worker *worke
 
				 		return -EAGAIN;
			
 
				 	}
			
 
				 
			
 
				-	_starpu_driver_start_job(worker, j, &worker->perf_arch, &j->cl_start, 0, profiling);
			
 
				+	if (worker->ntasks == 1)
			
 
				+	{
			
 
				+		/* We are alone in the pipeline, the kernel will start now, record it */
			
 
				+		_starpu_driver_start_job(worker, j, &worker->perf_arch, &j->cl_start, 0, profiling);
			
 
				+	}
			
 
				 
			
 
				 #if defined(HAVE_CUDA_MEMCPY_PEER) && !defined(STARPU_SIMGRID)
			
 
				 	/* We make sure we do manipulate the proper device */
			
@@ -427,7 +433,9 @@ static void finish_job_on_cuda(struct _starpu_job *j, struct _starpu_worker *wor
 
				 	int profiling = starpu_profiling_status_get();
			
 
				 
			
 
				 	_starpu_set_current_task(NULL);
			
 
				-	worker->current_task = NULL;
			
 
				+	worker->current_tasks[worker->first_task] = NULL;
			
 
				+	worker->first_task = (worker->first_task + 1) % STARPU_MAX_PIPELINE;
			
 
				+	worker->ntasks--;
			
 
				 
			
 
				 	_starpu_driver_end_job(worker, j, &worker->perf_arch, &codelet_end, 0, profiling);
			
 
				 
			
@@ -438,21 +446,74 @@ static void finish_job_on_cuda(struct _starpu_job *j, struct _starpu_worker *wor
 
				 	_starpu_handle_job_termination(j);
			
 
				 }
			
 
				 
			
 
				+/* Execute a job, up to completion for synchronous jobs */
			
 
				+static void execute_job_on_cuda(struct starpu_task *task, struct _starpu_worker *worker)
			
 
				+{
			
 
				+	int workerid = worker->workerid;
			
 
				+	int res;
			
 
				+
			
 
				+	struct _starpu_job *j = _starpu_get_job_associated_to_task(task);
			
 
				+
			
 
				+	res = start_job_on_cuda(j, worker);
			
 
				+
			
 
				+	if (res)
			
 
				+	{
			
 
				+		switch (res)
			
 
				+		{
			
 
				+			case -EAGAIN:
			
 
				+				_STARPU_DISP("ouch, CUDA could not actually run task %p, putting it back...\n", task);
			
 
				+				_starpu_push_task_to_workers(task);
			
 
				+				STARPU_ABORT();
			
 
				+			default:
			
 
				+				STARPU_ABORT();
			
 
				+		}
			
 
				+	}
			
 
				+
			
 
				+#ifndef STARPU_SIMGRID
			
 
				+	if (task->cl->cuda_flags[j->nimpl] & STARPU_CUDA_ASYNC)
			
 
				+	{
			
 
				+		/* Record event to synchronize with task termination later */
			
 
				+		cudaEventRecord(task_events[workerid][(worker->first_task + worker->ntasks - 1)%STARPU_MAX_PIPELINE], starpu_cuda_get_local_stream());
			
 
				+#ifdef STARPU_USE_FXT
			
 
				+		int k;
			
 
				+		for (k = 0; k < (int) worker->set->nworkers; k++)
			
 
				+			if (worker->set->workers[k].ntasks)
			
 
				+				break;
			
 
				+		if (k < (int) worker->set->nworkers)
			
 
				+			/* Everybody busy */
			
 
				+			_STARPU_TRACE_START_EXECUTING()
			
 
				+#endif
			
 
				+	}
			
 
				+	else
			
 
				+#else
			
 
				+#ifdef STARPU_DEVEL
			
 
				+#warning No CUDA asynchronous execution with simgrid yet.
			
 
				+#endif
			
 
				+#endif
			
 
				+	/* Synchronous execution */
			
 
				+	{
			
 
				+#if defined(STARPU_DEBUG) && !defined(STARPU_SIMGRID)
			
 
				+		STARPU_ASSERT_MSG(cudaStreamQuery(starpu_cuda_get_local_stream()) == cudaSuccess, "CUDA codelets have to wait for termination of their kernels on the starpu_cuda_get_local_stream() stream");
			
 
				+#endif
			
 
				+		finish_job_on_cuda(j, worker);
			
 
				+	}
			
 
				+}
			
 
				+
			
 
				 /* XXX Should this be merged with _starpu_init_cuda ? */
			
 
				 int _starpu_cuda_driver_init(struct _starpu_worker_set *worker_set)
			
 
				 {
			
 
				-	struct _starpu_worker *worker = &worker_set->workers[0];
			
 
				-	unsigned devid = worker->devid;
			
 
				+	struct _starpu_worker *worker0 = &worker_set->workers[0];
			
 
				+	unsigned devid = worker0->devid;
			
 
				 	unsigned i;
			
 
				 
			
 
				-	_starpu_worker_start(worker, _STARPU_FUT_CUDA_KEY);
			
 
				+	_starpu_worker_start(worker0, _STARPU_FUT_CUDA_KEY);
			
 
				 
			
 
				 #ifdef STARPU_USE_FXT
			
 
				-	unsigned memnode = worker->memory_node;
			
 
				+	unsigned memnode = worker0->memory_node;
			
 
				 	for (i = 1; i < worker_set->nworkers; i++)
			
 
				 	{
			
 
				-		struct _starpu_worker *_worker = &worker_set->workers[i];
			
 
				-		_STARPU_TRACE_WORKER_INIT_START(_STARPU_FUT_CUDA_KEY, _worker->workerid, devid, memnode);
			
 
				+		struct _starpu_worker *worker = &worker_set->workers[i];
			
 
				+		_STARPU_TRACE_WORKER_INIT_START(_STARPU_FUT_CUDA_KEY, worker->workerid, devid, memnode);
			
 
				 	}
			
 
				 #endif
			
 
				 
			
@@ -461,14 +522,14 @@ int _starpu_cuda_driver_init(struct _starpu_worker_set *worker_set)
 
				 #endif
			
 
				 
			
 
				 	_starpu_cuda_limit_gpu_mem_if_needed(devid);
			
 
				-	_starpu_memory_manager_set_global_memory_size(worker->memory_node, _starpu_cuda_get_global_mem_size(devid));
			
 
				+	_starpu_memory_manager_set_global_memory_size(worker0->memory_node, _starpu_cuda_get_global_mem_size(devid));
			
 
				 
			
 
				-	_starpu_malloc_init(worker->memory_node);
			
 
				+	_starpu_malloc_init(worker0->memory_node);
			
 
				 
			
 
				 	/* one more time to avoid hacks from third party lib :) */
			
 
				-	_starpu_bind_thread_on_cpu(worker->config, worker->bindid);
			
 
				+	_starpu_bind_thread_on_cpu(worker0->config, worker0->bindid);
			
 
				 
			
 
				-	worker->status = STATUS_UNKNOWN;
			
 
				+	worker0->status = STATUS_UNKNOWN;
			
 
				 
			
 
				 	float size = (float) global_mem[devid] / (1<<30);
			
 
				 #ifdef STARPU_SIMGRID
			
@@ -479,29 +540,31 @@ int _starpu_cuda_driver_init(struct _starpu_worker_set *worker_set)
 
				 	strncpy(devname, props[devid].name, 128);
			
 
				 #endif
			
 
				 
			
 
				+	for (i = 0; i < worker_set->nworkers; i++)
			
 
				+	{
			
 
				+		struct _starpu_worker *worker = &worker_set->workers[i];
			
 
				 #if defined(STARPU_HAVE_BUSID) && !defined(STARPU_SIMGRID)
			
 
				 #if defined(STARPU_HAVE_DOMAINID) && !defined(STARPU_SIMGRID)
			
 
				-	if (props[devid].pciDomainID)
			
 
				-		snprintf(worker->name, sizeof(worker->name), "CUDA %u (%s %.1f GiB %04x:%02x:%02x.0)", devid, devname, size, props[devid].pciDomainID, props[devid].pciBusID, props[devid].pciDeviceID);
			
 
				-	else
			
 
				+		if (props[devid].pciDomainID)
			
 
				+			snprintf(worker->name, sizeof(worker->name), "CUDA %u.%u (%s %.1f GiB %04x:%02x:%02x.0)", devid, i, devname, size, props[devid].pciDomainID, props[devid].pciBusID, props[devid].pciDeviceID);
			
 
				+		else
			
 
				 #endif
			
 
				-		snprintf(worker->name, sizeof(worker->name), "CUDA %u (%s %.1f GiB %02x:%02x.0)", devid, devname, size, props[devid].pciBusID, props[devid].pciDeviceID);
			
 
				+			snprintf(worker->name, sizeof(worker->name), "CUDA %u.%u (%s %.1f GiB %02x:%02x.0)", devid, i, devname, size, props[devid].pciBusID, props[devid].pciDeviceID);
			
 
				 #else
			
 
				-	snprintf(worker->name, sizeof(worker->name), "CUDA %u (%s %.1f GiB)", devid, devname, size);
			
 
				+		snprintf(worker->name, sizeof(worker->name), "CUDA %u.%u (%s %.1f GiB)", devid, i, devname, size);
			
 
				 #endif
			
 
				-	snprintf(worker->short_name, sizeof(worker->short_name), "CUDA %u", devid);
			
 
				-	_STARPU_DEBUG("cuda (%s) dev id %u thread is ready to run on CPU %d !\n", devname, devid, worker->bindid);
			
 
				+		snprintf(worker->short_name, sizeof(worker->short_name), "CUDA %u.%u", devid, i);
			
 
				+		_STARPU_DEBUG("cuda (%s) dev id %u worker %u thread is ready to run on CPU %d !\n", devname, devid, i, worker->bindid);
			
 
				 
			
 
				-	for (i = 0; i < worker_set->nworkers; i++)
			
 
				-	{
			
 
				+		worker->pipeline_length = starpu_get_env_number_default("STARPU_CUDA_PIPELINE", 2);
			
 
				 		_STARPU_TRACE_WORKER_INIT_END(worker_set->workers[i].workerid);
			
 
				 	}
			
 
				 
			
 
				 	/* tell the main thread that this one is ready */
			
 
				-	STARPU_PTHREAD_MUTEX_LOCK(&worker->mutex);
			
 
				-	worker->worker_is_initialized = 1;
			
 
				-	STARPU_PTHREAD_COND_SIGNAL(&worker->ready_cond);
			
 
				-	STARPU_PTHREAD_MUTEX_UNLOCK(&worker->mutex);
			
 
				+	STARPU_PTHREAD_MUTEX_LOCK(&worker0->mutex);
			
 
				+	worker0->worker_is_initialized = 1;
			
 
				+	STARPU_PTHREAD_COND_SIGNAL(&worker0->ready_cond);
			
 
				+	STARPU_PTHREAD_MUTEX_UNLOCK(&worker0->mutex);
			
 
				 
			
 
				 	/* tell the main thread that this one is ready */
			
 
				 	STARPU_PTHREAD_MUTEX_LOCK(&worker_set->mutex);
			
@@ -530,16 +593,16 @@ int _starpu_cuda_driver_run_once(struct _starpu_worker_set *worker_set)
 
				 		struct _starpu_worker *worker = &worker_set->workers[i];
			
 
				 		int workerid = worker->workerid;
			
 
				 
			
 
				-		task = worker->current_task;
			
 
				-
			
 
				-		if (!task)
			
 
				+		if (!worker->ntasks)
			
 
				 		{
			
 
				 			idle++;
			
 
				 			continue;
			
 
				 		}
			
 
				 
			
 
				+		task = worker->current_tasks[worker->first_task];
			
 
				+
			
 
				 		/* On-going asynchronous task, check for its termination first */
			
 
				-		cudaError_t cures = cudaEventQuery(task_events[workerid]);
			
 
				+		cudaError_t cures = cudaEventQuery(task_events[workerid][worker->first_task]);
			
 
				 
			
 
				 		if (cures != cudaSuccess)
			
 
				 		{
			
@@ -550,11 +613,36 @@ int _starpu_cuda_driver_run_once(struct _starpu_worker_set *worker_set)
 
				 			/* Asynchronous task completed! */
			
 
				 			_starpu_set_local_worker_key(worker);
			
 
				 			finish_job_on_cuda(_starpu_get_job_associated_to_task(task), worker);
			
 
				+			/* See next task if any */
			
 
				+			if (worker->ntasks)
			
 
				+			{
			
 
				+				task = worker->current_tasks[worker->first_task];
			
 
				+				j = _starpu_get_job_associated_to_task(task);
			
 
				+				if (task->cl->cuda_flags[j->nimpl] & STARPU_CUDA_ASYNC)
			
 
				+				{
			
 
				+					/* An asynchronous task, it was already
			
 
				+					 * queued, it's now running, record its start time.  */
			
 
				+					_starpu_driver_start_job(worker, j, &worker->perf_arch, &j->cl_start, 0, starpu_profiling_status_get());
			
 
				+					/* Skip the idle handling part, we are still busy */
			
 
				+					continue;
			
 
				+				}
			
 
				+				else
			
 
				+				{
			
 
				+					/* A synchronous task, we have finished
			
 
				+					 * flushing the pipeline, we can now at
			
 
				+					 * last execute it.  */
			
 
				+
			
 
				+					_STARPU_TRACE_END_PROGRESS(memnode);
			
 
				+					execute_job_on_cuda(task, worker);
			
 
				+					_STARPU_TRACE_START_PROGRESS(memnode);
			
 
				+					worker->pipeline_stuck = 0;
			
 
				+				}
			
 
				+			}
			
 
				 			idle++;
			
 
				 #ifdef STARPU_USE_FXT
			
 
				 			int k;
			
 
				 			for (k = 0; k < (int) worker_set->nworkers; k++)
			
 
				-				if (worker_set->workers[k].current_task)
			
 
				+				if (worker_set->workers[k].ntasks)
			
 
				 					break;
			
 
				 			if (k == (int) worker_set->nworkers)
			
 
				 				/* Everybody busy */
			
@@ -583,13 +671,11 @@ int _starpu_cuda_driver_run_once(struct _starpu_worker_set *worker_set)
 
				 	for (i = 0; i < (int) worker_set->nworkers; i++)
			
 
				 	{
			
 
				 		struct _starpu_worker *worker = &worker_set->workers[i];
			
 
				-		int workerid = worker->workerid;
			
 
				 
			
 
				 		task = tasks[i];
			
 
				 		if (!task)
			
 
				 			continue;
			
 
				 
			
 
				-		_starpu_set_local_worker_key(worker);
			
 
				 
			
 
				 		j = _starpu_get_job_associated_to_task(task);
			
 
				 
			
@@ -601,50 +687,19 @@ int _starpu_cuda_driver_run_once(struct _starpu_worker_set *worker_set)
 
				 			continue;
			
 
				 		}
			
 
				 
			
 
				-		_STARPU_TRACE_END_PROGRESS(memnode);
			
 
				-		res = start_job_on_cuda(j, worker);
			
 
				-
			
 
				-		if (res)
			
 
				+		if (worker->ntasks > 1 && !(task->cl->cuda_flags[j->nimpl] & STARPU_CUDA_ASYNC))
			
 
				 		{
			
 
				-			switch (res)
			
 
				-			{
			
 
				-				case -EAGAIN:
			
 
				-					_STARPU_DISP("ouch, CUDA could not actually run task %p, putting it back...\n", task);
			
 
				-					_starpu_push_task_to_workers(task);
			
 
				-					STARPU_ABORT();
			
 
				-				default:
			
 
				-					STARPU_ABORT();
			
 
				-			}
			
 
				+			/* We have to execute a non-asynchronous task but we
			
 
				+			 * still have tasks in the pipeline...  Record it to
			
 
				+			 * prevent more tasks from coming, and do it later */
			
 
				+			worker->pipeline_stuck = 1;
			
 
				+			continue;
			
 
				 		}
			
 
				 
			
 
				-#ifndef STARPU_SIMGRID
			
 
				-		if (task->cl->cuda_flags[j->nimpl] & STARPU_CUDA_ASYNC)
			
 
				-		{
			
 
				-			/* Record event to synchronize with task termination later */
			
 
				-			cudaEventRecord(task_events[workerid], starpu_cuda_get_local_stream());
			
 
				-#ifdef STARPU_USE_FXT
			
 
				-			int k;
			
 
				-			for (k = 0; k < (int) worker_set->nworkers; k++)
			
 
				-				if (worker_set->workers[k].current_task)
			
 
				-					break;
			
 
				-			if (k < (int) worker_set->nworkers)
			
 
				-				/* Everybody busy */
			
 
				-				_STARPU_TRACE_START_EXECUTING()
			
 
				-#endif
			
 
				-		}
			
 
				-		else
			
 
				-#else
			
 
				-#ifdef STARPU_DEVEL
			
 
				-#warning No CUDA asynchronous execution with simgrid yet.
			
 
				-#endif
			
 
				-#endif
			
 
				-		/* Synchronous execution */
			
 
				-		{
			
 
				-#if defined(STARPU_DEBUG) && !defined(STARPU_SIMGRID)
			
 
				-			STARPU_ASSERT_MSG(cudaStreamQuery(starpu_cuda_get_local_stream()) == cudaSuccess, "CUDA codelets have to wait for termination of their kernels on the starpu_cuda_get_local_stream() stream");
			
 
				-#endif
			
 
				-			finish_job_on_cuda(j, worker);
			
 
				-		}
			
 
				+		_starpu_set_local_worker_key(worker);
			
 
				+
			
 
				+		_STARPU_TRACE_END_PROGRESS(memnode);
			
 
				+		execute_job_on_cuda(task, worker);
			
 
				 		_STARPU_TRACE_START_PROGRESS(memnode);
			
 
				 	}
			
 
				 
			
--- a/src/drivers/driver_common/driver_common.c
+++ b/src/drivers/driver_common/driver_common.c
@@ -333,8 +333,11 @@ int _starpu_get_multi_worker_task(struct _starpu_worker *workers, struct starpu_
 
				 	/*for each worker*/
			
 
				 	for (i = 0; i < nworkers; i++)
			
 
				 	{
			
 
				-		/*if the worker is already executinf a task then */
			
 
				-		if(workers[i].current_task)
			
 
				+		/*if the worker is already executing a task then */
			
 
				+		if((workers[i].pipeline_length == 0 && workers[i].current_task)
			
 
				+			|| (workers[i].pipeline_length != 0 &&
			
 
				+				(workers[i].ntasks == workers[i].pipeline_length
			
 
				+				 || workers[i].pipeline_stuck)))
			
 
				 		{
			
 
				 			tasks[i] = NULL;
			
 
				 		}
			
@@ -354,7 +357,13 @@ int _starpu_get_multi_worker_task(struct _starpu_worker *workers, struct starpu_
 
				 				count ++;
			
 
				 				j = _starpu_get_job_associated_to_task(tasks[i]);
			
 
				 				is_parallel_task = (j->task_size > 1);
			
 
				-				workers[i].current_task = j->task;
			
 
				+				if (workers[i].pipeline_length)
			
 
				+				{
			
 
				+					workers[i].current_tasks[(workers[i].first_task + workers[i].ntasks)%STARPU_MAX_PIPELINE] = tasks[i];
			
 
				+					workers[i].ntasks++;
			
 
				+				}
			
 
				+				else
			
 
				+					workers[i].current_task = j->task;
			
 
				 				/* Get the rank in case it is a parallel task */
			
 
				 				if (is_parallel_task)
			
 
				 				{
			
--- a/tests/overlap/gpu_concurrency.c
+++ b/tests/overlap/gpu_concurrency.c
@@ -24,27 +24,48 @@
 
				 #include <common/thread.h>
			
 
				 
			
 
				 #define NITERS 1000000
			
 
				-#define NTASKS 128
			
 
				+#define NTASKS 64
			
 
				+#define SYNC 16
			
 
				 
			
 
				 #ifdef STARPU_USE_CUDA
			
 
				 extern void long_kernel_cuda(unsigned long niters);
			
 
				-void codelet_long_kernel(STARPU_ATTRIBUTE_UNUSED void *descr[], STARPU_ATTRIBUTE_UNUSED void *_args)
			
 
				+
			
 
				+void codelet_long_kernel_async(STARPU_ATTRIBUTE_UNUSED void *descr[], STARPU_ATTRIBUTE_UNUSED void *_args)
			
 
				+{
			
 
				+	long_kernel_cuda(NITERS);
			
 
				+}
			
 
				+
			
 
				+void codelet_long_kernel_sync(STARPU_ATTRIBUTE_UNUSED void *descr[], STARPU_ATTRIBUTE_UNUSED void *_args)
			
 
				 {
			
 
				 	long_kernel_cuda(NITERS);
			
 
				+	cudaStreamSynchronize(starpu_cuda_get_local_stream());
			
 
				 }
			
 
				 
			
 
				-static struct starpu_perfmodel model =
			
 
				+static struct starpu_perfmodel model_async =
			
 
				 {
			
 
				 	.type = STARPU_HISTORY_BASED,
			
 
				-	.symbol = "long_kernel",
			
 
				+	.symbol = "long_kernel_async",
			
 
				 };
			
 
				 
			
 
				-static struct starpu_codelet cl =
			
 
				+static struct starpu_perfmodel model_sync =
			
 
				+{
			
 
				+	.type = STARPU_HISTORY_BASED,
			
 
				+	.symbol = "long_kernel_sync",
			
 
				+};
			
 
				+
			
 
				+static struct starpu_codelet cl_async =
			
 
				 {
			
 
				-	.cuda_funcs = {codelet_long_kernel, NULL},
			
 
				+	.cuda_funcs = {codelet_long_kernel_async, NULL},
			
 
				 	.cuda_flags = {STARPU_CUDA_ASYNC},
			
 
				 	.nbuffers = 0,
			
 
				-	.model =  &model
			
 
				+	.model =  &model_async,
			
 
				+};
			
 
				+
			
 
				+static struct starpu_codelet cl =
			
 
				+{
			
 
				+	.cuda_funcs = {codelet_long_kernel_sync, NULL},
			
 
				+	.nbuffers = 0,
			
 
				+	.model =  &model_sync,
			
 
				 };
			
 
				 #endif
			
 
				 
			
@@ -53,6 +74,7 @@ int main(int argc, char **argv)
 
				 #ifndef STARPU_USE_CUDA
			
 
				 	return STARPU_TEST_SKIPPED;
			
 
				 #else
			
 
				+	setenv("STARPU_NWORKER_PER_CUDA", "4", 1);
			
 
				 	int ret = starpu_initialize(NULL, &argc, &argv);
			
 
				 	if (ret == -ENODEV) return STARPU_TEST_SKIPPED;
			
 
				 	STARPU_CHECK_RETURN_VALUE(ret, "starpu_init");
			
@@ -66,7 +88,11 @@ int main(int argc, char **argv)
 
				 	for (iter = 0; iter < NTASKS; iter++)
			
 
				 	{
			
 
				 		struct starpu_task *task = starpu_task_create();
			
 
				-		task->cl = &cl;
			
 
				+
			
 
				+		if (!(iter % SYNC))
			
 
				+			task->cl = &cl;
			
 
				+		else
			
 
				+			task->cl = &cl_async;
			
 
				 
			
 
				 		ret = starpu_task_submit(task);
			
 
				 		if (ret == -ENODEV) goto enodev;
			
--- a/tools/gdbinit
+++ b/tools/gdbinit
@@ -1,7 +1,7 @@
 
				 
			
 
				 # StarPU --- Runtime system for heterogeneous multicore architectures.
			
 
				 #
			
 
				-# Copyright (C) 2010-2013  Université de Bordeaux 1
			
 
				+# Copyright (C) 2010-2014  Université de Bordeaux 1
			
 
				 # Copyright (C) 2010, 2011, 2012, 2013  Centre National de la Recherche Scientifique
			
 
				 #
			
 
				 # StarPU is free software; you can redistribute it and/or modify
			
@@ -30,7 +30,7 @@ define starpu-print-job
 
				     printf "\tsubmitted:\t\t\t<%d>\n", $job->submitted
			
 
				     printf "\tterminated:\t\t\t<%d>\n", $job->terminated
			
 
				     printf "\tjob_id:\t\t\t\t<%d>\n", $job->job_id
			
 
				-    if $job->task
			
 
				+    if $job->task && $job->task->name
			
 
				         printf "\tname:\t\t\t\t<%s>\n", $job->task->name
			
 
				     end
			
 
				   end
			
@@ -71,7 +71,9 @@ define starpu-print-task
 
				   end
			
 
				 
			
 
				   printf "StarPU Task (%p)\n", $task
			
 
				-  printf "\tname:\t\t\t\t<%s>\n", $task->name
			
 
				+  if $task->name
			
 
				+    printf "\tname:\t\t\t\t<%s>\n", $task->name
			
 
				+  end
			
 
				   printf "\tcodelet:\t\t\t<%p>\n", $task->cl
			
 
				   printf "\tcallback:\t\t\t<%p>\n", $task->callback_func
			
 
				   printf "\tsynchronous:\t\t\t<%d>\n", $task->synchronous
			
@@ -90,6 +92,32 @@ define starpu-print-task
 
				   end
			
 
				 end
			
 
				 
			
 
				+define starpu-print-task-and-successor
			
 
				+  set language c
			
 
				+  set $t = (struct starpu_task *) ($arg0)
			
 
				+  starpu-print-task $t
			
 
				+  set $j = (struct _starpu_job *) $t->starpu_private
			
 
				+  set $nsuccs = $j->job_successors.nsuccs
			
 
				+  set $i = 0
			
 
				+  while $i < $nsuccs
			
 
				+    set $cg = $j->job_successors.succ[$i]
			
 
				+    if ($cg->cg_type == 1)
			
 
				+      # STARPU_CG_APPS
			
 
				+      printf "waited for by application"
			
 
				+    end
			
 
				+    if ($cg->cg_type == 2)
			
 
				+      # STARPU_CG_TAG
			
 
				+      printf "will produce tag %x\n", $cg->succ.tag
			
 
				+    end
			
 
				+    if ($cg->cg_type == 4)
			
 
				+      # STARPU_CG_TASK
			
 
				+      printf "dep of task %p\n", $cg->succ.job
			
 
				+      starpu-print-task $cg->succ.job->task
			
 
				+    end
			
 
				+    set $i = $i + 1
			
 
				+  end
			
 
				+end
			
 
				+
			
 
				 document starpu-print-task
			
 
				 Prints a StarPU task
			
 
				 end
			
@@ -150,30 +178,18 @@ define starpu-tasks
 
				   printf "Tasks being run:\n"
			
 
				   set $n = 0
			
 
				   while $n < config.topology.nworkers
			
 
				+    printf "worker %d %s:\n", $n, config.workers[$n].short_name
			
 
				+    if config.workers[$n].pipeline_length > 0
			
 
				+      set $m = 0
			
 
				+      while $m < config.workers[$n].ntasks
			
 
				+        set $t = config.workers[$n].current_tasks[(config.workers[$n].first_task + $m) % (sizeof(config.workers[$n].current_tasks)/sizeof(config.workers[$n].current_tasks[0]))]
			
 
				+        starpu-print-task-and-successor $t
			
 
				+        set $m = $m + 1
			
 
				+      end
			
 
				+    end
			
 
				     set $task = config.workers[$n].current_task
			
 
				     if ($task)
			
 
				-      printf "worker %d:\n", $n
			
 
				-      starpu-print-task $task
			
 
				-      set $j = (struct _starpu_job *) $task->starpu_private
			
 
				-      set $nsuccs = $j->job_successors.nsuccs
			
 
				-      set $i = 0
			
 
				-      while $i < $nsuccs
			
 
				-        set $cg = $j->job_successors.succ[$i]
			
 
				-	if ($cg->cg_type == 1)
			
 
				-	  # STARPU_CG_APPS
			
 
				-	  printf "waited for by application"
			
 
				-	end
			
 
				-	if ($cg->cg_type == 2)
			
 
				-	  # STARPU_CG_TAG
			
 
				-	  printf "will produce tag %x\n", $cg->succ.tag
			
 
				-	end
			
 
				-	if ($cg->cg_type == 4)
			
 
				-	  # STARPU_CG_TASK
			
 
				-	  printf "dep of task %p\n", $cg->succ.job
			
 
				-	  starpu-print-task $cg->succ.job->task
			
 
				-	end
			
 
				-        set $i = $i + 1
			
 
				-      end
			
 
				+      starpu-print-task-and-successor $task
			
 
				     end
			
 
				     set $n = $n + 1
			
 
				   end