5 years ago · 925d6954e4
--- a/src/datawizard/interfaces/block_interface.c
+++ b/src/datawizard/interfaces/block_interface.c
@@ -220,6 +220,9 @@ static void display_block_interface(starpu_data_handle_t handle, FILE *f)
 
																 	fprintf(f, "%u\t%u\t%u\t", block_interface->nx, block_interface->ny, block_interface->nz);
															
 
																 }
															
 
																+#define IS_CONTIGUOUS_MATRIX(nx, ny, ldy) ((nx) == (ldy))
															
 
																+#define IS_CONTIGUOUS_BLOCK(nx, ny, nz, ldy, ldz) ((nx) * (ny) == (ldz))
															
 
																+
															
 
																 static int pack_block_handle(starpu_data_handle_t handle, unsigned node, void **ptr, starpu_ssize_t *count)
															
 
																 {
															
 
																 	STARPU_ASSERT(starpu_data_test_if_allocated_on_node(handle, node));
															
@@ -245,14 +248,14 @@ static int pack_block_handle(starpu_data_handle_t handle, unsigned node, void **
 
																 		char *cur = *ptr;
															
 
																-		if (nx * ny == ldz && nx == ldy)
															
 
																+		if (IS_CONTIGUOUS_BLOCK(nx, ny, nz, ldy, ldz))
															
 
																 			memcpy(cur, block, nx * ny * nz * elemsize);
															
 
																 		else
															
 
																 		{
															
 
																 			char *block_z = block;
															
 
																 			for(z=0 ; z<nz ; z++)
															
 
																 			{
															
 
																-				if (nx == ldy)
															
 
																+				if (IS_CONTIGUOUS_MATRIX(nx, ny, ldy))
															
 
																 				{
															
 
																 					memcpy(cur, block_z, nx * ny * elemsize);
															
 
																 					cur += nx*ny*elemsize;
															
@@ -295,14 +298,14 @@ static int unpack_block_handle(starpu_data_handle_t handle, unsigned node, void
 
																 	char *cur = ptr;
															
 
																 	char *block = (void *)block_interface->ptr;
															
 
																-	if (nx * ny == ldz && nx == ldy)
															
 
																+	if (IS_CONTIGUOUS_BLOCK(nx, ny, nz, ldy, ldz))
															
 
																 		memcpy(block, cur, nx * ny * nz * elemsize);
															
 
																 	else
															
 
																 	{
															
 
																 		char *block_z = block;
															
 
																 		for(z=0 ; z<nz ; z++)
															
 
																 		{
															
 
																-			if (nx == ldy)
															
 
																+			if (IS_CONTIGUOUS_MATRIX(nx, ny, ldy))
															
 
																 			{
															
 
																 				memcpy(block_z, cur, nx * ny * elemsize);
															
 
																 				cur += nx*ny*elemsize;
															
@@ -504,10 +507,11 @@ static int copy_cuda_common(void *src_interface, unsigned src_node STARPU_ATTRIB
 
																 	cudaError_t cures;
															
 
																-	if ((nx == src_block->ldy) && (src_block->ldy == dst_block->ldy))
															
 
																+	if (IS_CONTIGUOUS_MATRIX(nx, ny, src_block->ldy) && (src_block->ldy == dst_block->ldy))
															
 
																 	{
															
 
																 		/* Is that a single contiguous buffer ? */
															
 
																-		if (((nx*ny) == src_block->ldz) && (src_block->ldz == dst_block->ldz))
															
 
																+		if (IS_CONTIGUOUS_BLOCK(nx, ny, nz, src_block->ldy, src_block->ldz) &&
															
 
																+		    IS_CONTIGUOUS_BLOCK(nx, ny, nz, dst_block->ldy, dst_block->ldz))
															
 
																 		{
															
 
																 			starpu_cuda_copy_async_sync((void *)src_block->ptr, src_node, (void *)dst_block->ptr, dst_node, nx*ny*nz*elemsize, NULL, kind);
															
 
																                 }
															
@@ -565,10 +569,11 @@ static int copy_cuda_async_common(void *src_interface, unsigned src_node STARPU_
 
																 	/* We may have a contiguous buffer for the entire block, or contiguous
															
 
																 	 * plans within the block, we can avoid many small transfers that way */
															
 
																-	if ((nx == src_block->ldy) && (src_block->ldy == dst_block->ldy))
															
 
																+	if (IS_CONTIGUOUS_MATRIX(nx, ny, src_block->ldy) && (src_block->ldy == dst_block->ldy))
															
 
																 	{
															
 
																 		/* Is that a single contiguous buffer ? */
															
 
																-		if (((nx*ny) == src_block->ldz) && (src_block->ldz == dst_block->ldz))
															
 
																+		if (IS_CONTIGUOUS_BLOCK(nx, ny, nz, src_block->ldy, src_block->ldz) &&
															
 
																+		    IS_CONTIGUOUS_BLOCK(nx, ny, nz, dst_block->ldy, dst_block->ldz))
															
 
																 		{
															
 
																 			ret = starpu_cuda_copy_async_sync((void *)src_block->ptr, src_node, (void *)dst_block->ptr, dst_node, nx*ny*nz*elemsize, stream, kind);
															
 
																 		}
															
@@ -694,9 +699,9 @@ static int copy_opencl_common(void *src_interface, unsigned src_node, void *dst_
 
																 	/* We may have a contiguous buffer for the entire block, or contiguous
															
 
																 	 * plans within the block, we can avoid many small transfers that way */
															
 
																-	if ((nx == src_block->ldy) && (src_block->ldy == dst_block->ldy) &&
															
 
																+	if (IS_CONTIGUOUS_BLOCK(nx, ny, nz, src_block->ldy, src_block->ldz) &&
															
 
																+	    IS_CONTIGUOUS_BLOCK(nx, ny, nz, dst_block->ldy, dst_block->ldz))
															
 
																 		/* Is that a single contiguous buffer ? */
															
 
																-		((nx*ny) == src_block->ldz) && (src_block->ldz == dst_block->ldz))
															
 
																 	{
															
 
																 		ret = starpu_opencl_copy_async_sync(src_block->dev_handle, src_block->offset, src_node,
															
 
																 						    dst_block->dev_handle, dst_block->offset, dst_node,
															
@@ -778,7 +783,8 @@ static int copy_any_to_any(void *src_interface, unsigned src_node, void *dst_int
 
																 	uint32_t ldy_dst = dst_block->ldy;
															
 
																 	uint32_t ldz_dst = dst_block->ldz;
															
 
																-	if (ldy_src == nx && ldy_dst == nx && ldz_src == nx*ny && ldz_dst == nx*ny)
															
 
																+	if (IS_CONTIGUOUS_BLOCK(nx, ny, nz, ldy_src, ldz_src) &&
															
 
																+	    IS_CONTIGUOUS_BLOCK(nx, ny, nz, ldy_dst, ldz_dst))
															
 
																 	{
															
 
																 		/* Optimise non-partitioned and z-partitioned case */
															
 
																 		if (starpu_interface_copy(src_block->dev_handle, src_block->offset, src_node,
															
@@ -791,7 +797,8 @@ static int copy_any_to_any(void *src_interface, unsigned src_node, void *dst_int
 
																 		unsigned z;
															
 
																 		for (z = 0; z < nz; z++)
															
 
																 		{
															
 
																-			if (ldy_src == nx && ldy_dst == nx)
															
 
																+			if (IS_CONTIGUOUS_MATRIX(nx, ny, ldy_src) &&
															
 
																+			    IS_CONTIGUOUS_MATRIX(nx, ny, ldy_dst))
															
 
																 			{
															
 
																 				/* Optimise y-partitioned case */
															
 
																 				uint32_t src_offset = z*ldz_src*elemsize;
															
--- a/src/datawizard/interfaces/matrix_interface.c
+++ b/src/datawizard/interfaces/matrix_interface.c
@@ -259,6 +259,8 @@ static void display_matrix_interface(starpu_data_handle_t handle, FILE *f)
 
																 	fprintf(f, "%u\t%u\t", matrix_interface->nx, matrix_interface->ny);
															
 
																 }
															
 
																+#define IS_CONTIGUOUS_MATRIX(nx, ny, ld) ((nx) == (ld))
															
 
																+
															
 
																 static int pack_matrix_handle(starpu_data_handle_t handle, unsigned node, void **ptr, starpu_ssize_t *count)
															
 
																 {
															
 
																 	STARPU_ASSERT(starpu_data_test_if_allocated_on_node(handle, node));
															
@@ -280,7 +282,7 @@ static int pack_matrix_handle(starpu_data_handle_t handle, unsigned node, void *
 
																 		*ptr = (void *)starpu_malloc_on_node_flags(node, *count, 0);
															
 
																 		char *cur = *ptr;
															
 
																-		if (ld == nx)
															
 
																+		if (IS_CONTIGUOUS_MATRIX(nx, ny, ld))
															
 
																 			memcpy(cur, matrix, nx*ny*elemsize);
															
 
																 		else
															
 
																 		{
															
@@ -313,7 +315,7 @@ static int unpack_matrix_handle(starpu_data_handle_t handle, unsigned node, void
 
																 	char *matrix = (void *)matrix_interface->ptr;
															
 
																-	if (ld == nx)
															
 
																+	if (IS_CONTIGUOUS_MATRIX(nx, ny, ld))
															
 
																 		memcpy(matrix, ptr, nx*ny*elemsize);
															
 
																 	else
															
 
																 	{
															
@@ -669,7 +671,7 @@ static int copy_any_to_any(void *src_interface, unsigned src_node, void *dst_int
 
																 	uint32_t ld_src = src_matrix->ld;
															
 
																 	uint32_t ld_dst = dst_matrix->ld;
															
 
																-	if (ld_src == nx && ld_dst == nx)
															
 
																+	if (IS_CONTIGUOUS_MATRIX(nx, ny, ld_src) && ld_dst == ld_src)
															
 
																 	{
															
 
																 		/* Optimize unpartitioned and y-partitioned cases */
															
 
																 		if (starpu_interface_copy(src_matrix->dev_handle, src_matrix->offset, src_node,
															
--- a/src/datawizard/interfaces/tensor_interface.c
+++ b/src/datawizard/interfaces/tensor_interface.c
@@ -230,6 +230,10 @@ static void display_tensor_interface(starpu_data_handle_t handle, FILE *f)
 
																 	fprintf(f, "%u\t%u\t%u\t%u\t", tensor_interface->nx, tensor_interface->ny, tensor_interface->nz, tensor_interface->nt);
															
 
																 }
															
 
																+#define IS_CONTIGUOUS_MATRIX(nx, ny, ldy) ((nx) == (ldy))
															
 
																+#define IS_CONTIGUOUS_BLOCK(nx, ny, nz, ldy, ldz) ((nx) * (ny) == (ldz))
															
 
																+#define IS_CONTIGUOUS_TENSOR(nx, ny, nz, nt, ldy, ldz, ldt) ((nx) * (ny) * (nz) == (ldt))
															
 
																+
															
 
																 static int pack_tensor_handle(starpu_data_handle_t handle, unsigned node, void **ptr, starpu_ssize_t *count)
															
 
																 {
															
 
																 	STARPU_ASSERT(starpu_data_test_if_allocated_on_node(handle, node));
															
@@ -256,17 +260,14 @@ static int pack_tensor_handle(starpu_data_handle_t handle, unsigned node, void *
 
																 		*ptr = (void *)starpu_malloc_on_node_flags(node, *count, 0);
															
 
																 		char *cur = *ptr;
															
 
																-		if (nx * ny * nz == ldt &&
															
 
																-		    nx * ny == ldz &&
															
 
																-		    nx == ldy)
															
 
																+		if (IS_CONTIGUOUS_TENSOR(nx, ny, nz, nt, ldy, ldz, ldt))
															
 
																 			memcpy(cur, block, nx * ny * nz * nt * elemsize);
															
 
																 		else
															
 
																 		{
															
 
																 			char *block_t = block;
															
 
																 			for(t=0 ; t<nt ; t++)
															
 
																 			{
															
 
																-				if (nx * ny == ldz &&
															
 
																-				    nx == ldy)
															
 
																+				if (IS_CONTIGUOUS_BLOCK(nx, ny, nz, ldy, ldz))
															
 
																 				{
															
 
																 					memcpy(cur, block_t, nx * ny * nz * elemsize);
															
 
																 					cur += nx*ny*nz*elemsize;
															
@@ -276,7 +277,7 @@ static int pack_tensor_handle(starpu_data_handle_t handle, unsigned node, void *
 
																 					char *block_z = block_t;
															
 
																 					for(z=0 ; z<nz ; z++)
															
 
																 					{
															
 
																-						if (nx == ldy)
															
 
																+						if (IS_CONTIGUOUS_MATRIX(nx, ny, ldy))
															
 
																 						{
															
 
																 							memcpy(cur, block_z, nx * ny * elemsize);
															
 
																 							cur += nx*ny*elemsize;
															
@@ -324,17 +325,14 @@ static int unpack_tensor_handle(starpu_data_handle_t handle, unsigned node, void
 
																 	char *cur = ptr;
															
 
																 	char *block = (void *)tensor_interface->ptr;
															
 
																-	if (nx * ny * nz == ldt &&
															
 
																-	    nx * ny == ldz &&
															
 
																-	    nx == ldy)
															
 
																+	if (IS_CONTIGUOUS_TENSOR(nx, ny, nz, nt, ldy, ldz, ldt))
															
 
																 		memcpy(block, cur, nx * ny * nz * nt * elemsize);
															
 
																 	else
															
 
																 	{
															
 
																 		char *block_t = block;
															
 
																 		for(t=0 ; t<nt ; t++)
															
 
																 		{
															
 
																-			if (nx * ny == ldz &&
															
 
																-			    nx == ldy)
															
 
																+			if (IS_CONTIGUOUS_BLOCK(nx, ny, nz, ldy, ldz))
															
 
																 			{
															
 
																 				memcpy(block_t, cur, nx * ny * nz * elemsize);
															
 
																 				cur += nx*ny*nz*elemsize;
															
@@ -344,7 +342,7 @@ static int unpack_tensor_handle(starpu_data_handle_t handle, unsigned node, void
 
																 				char *block_z = block_t;
															
 
																 				for(z=0 ; z<nz ; z++)
															
 
																 				{
															
 
																-					if (nx == ldy)
															
 
																+					if (IS_CONTIGUOUS_MATRIX(nx, ny, ldy))
															
 
																 					{
															
 
																 						memcpy(block_z, cur, nx * ny * elemsize);
															
 
																 						cur += nx*ny*elemsize;
															
@@ -582,8 +580,8 @@ static int copy_cuda_common(void *src_interface, unsigned src_node STARPU_ATTRIB
 
																 	cudaError_t cures;
															
 
																-	if (src_block->ldy == dst_block->ldy && src_block->ldz == dst_block->ldz && src_block->ldt == dst_block->ldt
															
 
																-		&& nx*ny*nz == src_block->ldt)
															
 
																+	if (IS_CONTIGUOUS_TENSOR(nx, ny, nz, nt, src_block->ldy, src_block->ldz, src_block->ldt) &&
															
 
																+	    IS_CONTIGUOUS_TENSOR(nx, ny, nz, nt, dst_block->ldy, dst_block->ldz, dst_block->ldt))
															
 
																 	{
															
 
																 		/* Same lds on both sides, and contiguous, simple */
															
 
																 		starpu_cuda_copy_async_sync((void *)src_block->ptr, src_node, (void *)dst_block->ptr, dst_node, nx*ny*nz*nt*elemsize, NULL, kind);
															
@@ -635,8 +633,8 @@ static int copy_cuda_async_common(void *src_interface, unsigned src_node STARPU_
 
																 	int ret;
															
 
																-	if (src_block->ldy == dst_block->ldy && src_block->ldz == dst_block->ldz && src_block->ldt == dst_block->ldt
															
 
																-		&& nx*ny*nz == src_block->ldt)
															
 
																+	if (IS_CONTIGUOUS_TENSOR(nx, ny, nz, nt, src_block->ldy, src_block->ldz, src_block->ldt) &&
															
 
																+	    IS_CONTIGUOUS_TENSOR(nx, ny, nz, nt, dst_block->ldy, dst_block->ldz, dst_block->ldt))
															
 
																 	{
															
 
																 		/* Same lds on both sides, and contiguous, simple */
															
 
																 		ret = starpu_cuda_copy_async_sync((void *)src_block->ptr, src_node, (void *)dst_block->ptr, dst_node, nx*ny*nz*nt*elemsize, stream, kind);
															
@@ -746,8 +744,8 @@ static int copy_opencl_common(void *src_interface, unsigned src_node, void *dst_
 
																 	/* We may have a contiguous buffer for the entire block, or contiguous
															
 
																 	 * plans within the block, we can avoid many small transfers that way */
															
 
																-	if (src_block->ldy == dst_block->ldy && src_block->ldz == dst_block->ldz && src_block->ldt == dst_block->ldt
															
 
																-		&& nx*ny*nz == src_block->ldt)
															
 
																+	if (IS_CONTIGUOUS_TENSOR(nx, ny, nz, nt, src_block->ldy, src_block->ldz, src_block->ldt) &&
															
 
																+	    IS_CONTIGUOUS_TENSOR(nx, ny, nz, nt, dst_block->ldy, dst_block->ldz, dst_block->ldt))
															
 
																 	{
															
 
																 		ret = starpu_opencl_copy_async_sync(src_block->dev_handle, src_block->offset, src_node,
															
 
																 						    dst_block->dev_handle, dst_block->offset, dst_node,
															
@@ -836,7 +834,8 @@ static int copy_any_to_any(void *src_interface, unsigned src_node, void *dst_int
 
																 	uint32_t ldz_dst = dst_block->ldz;
															
 
																 	uint32_t ldt_dst = dst_block->ldt;
															
 
																-	if (ldy_src == nx && ldy_dst == nx && ldz_src == nx*ny && ldz_dst == nx*ny && ldt_src == nx*ny*nz && ldt_dst == nx*ny*nz)
															
 
																+	if (IS_CONTIGUOUS_TENSOR(nx, ny, nz, nt, ldy_src, ldz_src, ldt_src) &&
															
 
																+	    IS_CONTIGUOUS_TENSOR(nx, ny, nz, nt, ldy_dst, ldz_dst, ldt_dst))
															
 
																 	{
															
 
																 		/* Optimise non-partitioned and z-partitioned case */
															
 
																 		if (starpu_interface_copy(src_block->dev_handle, src_block->offset, src_node,
															
@@ -852,7 +851,8 @@ static int copy_any_to_any(void *src_interface, unsigned src_node, void *dst_int
 
																 		    unsigned z;
															
 
																 		    for (z = 0; z < nz; z++)
															
 
																 		    {
															
 
																-			if (ldy_src == nx && ldy_dst == nx)
															
 
																+			if (IS_CONTIGUOUS_MATRIX(nx, ny, ldy_src) &&
															
 
																+			    IS_CONTIGUOUS_MATRIX(nx, ny, ldy_dst))
															
 
																 			{
															
 
																 				/* Optimise y-partitioned case */
															
 
																 				uint32_t src_offset = t*ldt_src*elemsize + z*ldz_src*elemsize;