4 years ago · 674ba5d671
--- a/examples/Makefile.am
+++ b/examples/Makefile.am
@@ -236,6 +236,7 @@ STARPU_EXAMPLES +=				\
 
				 	cpp/add_vectors_interface		\
			
 
				 	filters/fread				\
			
 
				 	filters/fvector				\
			
 
				+	filters/ftensor				\
			
 
				 	filters/fblock				\
			
 
				 	filters/fmatrix				\
			
 
				 	filters/fmultiple_manual		\
			
@@ -625,7 +626,8 @@ endif
 
				 examplebin_PROGRAMS +=				\
			
 
				 	filters/shadow				\
			
 
				 	filters/shadow2d			\
			
 
				-	filters/shadow3d
			
 
				+	filters/shadow3d			\
			
 
				+	filters/shadow4d
			
 
				 
			
 
				 #############################
			
 
				 # Custom multiformat filter #
			
--- a/examples/filters/ftensor.c
+++ b/examples/filters/ftensor.c
@@ -0,0 +1,191 @@
 
				+/* StarPU --- Runtime system for heterogeneous multicore architectures.
			
 
				+ *
			
 
				+ * Copyright (C) 2010-2021  Université de Bordeaux, CNRS (LaBRI UMR 5800), Inria
			
 
				+ *
			
 
				+ * StarPU is free software; you can redistribute it and/or modify
			
 
				+ * it under the terms of the GNU Lesser General Public License as published by
			
 
				+ * the Free Software Foundation; either version 2.1 of the License, or (at
			
 
				+ * your option) any later version.
			
 
				+ *
			
 
				+ * StarPU is distributed in the hope that it will be useful, but
			
 
				+ * WITHOUT ANY WARRANTY; without even the implied warranty of
			
 
				+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
			
 
				+ *
			
 
				+ * See the GNU Lesser General Public License in COPYING.LGPL for more details.
			
 
				+ */
			
 
				+
			
 
				+/*
			
 
				+ * This examplifies how to use partitioning filters.  We here just split a 4D
			
 
				+ * matrix into 4D slices (along the X axis), and run a dumb kernel on them.
			
 
				+ */
			
 
				+
			
 
				+#include <starpu.h>
			
 
				+
			
 
				+#define NX    6
			
 
				+#define NY    5
			
 
				+#define NZ    4
			
 
				+#define NT    3
			
 
				+#define PARTS 2
			
 
				+
			
 
				+#define FPRINTF(ofile, fmt, ...) do { if (!getenv("STARPU_SSILENT")) {fprintf(ofile, fmt, ## __VA_ARGS__); }} while(0)
			
 
				+
			
 
				+void cpu_func(void *buffers[], void *cl_arg)
			
 
				+{
			
 
				+    int i, j, k, l;
			
 
				+    int *factor = (int *) cl_arg;
			
 
				+    int *val = (int *)STARPU_TENSOR_GET_PTR(buffers[0]);
			
 
				+    int nx = (int)STARPU_TENSOR_GET_NX(buffers[0]);
			
 
				+    int ny = (int)STARPU_TENSOR_GET_NY(buffers[0]);
			
 
				+    int nz = (int)STARPU_TENSOR_GET_NZ(buffers[0]);
			
 
				+    int nt = (int)STARPU_TENSOR_GET_NT(buffers[0]);
			
 
				+    unsigned ldy = STARPU_TENSOR_GET_LDY(buffers[0]);
			
 
				+    unsigned ldz = STARPU_TENSOR_GET_LDZ(buffers[0]);
			
 
				+    unsigned ldt = STARPU_TENSOR_GET_LDT(buffers[0]);
			
 
				+
			
 
				+    for(l=0; l<nt ; l++)
			
 
				+    {
			
 
				+        for(k=0; k<nz ; k++)
			
 
				+        {
			
 
				+            for(j=0; j<ny ; j++)
			
 
				+            {
			
 
				+                for(i=0; i<nx ; i++)
			
 
				+                    val[(l*ldt)+(k*ldz)+(j*ldy)+i] = *factor;
			
 
				+            }
			
 
				+        }
			
 
				+    }
			
 
				+        
			
 
				+}
			
 
				+
			
 
				+void print_tensor(int *tensor, int nx, int ny, int nz, int nt, unsigned ldy, unsigned ldz, unsigned ldt)
			
 
				+{
			
 
				+        int i, j, k, l;
			
 
				+        FPRINTF(stderr, "tensor=%p nx=%d ny=%d nz=%d nt=%d ldy=%u ldz=%u ldt=%u\n", tensor, nx, ny, nz, nt, ldy, ldz, ldt);
			
 
				+        for(l=0 ; l<nt ; l++)
			
 
				+        {
			
 
				+            for(k=0 ; k<nz ; k++)
			
 
				+            {
			
 
				+                for(j=0 ; j<ny ; j++)
			
 
				+                {
			
 
				+                    for(i=0 ; i<nx ; i++)
			
 
				+                    {
			
 
				+                        FPRINTF(stderr, "%2d ", tensor[(l*ldt)+(k*ldz)+(j*ldy)+i]);
			
 
				+                    }
			
 
				+                    FPRINTF(stderr,"\n");
			
 
				+                }
			
 
				+                FPRINTF(stderr,"\n");
			
 
				+            }
			
 
				+            FPRINTF(stderr,"\n");
			
 
				+        }
			
 
				+        FPRINTF(stderr,"\n");
			
 
				+}
			
 
				+
			
 
				+void print_data(starpu_data_handle_t tensor_handle)
			
 
				+{
			
 
				+    int *tensor = (int *)starpu_tensor_get_local_ptr(tensor_handle);
			
 
				+    int nx = starpu_tensor_get_nx(tensor_handle);
			
 
				+    int ny = starpu_tensor_get_ny(tensor_handle);
			
 
				+    int nz = starpu_tensor_get_nz(tensor_handle);
			
 
				+    int nt = starpu_tensor_get_nt(tensor_handle);
			
 
				+    unsigned ldy = starpu_tensor_get_local_ldy(tensor_handle);
			
 
				+    unsigned ldz = starpu_tensor_get_local_ldz(tensor_handle);
			
 
				+    unsigned ldt = starpu_tensor_get_local_ldt(tensor_handle);
			
 
				+
			
 
				+    print_tensor(tensor, nx, ny, nz, nt, ldy, ldz, ldt);
			
 
				+}
			
 
				+
			
 
				+int main(void)
			
 
				+{
			
 
				+    int *tensor,n=0;
			
 
				+    int i, j, k, l;
			
 
				+    int ret;
			
 
				+
			
 
				+    tensor = (int*)malloc(NX*NY*NZ*NT*sizeof(tensor[0]));
			
 
				+    assert(tensor);
			
 
				+    for(l=0 ; l<NT ; l++)
			
 
				+    {
			
 
				+        for(k=0 ; k<NZ ; k++)
			
 
				+        {
			
 
				+            for(j=0 ; j<NY ; j++)
			
 
				+            {
			
 
				+                for(i=0 ; i<NX ; i++)
			
 
				+                {
			
 
				+                    tensor[(l*NX*NY*NZ)+(k*NX*NY)+(j*NX)+i] = n++;
			
 
				+                }
			
 
				+            }
			
 
				+        }
			
 
				+    }
			
 
				+
			
 
				+    starpu_data_handle_t handle;
			
 
				+    struct starpu_codelet cl =
			
 
				+    {
			
 
				+        .cpu_funcs = {cpu_func},
			
 
				+        .cpu_funcs_name = {"cpu_func"},
			
 
				+        .nbuffers = 1,
			
 
				+        .modes = {STARPU_RW},
			
 
				+        .name = "tensor_scal"
			
 
				+    };
			
 
				+
			
 
				+    ret = starpu_init(NULL);
			
 
				+    if (ret == -ENODEV)
			
 
				+        return 77;
			
 
				+    STARPU_CHECK_RETURN_VALUE(ret, "starpu_init");
			
 
				+    
			
 
				+    /* Declare data to StarPU */
			
 
				+    starpu_tensor_data_register(&handle, STARPU_MAIN_RAM, (uintptr_t)tensor, NX, NX*NY, NX*NY*NZ, NX, NY, NZ, NT, sizeof(int));
			
 
				+    FPRINTF(stderr, "IN  Tensor\n");
			
 
				+    print_data(handle);
			
 
				+
			
 
				+    /* Partition the tensor in PARTS sub-tensors */
			
 
				+    struct starpu_data_filter f =
			
 
				+    {
			
 
				+        .filter_func = starpu_tensor_filter_block,
			
 
				+        .nchildren = PARTS
			
 
				+    };
			
 
				+    starpu_data_partition(handle, &f);
			
 
				+
			
 
				+    FPRINTF(stderr,"Nb of partitions : %d\n",starpu_data_get_nb_children(handle));
			
 
				+
			
 
				+    for(i=0 ; i<starpu_data_get_nb_children(handle) ; i++)
			
 
				+    {
			
 
				+        starpu_data_handle_t stensor = starpu_data_get_sub_data(handle, 1, i);
			
 
				+        FPRINTF(stderr, "Sub tensor %d\n", i);
			
 
				+        print_data(stensor);
			
 
				+    }
			
 
				+
			
 
				+    /* Submit a task on each sub-tensor */
			
 
				+    for(i=0 ; i<starpu_data_get_nb_children(handle) ; i++)
			
 
				+    {
			
 
				+        int multiplier=i;
			
 
				+        struct starpu_task *task = starpu_task_create();
			
 
				+
			
 
				+        FPRINTF(stderr,"Dealing with sub-tensor %d\n", i);
			
 
				+        task->cl = &cl;
			
 
				+        task->synchronous = 1;
			
 
				+        task->callback_func = NULL;
			
 
				+        task->handles[0] = starpu_data_get_sub_data(handle, 1, i);
			
 
				+        task->cl_arg = &multiplier;
			
 
				+        task->cl_arg_size = sizeof(multiplier);
			
 
				+
			
 
				+        ret = starpu_task_submit(task);
			
 
				+        if (ret)
			
 
				+        {
			
 
				+            FPRINTF(stderr, "Error when submitting task\n");
			
 
				+            exit(ret);
			
 
				+        }
			
 
				+    }
			
 
				+
			
 
				+    /* Unpartition the data, unregister it from StarPU and shutdown */
			
 
				+    starpu_data_unpartition(handle, STARPU_MAIN_RAM);
			
 
				+    print_data(handle);
			
 
				+    starpu_data_unregister(handle);
			
 
				+
			
 
				+    /* Print result tensor */
			
 
				+    FPRINTF(stderr, "OUT Tensor\n");
			
 
				+    print_tensor(tensor, NX, NY, NZ, NT, NX, NX*NY, NX*NY*NZ);
			
 
				+
			
 
				+    free(tensor);
			
 
				+
			
 
				+    starpu_shutdown();
			
 
				+    return 0;
			
 
				+
			
 
				+}    
			
--- a/examples/filters/shadow4d.c
+++ b/examples/filters/shadow4d.c
@@ -0,0 +1,497 @@
 
				+/* StarPU --- Runtime system for heterogeneous multicore architectures.
			
 
				+ *
			
 
				+ * Copyright (C) 2010-2021  Université de Bordeaux, CNRS (LaBRI UMR 5800), Inria
			
 
				+ * Copyright (C) 2010       Mehdi Juhoor
			
 
				+ *
			
 
				+ * StarPU is free software; you can redistribute it and/or modify
			
 
				+ * it under the terms of the GNU Lesser General Public License as published by
			
 
				+ * the Free Software Foundation; either version 2.1 of the License, or (at
			
 
				+ * your option) any later version.
			
 
				+ *
			
 
				+ * StarPU is distributed in the hope that it will be useful, but
			
 
				+ * WITHOUT ANY WARRANTY; without even the implied warranty of
			
 
				+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
			
 
				+ *
			
 
				+ * See the GNU Lesser General Public License in COPYING.LGPL for more details.
			
 
				+ */
			
 
				+
			
 
				+/*
			
 
				+ * This examplifies the use of the 4D matrix shadow filters: a source "matrix" of
			
 
				+ * NX*NY*NZ*NT elements (plus SHADOW wrap-around elements) is partitioned into
			
 
				+ * matrices with some shadowing, and these are copied into a destination
			
 
				+ * "matrix2" of
			
 
				+ * NRPARTSX*NPARTSY*NPARTSZ*NPARTST*((NX/NPARTSX+2*SHADOWX)*(NY/NPARTSY+2*SHADOWY)*(NZ/NPARTSZ+2*SHADOWZ)*(NT/NPARTST+2*SHADOWT))
			
 
				+ * elements, partitioned in the traditionnal way, thus showing how shadowing
			
 
				+ * shows up.
			
 
				+ */
			
 
				+
			
 
				+#include <starpu.h>
			
 
				+
			
 
				+/* Shadow width */
			
 
				+#define SHADOWX 2
			
 
				+#define SHADOWY 2
			
 
				+#define SHADOWZ 1
			
 
				+#define SHADOWT 1
			
 
				+#define NX    6
			
 
				+#define NY    6
			
 
				+#define NZ    2
			
 
				+#define NT    2
			
 
				+#define PARTSX 2
			
 
				+#define PARTSY 2
			
 
				+#define PARTSZ 2
			
 
				+#define PARTST 2
			
 
				+
			
 
				+#define FPRINTF(ofile, fmt, ...) do { if (!getenv("STARPU_SSILENT")) {fprintf(ofile, fmt, ## __VA_ARGS__); }} while(0)
			
 
				+
			
 
				+void cpu_func(void *buffers[], void *cl_arg)
			
 
				+{
			
 
				+    (void)cl_arg;
			
 
				+        /* length of the shadowed source matrix */
			
 
				+        unsigned ldy = STARPU_TENSOR_GET_LDY(buffers[0]);
			
 
				+        unsigned ldz = STARPU_TENSOR_GET_LDZ(buffers[0]);
			
 
				+        unsigned ldt = STARPU_TENSOR_GET_LDT(buffers[0]);
			
 
				+        unsigned x = STARPU_TENSOR_GET_NX(buffers[0]);
			
 
				+        unsigned y = STARPU_TENSOR_GET_NY(buffers[0]);
			
 
				+        unsigned z = STARPU_TENSOR_GET_NZ(buffers[0]);
			
 
				+        unsigned t = STARPU_TENSOR_GET_NT(buffers[0]);
			
 
				+        /* local copy of the shadowed source matrix pointer */
			
 
				+        int *val = (int *)STARPU_TENSOR_GET_PTR(buffers[0]);
			
 
				+
			
 
				+        /* length of the destination matrix */
			
 
				+        unsigned ldy2 = STARPU_TENSOR_GET_LDY(buffers[1]);
			
 
				+        unsigned ldz2 = STARPU_TENSOR_GET_LDZ(buffers[1]);
			
 
				+        unsigned ldt2 = STARPU_TENSOR_GET_LDT(buffers[1]);
			
 
				+        unsigned x2 = STARPU_TENSOR_GET_NX(buffers[1]);
			
 
				+        unsigned y2 = STARPU_TENSOR_GET_NY(buffers[1]);
			
 
				+        unsigned z2 = STARPU_TENSOR_GET_NZ(buffers[1]);
			
 
				+        unsigned t2 = STARPU_TENSOR_GET_NT(buffers[1]);
			
 
				+        /* local copy of the destination matrix pointer */
			
 
				+        int *val2 = (int *)STARPU_TENSOR_GET_PTR(buffers[1]);
			
 
				+
			
 
				+    unsigned i, j, k, l;
			
 
				+
			
 
				+    /* If things go right, sizes should match */
			
 
				+    STARPU_ASSERT(x == x2);
			
 
				+    STARPU_ASSERT(y == y2);
			
 
				+    STARPU_ASSERT(z == z2);
			
 
				+    STARPU_ASSERT(t == t2);
			
 
				+    for (l = 0; l < t; l++)
			
 
				+        for (k = 0; k < z; k++)
			
 
				+            for (j = 0; j < y; j++)
			
 
				+                for (i = 0; i < x; i++)
			
 
				+                    val2[l*ldt2+k*ldz2+j*ldy2+i] = val[l*ldt+k*ldz+j*ldy+i];
			
 
				+}
			
 
				+
			
 
				+#ifdef STARPU_USE_CUDA
			
 
				+void cuda_func(void *buffers[], void *cl_arg)
			
 
				+{
			
 
				+    (void)cl_arg;
			
 
				+        /* length of the shadowed source matrix*/
			
 
				+        unsigned ldy = STARPU_TENSOR_GET_LDY(buffers[0]);
			
 
				+        unsigned ldz = STARPU_TENSOR_GET_LDZ(buffers[0]);
			
 
				+        unsigned ldt = STARPU_TENSOR_GET_LDT(buffers[0]);
			
 
				+        unsigned x = STARPU_TENSOR_GET_NX(buffers[0]);
			
 
				+        unsigned y = STARPU_TENSOR_GET_NY(buffers[0]);
			
 
				+        unsigned z = STARPU_TENSOR_GET_NZ(buffers[0]);
			
 
				+        unsigned t = STARPU_TENSOR_GET_NT(buffers[0]);
			
 
				+        /* local copy of the shadowed source matrix pointer */
			
 
				+        int *val = (int *)STARPU_TENSOR_GET_PTR(buffers[0]);
			
 
				+
			
 
				+        /* length of the destination matrix */
			
 
				+        unsigned ldy2 = STARPU_TENSOR_GET_LDY(buffers[1]);
			
 
				+        unsigned ldz2 = STARPU_TENSOR_GET_LDZ(buffers[1]);
			
 
				+        unsigned ldt2 = STARPU_TENSOR_GET_LDT(buffers[1]);
			
 
				+        unsigned x2 = STARPU_TENSOR_GET_NX(buffers[1]);
			
 
				+        unsigned y2 = STARPU_TENSOR_GET_NY(buffers[1]);
			
 
				+        unsigned z2 = STARPU_TENSOR_GET_NZ(buffers[1]);
			
 
				+        unsigned t2 = STARPU_TENSOR_GET_NT(buffers[1]);
			
 
				+        /* local copy of the destination matrix pointer */
			
 
				+        int *val2 = (int *)STARPU_TENSOR_GET_PTR(buffers[1]);
			
 
				+
			
 
				+    unsigned l;
			
 
				+    cudaError_t cures;
			
 
				+
			
 
				+    /* If things go right, sizes should match */
			
 
				+    STARPU_ASSERT(x == x2);
			
 
				+    STARPU_ASSERT(y == y2);
			
 
				+    STARPU_ASSERT(z == z2);
			
 
				+    STARPU_ASSERT(t == t2);
			
 
				+    for (l = 0; l < t; l++)
			
 
				+    {
			
 
				+        for (k = 0; k < z; k++)
			
 
				+        {
			
 
				+            cures = cudaMemcpy2DAsync(val2+k*ldz2+l*ldt2, ldy2*sizeof(*val2), val+k*ldz+l*ldt, ldy*sizeof(*val),
			
 
				+                    x*sizeof(*val), y, cudaMemcpyDeviceToDevice, starpu_cuda_get_local_stream());
			
 
				+            STARPU_ASSERT(!cures);
			
 
				+        }
			
 
				+    }
			
 
				+        
			
 
				+}
			
 
				+#endif
			
 
				+
			
 
				+int main(void)
			
 
				+{
			
 
				+    unsigned i, j, k, l, m, n, p, q;
			
 
				+    int matrix[NT + 2*SHADOWT][NZ + 2*SHADOWZ][NY + 2*SHADOWY][NX + 2*SHADOWX];
			
 
				+    int matrix2[NT + PARTST*2*SHADOWT][NZ + PARTSZ*2*SHADOWZ][NY + PARTSY*2*SHADOWY][NX + PARTSX*2*SHADOWX];
			
 
				+    starpu_data_handle_t handle, handle2;
			
 
				+    int ret;
			
 
				+
			
 
				+    struct starpu_codelet cl =
			
 
				+    {
			
 
				+        .cpu_funcs = {cpu_func},
			
 
				+        .cpu_funcs_name = {"cpu_func"},
			
 
				+#ifdef STARPU_USE_CUDA
			
 
				+        .cuda_funcs = {cuda_func},
			
 
				+        .cuda_flags = {STARPU_CUDA_ASYNC},
			
 
				+#endif
			
 
				+        .nbuffers = 2,
			
 
				+        .modes = {STARPU_R, STARPU_W}
			
 
				+    };
			
 
				+
			
 
				+    memset(matrix, -1, sizeof(matrix));
			
 
				+    for(l=1 ; l<=NT ; l++)
			
 
				+        for(k=1 ; k<=NZ ; k++)
			
 
				+            for(j=1 ; j<=NY ; j++)
			
 
				+                for(i=1 ; i<=NX ; i++)
			
 
				+                    matrix[SHADOWT+l-1][SHADOWZ+k-1][SHADOWY+j-1][SHADOWX+i-1] = i+j+k+l;
			
 
				+
			
 
				+    /*copy cubes*/
			
 
				+    for (l = SHADOWT ; l<SHADOWT+NT ; l++)
			
 
				+        for (k = SHADOWZ ; k<SHADOWZ+NZ ; k++)
			
 
				+            for (j = SHADOWY ; j<SHADOWY+NY ; j++)
			
 
				+                for(i=0 ; i<SHADOWX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l][k][j][i+NX];
			
 
				+                    matrix[l][k][j][SHADOWX+NX+i] = matrix[l][k][j][SHADOWX+i];
			
 
				+                }
			
 
				+    for (l = SHADOWT ; l<SHADOWT+NT ; l++)
			
 
				+        for(k=SHADOWZ ; k<SHADOWZ+NZ ; k++)
			
 
				+            for(j=0 ; j<SHADOWY ; j++)
			
 
				+                for(i=SHADOWX ; i<SHADOWX+NX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l][k][j+NY][i];
			
 
				+                    matrix[l][k][SHADOWY+NY+j][i] = matrix[l][k][SHADOWY+j][i];
			
 
				+                }
			
 
				+    for (l = SHADOWT ; l<SHADOWT+NT ; l++)
			
 
				+        for(k=0 ; k<SHADOWZ ; k++)
			
 
				+            for(j=SHADOWY ; j<SHADOWY+NY ; j++)
			
 
				+                for(i=SHADOWX ; i<SHADOWX+NX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l][k+NZ][j][i];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][j][i] = matrix[l][SHADOWZ+k][j][i];
			
 
				+                }
			
 
				+    for (l = 0 ; l<SHADOWT ; l++)
			
 
				+        for(k=SHADOWZ ; k<SHADOWZ+NZ ; k++)
			
 
				+            for(j=SHADOWY ; j<SHADOWY+NY ; j++)
			
 
				+                for(i=SHADOWX ; i<SHADOWX+NX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l+NT][k][j][i];
			
 
				+                    matrix[SHADOWT+NT+l][k][j][i] = matrix[SHADOWT+l][k][j][i];
			
 
				+                }
			
 
				+
			
 
				+    /*copy planes*/
			
 
				+    for (l = SHADOWT ; l<SHADOWT+NT ; l++)
			
 
				+        for (k = SHADOWZ ; k<SHADOWZ+NZ ; k++)
			
 
				+            for(j=0 ; j<SHADOWY ; j++)
			
 
				+                for(i=0 ; i<SHADOWX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l][k][j+NY][i+NX];
			
 
				+                    matrix[l][k][j][SHADOWX+NX+i] = matrix[l][k][j+NY][SHADOWX+i];
			
 
				+                    matrix[l][k][SHADOWY+NY+j][i] = matrix[l][k][SHADOWY+j][i+NX];
			
 
				+                    matrix[l][k][SHADOWY+NY+j][SHADOWX+NX+i] = matrix[l][k][SHADOWY+j][SHADOWX+i];
			
 
				+                }
			
 
				+
			
 
				+    for (l = SHADOWT ; l<SHADOWT+NT ; l++)
			
 
				+        for (k=0 ; k<SHADOWZ ; k++)
			
 
				+            for(j = SHADOWY ; j<SHADOWY+NY ; j++)
			
 
				+                for(i=0 ; i<SHADOWX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l][k+NZ][j][i+NX];
			
 
				+                    matrix[l][k][j][SHADOWX+NX+i] = matrix[l][k+NZ][j][SHADOWX+i];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][j][i] = matrix[l][SHADOWZ+k][j][i+NX];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][j][SHADOWX+NX+i] = matrix[l][SHADOWZ+k][j][SHADOWX+i];
			
 
				+                }
			
 
				+
			
 
				+    for (l = SHADOWT ; l<SHADOWT+NT ; l++)
			
 
				+        for (k=0 ; k<SHADOWZ ; k++)
			
 
				+            for(j=0 ; j<SHADOWY ; j++)
			
 
				+                for(i=SHADOWX ; i<SHADOWX+NX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l][k+NZ][j+NY][i];
			
 
				+                    matrix[l][k][SHADOWY+NY+j][i] = matrix[l][k+NZ][SHADOWY+j][i];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][j][i] = matrix[l][SHADOWZ+k][j+NY][i];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][SHADOWY+NY+j][i] = matrix[l][SHADOWZ+k][SHADOWY+j][i];
			
 
				+                }
			
 
				+
			
 
				+    for (l=0 ; l<SHADOWT ; l++)
			
 
				+        for (k = SHADOWZ ; k<SHADOWZ+NZ ; k++)
			
 
				+            for(j = SHADOWY ; j<SHADOWY+NY ; j++)
			
 
				+                for(i=0 ; i<SHADOWX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l+NT][k][j][i+NX];
			
 
				+                    matrix[l][k][j][SHADOWX+NX+i] = matrix[l+NT][k][j][SHADOWX+i];
			
 
				+                    matrix[SHADOWT+NT+l][k][j][i] = matrix[SHADOWT+l][k][j][i+NX];
			
 
				+                    matrix[SHADOWT+NT+l][k][j][SHADOWX+NX+i] = matrix[SHADOWT+l][k][j][SHADOWX+i];
			
 
				+                }
			
 
				+
			
 
				+    for (l=0 ; l<SHADOWT ; l++)
			
 
				+        for (k = SHADOWZ ; k<SHADOWZ+NZ ; k++)
			
 
				+            for(j=0 ; j<SHADOWY ; j++)
			
 
				+                for(i=SHADOWX ; i<SHADOWX+NX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l+NT][k][j+NY][i];
			
 
				+                    matrix[l][k][SHADOWY+NY+j][i] = matrix[l+NT][k][SHADOWY+j][i];
			
 
				+                    matrix[SHADOWT+NT+l][k][j][i] = matrix[SHADOWT+l][k][j+NY][i];
			
 
				+                    matrix[SHADOWT+NT+l][k][SHADOWY+NY+j][i] = matrix[SHADOWT+l][k][SHADOWY+j][i];
			
 
				+                }
			
 
				+
			
 
				+    for (l=0 ; l<SHADOWT ; l++)
			
 
				+        for(k=0 ; k<SHADOWZ ; k++)
			
 
				+            for (j = SHADOWY ; j<SHADOWY+NY ; j++)
			
 
				+                for(i=SHADOWX ; i<SHADOWX+NX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l+NT][k+NZ][j][i];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][j][i] = matrix[l+NT][SHADOWZ+k][j][i];
			
 
				+                    matrix[SHADOWT+NT+l][k][j][i] = matrix[SHADOWT+l][k+NZ][j][i];
			
 
				+                    matrix[SHADOWT+NT+l][SHADOWZ+NZ+k][j][i] = matrix[SHADOWT+l][SHADOWZ+k][j][i];
			
 
				+                }
			
 
				+
			
 
				+    /* Copy borders */
			
 
				+    for (l = SHADOWT ; l<SHADOWT+NT ; l++)
			
 
				+        for (k=0 ; k<SHADOWZ ; k++)
			
 
				+            for(j=0 ; j<SHADOWY ; j++)
			
 
				+                for(i=0 ; i<SHADOWX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l][k+NZ][j+NY][i+NX];
			
 
				+                    matrix[l][k][j][SHADOWX+NX+i] = matrix[l][k+NZ][j+NY][SHADOWX+i];
			
 
				+                    matrix[l][k][SHADOWY+NY+j][i] = matrix[l][k+NZ][SHADOWY+j][i+NX];
			
 
				+                    matrix[l][k][SHADOWY+NY+j][SHADOWX+NX+i] = matrix[l][k+NZ][SHADOWY+j][SHADOWX+i];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][j][i] = matrix[l][SHADOWZ+k][j+NY][i+NX];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][j][SHADOWX+NX+i] = matrix[l][SHADOWZ+k][j+NY][SHADOWX+i];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][SHADOWY+NY+j][i] = matrix[l][SHADOWZ+k][SHADOWY+j][i+NX];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][SHADOWY+NY+j][SHADOWX+NX+i] = matrix[l][SHADOWZ+k][SHADOWY+j][SHADOWX+i];
			
 
				+                }
			
 
				+    for (l=0 ; l<SHADOWT ; l++)
			
 
				+        for (k = SHADOWZ ; k<SHADOWZ+NZ ; k++)
			
 
				+            for(j=0 ; j<SHADOWY ; j++)
			
 
				+                for(i=0 ; i<SHADOWX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l+NT][k][j+NY][i+NX];
			
 
				+                    matrix[l][k][j][SHADOWX+NX+i] = matrix[l+NT][k][j+NY][SHADOWX+i];
			
 
				+                    matrix[l][k][SHADOWY+NY+j][i] = matrix[l+NT][k][SHADOWY+j][i+NX];
			
 
				+                    matrix[SHADOWT+NT+l][k][j][i] = matrix[SHADOWT+l][k][j+NY][i+NX];
			
 
				+                    matrix[l][k][SHADOWY+NY+j][SHADOWX+NX+i] = matrix[l+NT][k][SHADOWY+j][SHADOWX+i];
			
 
				+                    matrix[SHADOWT+NT+l][k][j][SHADOWX+NX+i] = matrix[SHADOWT+l][k][j+NY][SHADOWX+i];
			
 
				+                    matrix[SHADOWT+NT+l][k][SHADOWY+NY+j][i] = matrix[SHADOWT+l][k][SHADOWY+j][i+NX];
			
 
				+                    matrix[SHADOWT+NT+l][k][SHADOWY+NY+j][SHADOWX+NX+i] = matrix[SHADOWT+l][k][SHADOWY+j][SHADOWX+i];
			
 
				+                }
			
 
				+    for (l=0 ; l<SHADOWT ; l++)
			
 
				+        for(k=0 ; k<SHADOWZ ; k++)
			
 
				+            for (j = SHADOWY ; j<SHADOWY+NY ; j++)
			
 
				+                for(i=0 ; i<SHADOWX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l+NT][k+NZ][j][i+NX];
			
 
				+                    matrix[l][k][j][SHADOWX+NX+i] = matrix[l+NT][k+NZ][j][SHADOWX+i];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][j][i] = matrix[l+NT][SHADOWZ+k][j][i+NX];
			
 
				+                    matrix[SHADOWT+NT+l][k][j][i] = matrix[SHADOWT+l][k+NZ][j][i+NX];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][j][SHADOWX+NX+i] = matrix[l+NT][SHADOWZ+k][j][SHADOWX+i];
			
 
				+                    matrix[SHADOWT+NT+l][k][j][SHADOWX+NX+i] = matrix[SHADOWT+l][k+NZ][j][SHADOWX+i];
			
 
				+                    matrix[SHADOWT+NT+l][SHADOWZ+NZ+k][j][i] = matrix[SHADOWT+l][SHADOWZ+k][j][i+NX];
			
 
				+                    matrix[SHADOWT+NT+l][SHADOWZ+NZ+k][j][SHADOWX+NX+i] = matrix[SHADOWT+l][SHADOWZ+k][j][SHADOWX+i];
			
 
				+                }
			
 
				+    for (l=0 ; l<SHADOWT ; l++)
			
 
				+        for(k=0 ; k<SHADOWZ ; k++)
			
 
				+            for(j=0 ; j<SHADOWY ; j++)
			
 
				+                for(i=SHADOWX ; i<SHADOWX+NX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l+NT][k+NZ][j+NY][i];
			
 
				+                    matrix[l][k][SHADOWY+NY+j][i] = matrix[l+NT][k+NZ][SHADOWY+j][i];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][j][i] = matrix[l+NT][SHADOWZ+k][j+NY][i];
			
 
				+                    matrix[SHADOWT+NT+l][k][j][i] = matrix[SHADOWT+l][k+NZ][j+NY][i];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][SHADOWY+NY+j][i] = matrix[l+NT][SHADOWZ+k][SHADOWY+j][i];
			
 
				+                    matrix[SHADOWT+NT+l][k][SHADOWY+NY+j][i] = matrix[SHADOWT+l][k+NZ][SHADOWY+j][i];
			
 
				+                    matrix[SHADOWT+NT+l][SHADOWZ+NZ+k][j][i] = matrix[SHADOWT+l][SHADOWZ+k][j+NY][i];
			
 
				+                    matrix[SHADOWT+NT+l][SHADOWZ+NZ+k][SHADOWY+NY+j][i] = matrix[SHADOWT+l][SHADOWZ+k][SHADOWY+j][i];
			
 
				+                }
			
 
				+
			
 
				+    /* Copy corners */
			
 
				+    for(l=0 ; l<SHADOWT ; l++)
			
 
				+        for(k=0 ; k<SHADOWZ ; k++)
			
 
				+            for(j=0 ; j<SHADOWY ; j++)
			
 
				+                for(i=0 ; i<SHADOWX ; i++)
			
 
				+                {
			
 
				+                    matrix[l][k][j][i] = matrix[l+NT][k+NZ][j+NY][i+NX];
			
 
				+                    matrix[l][k][j][SHADOWX+NX+i] = matrix[l+NT][k+NZ][j+NY][SHADOWX+i];
			
 
				+                    matrix[l][k][SHADOWY+NY+j][i] = matrix[l+NT][k+NZ][SHADOWY+j][i+NX];
			
 
				+                    matrix[l][k][SHADOWY+NY+j][SHADOWX+NX+i] = matrix[l+NT][k+NZ][SHADOWY+j][SHADOWX+i];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][j][i] = matrix[l+NT][SHADOWZ+k][j+NY][i+NX];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][j][SHADOWX+NX+i] = matrix[l+NT][SHADOWZ+k][j+NY][SHADOWX+i];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][SHADOWY+NY+j][i] = matrix[l+NT][SHADOWZ+k][SHADOWY+j][i+NX];
			
 
				+                    matrix[l][SHADOWZ+NZ+k][SHADOWY+NY+j][SHADOWX+NX+i] = matrix[l+NT][SHADOWZ+k][SHADOWY+j][SHADOWX+i];
			
 
				+                    matrix[SHADOWT+NT+l][k][j][i] = matrix[SHADOWT+l][k+NZ][j+NY][i+NX];
			
 
				+                    matrix[SHADOWT+NT+l][k][j][SHADOWX+NX+i] = matrix[SHADOWT+l][k+NZ][j+NY][SHADOWX+i];
			
 
				+                    matrix[SHADOWT+NT+l][k][SHADOWY+NY+j][i] = matrix[SHADOWT+l][k+NZ][SHADOWY+j][i+NX];
			
 
				+                    matrix[SHADOWT+NT+l][SHADOWZ+NZ+k][j][i] = matrix[SHADOWT+l][SHADOWZ+k][j+NY][i+NX];
			
 
				+                    matrix[SHADOWT+NT+l][k][SHADOWY+NY+j][SHADOWX+NX+i] = matrix[SHADOWT+l][k+NZ][SHADOWY+j][SHADOWX+i];
			
 
				+                    matrix[SHADOWT+NT+l][SHADOWZ+NZ+k][j][SHADOWX+NX+i] = matrix[SHADOWT+l][SHADOWZ+k][j+NY][SHADOWX+i];
			
 
				+                    matrix[SHADOWT+NT+l][SHADOWZ+NZ+k][SHADOWY+NY+j][i] = matrix[SHADOWT+l][SHADOWZ+k][SHADOWY+j][i+NX];
			
 
				+                    matrix[SHADOWT+NT+l][SHADOWZ+NZ+k][SHADOWY+NY+j][SHADOWX+NX+i] = matrix[SHADOWT+l][SHADOWZ+k][SHADOWY+j][SHADOWX+i];
			
 
				+                }
			
 
				+
			
 
				+    FPRINTF(stderr,"IN  Matrix:\n");
			
 
				+    for(l=0 ; l<NT + 2*SHADOWT ; l++)
			
 
				+    {
			
 
				+        for(k=0 ; k<NZ + 2*SHADOWZ ; k++)
			
 
				+        {
			
 
				+            for(j=0 ; j<NY + 2*SHADOWY ; j++)
			
 
				+            {
			
 
				+                for(i=0 ; i<NX + 2*SHADOWX ; i++)
			
 
				+                    FPRINTF(stderr, "%5d ", matrix[l][k][j][i]);
			
 
				+                FPRINTF(stderr,"\n");
			
 
				+            }
			
 
				+            FPRINTF(stderr,"\n\n");
			
 
				+        }
			
 
				+        FPRINTF(stderr,"\n\n");
			
 
				+    }
			
 
				+    FPRINTF(stderr,"\n");
			
 
				+
			
 
				+    ret = starpu_init(NULL);
			
 
				+    if (ret == -ENODEV)
			
 
				+        exit(77);
			
 
				+    STARPU_CHECK_RETURN_VALUE(ret, "starpu_init");
			
 
				+
			
 
				+    /* Declare source matrix to StarPU */
			
 
				+    starpu_tensor_data_register(&handle, STARPU_MAIN_RAM, (uintptr_t)matrix,
			
 
				+            NX + 2*SHADOWX, (NX + 2*SHADOWX) * (NY + 2*SHADOWY), (NX + 2*SHADOWX) * (NY + 2*SHADOWY) * (NZ + 2*SHADOWZ),
			
 
				+            NX + 2*SHADOWX, NY + 2*SHADOWY, NZ + 2*SHADOWZ, NT + 2*SHADOWT,
			
 
				+            sizeof(matrix[0][0][0][0]));
			
 
				+
			
 
				+    /* Declare destination matrix to StarPU */
			
 
				+    starpu_tensor_data_register(&handle2, STARPU_MAIN_RAM, (uintptr_t)matrix2,
			
 
				+            NX + PARTSX*2*SHADOWX, (NX + PARTSX*2*SHADOWX) * (NY + PARTSY*2*SHADOWY), (NX + PARTSX*2*SHADOWX) * (NY + PARTSY*2*SHADOWY) * (NZ + PARTSZ*2*SHADOWZ),
			
 
				+            NX + PARTSX*2*SHADOWX, NY + PARTSY*2*SHADOWY, NZ + PARTSZ*2*SHADOWZ, NT + PARTST*2*SHADOWT,
			
 
				+            sizeof(matrix2[0][0][0][0]));
			
 
				+
			
 
				+    /* Partition the source matrix in PARTST*PARTSZ*PARTSY*PARTSX sub-matrices with shadows */
			
 
				+    /* NOTE: the resulting handles should only be used in read-only mode,
			
 
				+     * as StarPU will not know how the overlapping parts would have to be
			
 
				+     * combined. */
			
 
				+    struct starpu_data_filter ft =
			
 
				+    {
			
 
				+        .filter_func = starpu_tensor_filter_time_block_shadow,
			
 
				+        .nchildren = PARTST,
			
 
				+        .filter_arg_ptr = (void*)(uintptr_t) SHADOWT /* Shadow width */
			
 
				+    };
			
 
				+    struct starpu_data_filter fz =
			
 
				+    {
			
 
				+        .filter_func = starpu_tensor_filter_depth_block_shadow,
			
 
				+        .nchildren = PARTSZ,
			
 
				+        .filter_arg_ptr = (void*)(uintptr_t) SHADOWZ /* Shadow width */
			
 
				+    };
			
 
				+    struct starpu_data_filter fy =
			
 
				+    {
			
 
				+        .filter_func = starpu_tensor_filter_vertical_block_shadow,
			
 
				+        .nchildren = PARTSY,
			
 
				+        .filter_arg_ptr = (void*)(uintptr_t) SHADOWY /* Shadow width */
			
 
				+    };
			
 
				+    struct starpu_data_filter fx =
			
 
				+    {
			
 
				+        .filter_func = starpu_tensor_filter_block_shadow,
			
 
				+        .nchildren = PARTSX,
			
 
				+        .filter_arg_ptr = (void*)(uintptr_t) SHADOWX /* Shadow width */
			
 
				+    };
			
 
				+    starpu_data_map_filters(handle, 4, &ft, &fz, &fy, &fx);
			
 
				+
			
 
				+    /* Partition the destination matrix in PARTST*PARTSZ*PARTSY*PARTSX sub-matrices */
			
 
				+    struct starpu_data_filter ft2 =
			
 
				+    {
			
 
				+        .filter_func = starpu_tensor_filter_time_block,
			
 
				+        .nchildren = PARTST,
			
 
				+    };
			
 
				+    struct starpu_data_filter fz2 =
			
 
				+    {
			
 
				+        .filter_func = starpu_tensor_filter_depth_block,
			
 
				+        .nchildren = PARTSZ,
			
 
				+    };
			
 
				+    struct starpu_data_filter fy2 =
			
 
				+    {
			
 
				+        .filter_func = starpu_tensor_filter_vertical_block,
			
 
				+        .nchildren = PARTSY,
			
 
				+    };
			
 
				+    struct starpu_data_filter fx2 =
			
 
				+    {
			
 
				+        .filter_func = starpu_tensor_filter_block,
			
 
				+        .nchildren = PARTSX,
			
 
				+    };
			
 
				+    starpu_data_map_filters(handle2, 4, &ft2, &fz2, &fy2, &fx2);
			
 
				+
			
 
				+
			
 
				+    /* Submit a task on each sub-matrix */
			
 
				+    for (l=0; l<PARTST; l++)
			
 
				+    {
			
 
				+        for (k=0; k<PARTSZ; k++)
			
 
				+        {
			
 
				+            for (j=0; j<PARTSY; j++)
			
 
				+            {
			
 
				+                for (i=0; i<PARTSX; i++)
			
 
				+                {
			
 
				+                    starpu_data_handle_t sub_handle = starpu_data_get_sub_data(handle, 4, l, k, j, i);
			
 
				+                    starpu_data_handle_t sub_handle2 = starpu_data_get_sub_data(handle2, 4, l, k, j, i);
			
 
				+                    struct starpu_task *task = starpu_task_create();
			
 
				+
			
 
				+                    task->handles[0] = sub_handle;
			
 
				+                    task->handles[1] = sub_handle2;
			
 
				+                    task->cl = &cl;
			
 
				+                    task->synchronous = 1;
			
 
				+
			
 
				+                    ret = starpu_task_submit(task);
			
 
				+                    if (ret == -ENODEV) goto enodev;
			
 
				+                    STARPU_CHECK_RETURN_VALUE(ret, "starpu_task_submit");
			
 
				+                }
			
 
				+            }
			
 
				+        }
			
 
				+    }
			
 
				+
			
 
				+    starpu_data_unpartition(handle, STARPU_MAIN_RAM);
			
 
				+    starpu_data_unpartition(handle2, STARPU_MAIN_RAM);
			
 
				+    starpu_data_unregister(handle);
			
 
				+    starpu_data_unregister(handle2);
			
 
				+    starpu_shutdown();
			
 
				+
			
 
				+    FPRINTF(stderr,"OUT Matrix:\n");
			
 
				+    for(l=0 ; l<NT + PARTST*2*SHADOWT ; l++)
			
 
				+    {
			
 
				+        for(k=0 ; k<NZ + PARTSZ*2*SHADOWZ ; k++)
			
 
				+        {
			
 
				+            for(j=0 ; j<NY + PARTSY*2*SHADOWY ; j++)
			
 
				+            {
			
 
				+                for(i=0 ; i<NX + PARTSX*2*SHADOWX ; i++)
			
 
				+                {
			
 
				+                    FPRINTF(stderr, "%5d ", matrix2[l][k][j][i]);
			
 
				+                }
			
 
				+                FPRINTF(stderr,"\n");
			
 
				+            }
			
 
				+            FPRINTF(stderr,"\n\n");
			
 
				+        }
			
 
				+        FPRINTF(stderr,"\n\n");
			
 
				+    }
			
 
				+    FPRINTF(stderr,"\n");
			
 
				+    for(l=0 ; l<PARTST ; l++)
			
 
				+        for(k=0 ; k<PARTSZ ; k++)
			
 
				+            for(j=0 ; j<PARTSY ; j++)
			
 
				+                for(i=0 ; i<PARTSX ; i++)
			
 
				+                    for (q=0 ; q<NT/PARTST + 2*SHADOWT ; q++)
			
 
				+                        for (p=0 ; p<NZ/PARTSZ + 2*SHADOWZ ; p++)
			
 
				+                            for (n=0 ; n<NY/PARTSY + 2*SHADOWY ; n++)
			
 
				+                                for (m=0 ; m<NX/PARTSX + 2*SHADOWX ; m++)
			
 
				+                                    STARPU_ASSERT(matrix2[l*(NT/PARTST+2*SHADOWT)+q][k*(NZ/PARTSZ+2*SHADOWZ)+p][j*(NY/PARTSY+2*SHADOWY)+n][i*(NX/PARTSX+2*SHADOWX)+m] ==
			
 
				+                                            matrix[l*(NT/PARTST)+q][k*(NZ/PARTSZ)+p][j*(NY/PARTSY)+n][i*(NX/PARTSX)+m]);
			
 
				+
			
 
				+    return 0;
			
 
				+
			
 
				+enodev:
			
 
				+    FPRINTF(stderr, "WARNING: No one can execute this task\n");
			
 
				+    starpu_shutdown();
			
 
				+    return 77;
			
 
				+}
			
--- a/include/starpu_data_filters.h
+++ b/include/starpu_data_filters.h
@@ -527,6 +527,91 @@ void starpu_block_filter_depth_block(void *father_interface, void *child_interfa
 
				 */
			
 
				 void starpu_block_filter_depth_block_shadow(void *father_interface, void *child_interface, struct starpu_data_filter *f, unsigned id, unsigned nparts);
			
 
				 
			
 
				+/** @} */
			
 
				+
			
 
				+/**
			
 
				+   @name Predefined Tensor Filter Functions
			
 
				+   Predefined partitioning functions for tensor
			
 
				+   data.
			
 
				+   @{
			
 
				+*/
			
 
				+
			
 
				+/**
			
 
				+  Partition a tensor along the X dimension, thus getting
			
 
				+  (x/\p nparts ,y,z,t) tensors. If \p nparts does not divide x, the last
			
 
				+  submatrix contains the remainder.
			
 
				+ */
			
 
				+void starpu_tensor_filter_block(void *father_interface, void *child_interface, struct starpu_data_filter *f, unsigned id, unsigned nparts);
			
 
				+
			
 
				+/**
			
 
				+   Partition a tensor along the X dimension, with a
			
 
				+   shadow border <c>filter_arg_ptr</c>, thus getting
			
 
				+   ((x-2*shadow)/\p nparts +2*shadow,y,z,t) tensors. If \p nparts does not
			
 
				+   divide x, the last submatrix contains the remainder.
			
 
				+
			
 
				+   <b>IMPORTANT</b>:
			
 
				+   This can only be used for read-only access, as no coherency is
			
 
				+   enforced for the shadowed parts.
			
 
				+*/
			
 
				+void starpu_tensor_filter_block_shadow(void *father_interface, void *child_interface, struct starpu_data_filter *f, unsigned id, unsigned nparts);
			
 
				+
			
 
				+/**
			
 
				+   Partition a tensor along the Y dimension, thus getting
			
 
				+   (x,y/\p nparts ,z,t) tensors. If \p nparts does not divide y, the last
			
 
				+   submatrix contains the remainder.
			
 
				+ */
			
 
				+void starpu_tensor_filter_vertical_block(void *father_interface, void *child_interface, struct starpu_data_filter *f, unsigned id, unsigned nparts);
			
 
				+
			
 
				+/**
			
 
				+   Partition a tensor along the Y dimension, with a
			
 
				+   shadow border <c>filter_arg_ptr</c>, thus getting
			
 
				+   (x,(y-2*shadow)/\p nparts +2*shadow,z,t) tensors. If \p nparts does not
			
 
				+   divide y, the last submatrix contains the remainder.
			
 
				+
			
 
				+   <b>IMPORTANT</b>:
			
 
				+   This can only be used for read-only access, as no coherency is
			
 
				+   enforced for the shadowed parts.
			
 
				+*/
			
 
				+void starpu_tensor_filter_vertical_block_shadow(void *father_interface, void *child_interface, struct starpu_data_filter *f, unsigned id, unsigned nparts);
			
 
				+
			
 
				+/**
			
 
				+   Partition a tensor along the Z dimension, thus getting
			
 
				+   (x,y,z/\p nparts,t) tensors. If \p nparts does not divide z, the last
			
 
				+   submatrix contains the remainder.
			
 
				+*/
			
 
				+void starpu_tensor_filter_depth_block(void *father_interface, void *child_interface, struct starpu_data_filter *f, unsigned id, unsigned nparts);
			
 
				+
			
 
				+/**
			
 
				+   Partition a tensor along the Z dimension, with a
			
 
				+   shadow border <c>filter_arg_ptr</c>, thus getting
			
 
				+   (x,y,(z-2*shadow)/\p nparts +2*shadow,t) tensors. If \p nparts does not
			
 
				+   divide z, the last submatrix contains the remainder.
			
 
				+
			
 
				+   <b>IMPORTANT</b>:
			
 
				+   This can only be used for read-only access, as no coherency is
			
 
				+   enforced for the shadowed parts.
			
 
				+*/
			
 
				+void starpu_tensor_filter_depth_block_shadow(void *father_interface, void *child_interface, struct starpu_data_filter *f, unsigned id, unsigned nparts);
			
 
				+
			
 
				+/**
			
 
				+   Partition a tensor along the T dimension, thus getting
			
 
				+   (x,y,z,t/\p nparts) tensors. If \p nparts does not divide t, the last
			
 
				+   submatrix contains the remainder.
			
 
				+*/
			
 
				+void starpu_tensor_filter_time_block(void *father_interface, void *child_interface, struct starpu_data_filter *f, unsigned id, unsigned nparts);
			
 
				+
			
 
				+/**
			
 
				+   Partition a tensor along the T dimension, with a
			
 
				+   shadow border <c>filter_arg_ptr</c>, thus getting
			
 
				+   (x,y,z,(t-2*shadow)/\p nparts +2*shadow) tensors. If \p nparts does not
			
 
				+   divide t, the last submatrix contains the remainder.
			
 
				+
			
 
				+   <b>IMPORTANT</b>:
			
 
				+   This can only be used for read-only access, as no coherency is
			
 
				+   enforced for the shadowed parts.
			
 
				+*/
			
 
				+void starpu_tensor_filter_time_block_shadow(void *father_interface, void *child_interface, struct starpu_data_filter *f, unsigned id, unsigned nparts);
			
 
				+
			
 
				 /**
			
 
				    Given an integer \p n, \p n the number of parts it must be divided in, \p id the
			
 
				    part currently considered, determines the \p chunk_size and the \p offset, taking
			
--- a/src/Makefile.am
+++ b/src/Makefile.am
@@ -249,6 +249,7 @@ libstarpu_@STARPU_EFFECTIVE_VERSION@_la_SOURCES = 		\
 
				 	datawizard/interfaces/block_interface.c			\
			
 
				 	datawizard/interfaces/tensor_interface.c		\
			
 
				 	datawizard/interfaces/vector_interface.c		\
			
 
				+	datawizard/interfaces/tensor_filters.c		    \
			
 
				 	datawizard/interfaces/bcsr_filters.c			\
			
 
				 	datawizard/interfaces/csr_filters.c			\
			
 
				 	datawizard/interfaces/vector_filters.c			\
			
--- a/src/datawizard/interfaces/tensor_filters.c
+++ b/src/datawizard/interfaces/tensor_filters.c
@@ -0,0 +1,188 @@
 
				+/* StarPU --- Runtime system for heterogeneous multicore architectures.
			
 
				+ *
			
 
				+ * Copyright (C) 2010-2021  Université de Bordeaux, CNRS (LaBRI UMR 5800), Inria
			
 
				+ *
			
 
				+ * StarPU is free software; you can redistribute it and/or modify
			
 
				+ * it under the terms of the GNU Lesser General Public License as published by
			
 
				+ * the Free Software Foundation; either version 2.1 of the License, or (at
			
 
				+ * your option) any later version.
			
 
				+ *
			
 
				+ * StarPU is distributed in the hope that it will be useful, but
			
 
				+ * WITHOUT ANY WARRANTY; without even the implied warranty of
			
 
				+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
			
 
				+ *
			
 
				+ * See the GNU Lesser General Public License in COPYING.LGPL for more details.
			
 
				+ */
			
 
				+
			
 
				+#include <starpu.h>
			
 
				+#include <common/config.h>
			
 
				+#include <datawizard/filters.h>
			
 
				+
			
 
				+static void _starpu_tensor_filter_block(int dim, void *father_interface, void *child_interface, STARPU_ATTRIBUTE_UNUSED struct starpu_data_filter *f,
			
 
				+                   unsigned id, unsigned nparts, uintptr_t shadow_size)
			
 
				+{
			
 
				+    struct starpu_tensor_interface *tensor_father = (struct starpu_tensor_interface *) father_interface;
			
 
				+    struct starpu_tensor_interface *tensor_child = (struct starpu_tensor_interface *) child_interface;
			
 
				+
			
 
				+    unsigned blocksize;
			
 
				+    /* the element will be split, in case horizontal, it's nx, in case vertical, it's ny, in case depth, it's nz, in case time, it's nt*/
			
 
				+    uint32_t nn;
			
 
				+    uint32_t nx;
			
 
				+    uint32_t ny;
			
 
				+    uint32_t nz;
			
 
				+    uint32_t nt;
			
 
				+
			
 
				+    switch(dim)
			
 
				+    {
			
 
				+        /* horizontal*/
			
 
				+        case 1:
			
 
				+            /* actual number of elements */
			
 
				+            nx = tensor_father->nx - 2 * shadow_size;
			
 
				+            ny = tensor_father->ny;
			
 
				+            nz = tensor_father->nz;
			
 
				+            nt = tensor_father->nt;
			
 
				+            nn = nx;
			
 
				+            blocksize = 1;
			
 
				+            break;
			
 
				+        /* vertical*/
			
 
				+        case 2:
			
 
				+            nx = tensor_father->nx;
			
 
				+            /* actual number of elements */
			
 
				+            ny = tensor_father->ny - 2 * shadow_size;
			
 
				+            nz = tensor_father->nz;
			
 
				+            nt = tensor_father->nt;
			
 
				+            nn = ny;
			
 
				+            blocksize = tensor_father->ldy;
			
 
				+            break;
			
 
				+        /* depth*/
			
 
				+        case 3:
			
 
				+            nx = tensor_father->nx;
			
 
				+            ny = tensor_father->ny;
			
 
				+            /* actual number of elements */
			
 
				+            nz = tensor_father->nz - 2 * shadow_size;
			
 
				+            nt = tensor_father->nt;
			
 
				+            nn = nz;
			
 
				+            blocksize = tensor_father->ldz;
			
 
				+            break;
			
 
				+        /* time*/
			
 
				+        case 4:
			
 
				+            nx = tensor_father->nx;
			
 
				+            ny = tensor_father->ny;
			
 
				+            nz = tensor_father->nz;
			
 
				+            /* actual number of elements */
			
 
				+            nt = tensor_father->nt - 2 * shadow_size;
			
 
				+            nn = nt;
			
 
				+            blocksize = tensor_father->ldt;
			
 
				+            break;
			
 
				+    }
			
 
				+
			
 
				+    size_t elemsize = tensor_father->elemsize;
			
 
				+
			
 
				+    STARPU_ASSERT_MSG(nparts <= nn, "cannot split %u elements in %u parts", nn, nparts);
			
 
				+
			
 
				+    uint32_t child_nn;
			
 
				+    size_t offset;
			
 
				+    starpu_filter_nparts_compute_chunk_size_and_offset(nn, nparts, elemsize, id, blocksize, &child_nn, &offset);
			
 
				+
			
 
				+    child_nn += 2 * shadow_size;
			
 
				+
			
 
				+    STARPU_ASSERT_MSG(tensor_father->id == STARPU_TENSOR_INTERFACE_ID, "%s can only be applied on a tensor data", __func__);
			
 
				+    tensor_child->id = tensor_father->id;
			
 
				+
			
 
				+    switch(dim)
			
 
				+    {
			
 
				+        case 1:
			
 
				+            tensor_child->nx = child_nn;
			
 
				+            tensor_child->ny = ny;
			
 
				+            tensor_child->nz = nz;
			
 
				+            tensor_child->nt = nt;
			
 
				+            break;
			
 
				+        case 2:
			
 
				+            tensor_child->nx = nx;
			
 
				+            tensor_child->ny = child_nn;
			
 
				+            tensor_child->nz = nz;
			
 
				+            tensor_child->nt = nt;
			
 
				+            break;
			
 
				+        case 3:
			
 
				+            tensor_child->nx = nx;
			
 
				+            tensor_child->ny = ny;
			
 
				+            tensor_child->nz = child_nn;
			
 
				+            tensor_child->nt = nt;
			
 
				+            break;
			
 
				+        case 4:
			
 
				+            tensor_child->nx = nx;
			
 
				+            tensor_child->ny = ny;
			
 
				+            tensor_child->nz = nz;
			
 
				+            tensor_child->nt = child_nn;
			
 
				+            break;
			
 
				+    }
			
 
				+
			
 
				+    tensor_child->elemsize = elemsize;
			
 
				+
			
 
				+    if (tensor_father->dev_handle)
			
 
				+    {
			
 
				+        if (tensor_father->ptr)
			
 
				+            tensor_child->ptr = tensor_father->ptr + offset;
			
 
				+        tensor_child->ldy = tensor_father->ldy;
			
 
				+        tensor_child->ldz = tensor_father->ldz;
			
 
				+        tensor_child->ldt = tensor_father->ldt;
			
 
				+        tensor_child->dev_handle = tensor_father->dev_handle;
			
 
				+        tensor_child->offset = tensor_father->offset + offset;
			
 
				+    }
			
 
				+}
			
 
				+
			
 
				+void starpu_tensor_filter_block(void *father_interface, void *child_interface, STARPU_ATTRIBUTE_UNUSED struct starpu_data_filter *f,
			
 
				+                   unsigned id, unsigned nparts)
			
 
				+{
			
 
				+    _starpu_tensor_filter_block(1, father_interface, child_interface, f, id, nparts, 0);
			
 
				+}
			
 
				+
			
 
				+void starpu_tensor_filter_block_shadow(void *father_interface, void *child_interface, STARPU_ATTRIBUTE_UNUSED struct starpu_data_filter *f,
			
 
				+                      unsigned id, unsigned nparts)
			
 
				+{
			
 
				+    uintptr_t shadow_size = (uintptr_t) f->filter_arg_ptr;
			
 
				+
			
 
				+    _starpu_tensor_filter_block(1, father_interface, child_interface, f, id, nparts, shadow_size);
			
 
				+}
			
 
				+
			
 
				+void starpu_tensor_filter_vertical_block(void *father_interface, void *child_interface, STARPU_ATTRIBUTE_UNUSED struct starpu_data_filter *f,
			
 
				+                    unsigned id, unsigned nparts)
			
 
				+{
			
 
				+    _starpu_tensor_filter_block(2, father_interface, child_interface, f, id, nparts, 0);
			
 
				+}
			
 
				+
			
 
				+void starpu_tensor_filter_vertical_block_shadow(void *father_interface, void *child_interface, STARPU_ATTRIBUTE_UNUSED struct starpu_data_filter *f,
			
 
				+                      unsigned id, unsigned nparts)
			
 
				+{
			
 
				+    uintptr_t shadow_size = (uintptr_t) f->filter_arg_ptr;
			
 
				+
			
 
				+    _starpu_tensor_filter_block(2, father_interface, child_interface, f, id, nparts, shadow_size);
			
 
				+}
			
 
				+
			
 
				+void starpu_tensor_filter_depth_block(void *father_interface, void *child_interface, STARPU_ATTRIBUTE_UNUSED struct starpu_data_filter *f,
			
 
				+                    unsigned id, unsigned nparts)
			
 
				+{
			
 
				+    _starpu_tensor_filter_block(3, father_interface, child_interface, f, id, nparts, 0);
			
 
				+}
			
 
				+
			
 
				+void starpu_tensor_filter_depth_block_shadow(void *father_interface, void *child_interface, STARPU_ATTRIBUTE_UNUSED struct starpu_data_filter *f,
			
 
				+                      unsigned id, unsigned nparts)
			
 
				+{
			
 
				+    uintptr_t shadow_size = (uintptr_t) f->filter_arg_ptr;
			
 
				+
			
 
				+    _starpu_tensor_filter_block(3, father_interface, child_interface, f, id, nparts, shadow_size);
			
 
				+}
			
 
				+
			
 
				+void starpu_tensor_filter_time_block(void *father_interface, void *child_interface, STARPU_ATTRIBUTE_UNUSED struct starpu_data_filter *f,
			
 
				+                    unsigned id, unsigned nparts)
			
 
				+{
			
 
				+    _starpu_tensor_filter_block(4, father_interface, child_interface, f, id, nparts, 0);
			
 
				+}
			
 
				+
			
 
				+void starpu_tensor_filter_time_block_shadow(void *father_interface, void *child_interface, STARPU_ATTRIBUTE_UNUSED struct starpu_data_filter *f,
			
 
				+                      unsigned id, unsigned nparts)
			
 
				+{
			
 
				+    uintptr_t shadow_size = (uintptr_t) f->filter_arg_ptr;
			
 
				+
			
 
				+    _starpu_tensor_filter_block(4, father_interface, child_interface, f, id, nparts, shadow_size);
			
 
				+}