Calcul parallèle

L’une des manières les plus faciles de paralléliser un calcul est OpenMP. Il est disponible pour C, C++ et Fortran et il est présent dans les compilateurs les plus modernes.

Pour activer OpenMP sur les systèmes à mémoire partagée (par exemple, sur un seul ordinateur), vous devez définir une option de compilation. Pour faire passer une boucle en parallèle, ajoutez une seule ligne de texte à côté d’une boucle for. La seule limite dans cette situation est le nombre de cœurs du processeur.

L’exemple suivant illustre une simulation du mouvement des particules, mises en parallèle au niveau physique par l’ajout d’une directive #pragma au-dessus de la boucle for.

Les positions des particules sont initialisées en utilisant le générateur de nombres aléatoires dans C++. Il s’agit d’une partie en série, car le générateur de nombres aléatoires n’est pas thread-safe.

La physique réelle se produit en mettant à jour de façon continue les positions de la particule. Cette partie peut être exécutée en parallèle; c’est ce que la directive #pragma ordonne au compilateur.

La compilation de programmes utilisant OpenMP nécessite une option de compilation. Son nom dépendra du compilateur, mais celui-ci est en général -fopenmp ou -openmp. Par exemple, pour compiler l’exemple ci-dessus, utilisez :

g++ main.cpp -fopenmp

Pour plus de renseignements au sujet de la programmation avec OpemMP, regardez ces tutoriels (offerts en anglais seulement).

L’exemple ci-dessus est relativement simple : il s'agit de l’exécution d’un programme en parallèle, car il n’y avait aucune interaction entre les particules.

Vérifiez le code.

L’interaction complique les choses parce que l'accès simultané par plusieurs cœurs aux positions des particules pourrait engendrer des effets indésirables. Il y a aussi des limitations en ce qui concerne l’accélération, car il y a toujours des temps système entraînés par le calcul parallèle. Par exemple, l’exemple ci-dessus n’est pas proportionnel de façon linéaire avec le nombre de threads. En fait, l’ajout de plusieurs threads pourrait ralentir le calcul. Par conséquent, il vaut mieux profiler un programme pour voir l’accélération réelle, surtout si vous envisagez une soumission au concours d’allocation des ressources auprès de Calcul Canada.

Un calcul pour l’exemple ci-dessus avec un processeur Intel Xeon E5520 révèle qu’alors une accélération qui a presque doublé pourrait être possible à l’aide de quatre threads, il n’y a aucun gain si plusieurs sont utilisés.

Ce calcul a été généré en synchronisant l’exécution du programme à l’aide de différents threads en ajoutant la variable d’environnement OMP_NUM_THREADS.

Python n’est pas naturellement orienté vers l’exécution multithread, quand même il dispose de plusieurs modules qui lui permettent de le faire. Le module de multitraitement lance plusieurs processus Python pour utiliser plusieurs cœurs de processeur. Voici un exemple d’une simulation du mouvement aléatoire des photons dans un environnement de diffusion absorbant et isotrope.

Le multitraitement est mis en place lors de l’initialisation de Manager et en ajoutant les calculs à exécuter.

Vérifiez le code.

L’argument « target » devant Process est le nom de la fonction qui fera exécuter le programme. La stimulation des photons lors de leur passage à travers l’environnement est faite avec la fonction « simuler ».

Vérifiez le code.

Notes:

La vérification de l’égalité entre « name » et « main » est nécessaire parce que le multitraitement lance plusieurs occasions pour Python de charger le script et exécuter tout code qui n’est pas protégé de cette façon.
Une tâche de l’outil I/O distinct est utilisée pour graver les résultats sur le disque. La communication entre les processus vers l’outil se fait par Queue.
L’utilisation de trois cœurs donne une accélération de 270 % par rapport à un seul cœur sur Intel i5-4310U.

L’une des techniques courantes de parallélisation est Message Passing Interface (MPI), utilisée sur toutes les grandes grappes. MPI permet d’utiliser centaines ou milliers d’UCT (ou bien plus) en combinant la puissance de calcul de plusieurs ordinateurs individuels qui communiquent sur le réseau. Ce réseau est généralement très rapide, car il est souvent le facteur limitant les simulations à grande échelle. Des renseignements sont disponibles au sujet de Open MPI et MPICH (offerts en anglais seulement).

Il est plus compliquer d’écrire un programme avec MPI qu’avec OpenMP, car il faut réfléchir à la communication des données vers tous les nœuds de calcul. Par exemple, si la simulation comprend une grille, celle-ci doit être divisée en sous-grilles et les limites de ces dernières seront partagées par les différents processus à chaque étape.

La grille s’étend sur tous les processus MPI.

Vérifiez le code.

Pendant la simulation, chaque processus MPI doit communiquer avec ses voisins par des cellules « fantômes », ce qui alignera les limites des grilles locales.

Vérifiez le code.

Notes:

Un programme MPI commence toujours par MPI_Init.
Le nombre de processus impliqués dans les simulations est calculé avec MPI_Comm_size.
Le rang est le nombre de processus et sert à communiquer avec les autres processus et à exécuter le code par un seul processus unique. Le processus 0 fera écrire les données dans un fichier.
L’échange de cellules fantômes utilise MPI_Send et MPI_Recv pour transférer les limites des sous-grilles vers les sous-grilles voisines. Il est recommandé de réduire au minimum le transfert des données entre les processus pour exécuter la simulation à vitesse maximale.
Les données sont écrites uniquement par un seul processus afin d’éviter des conditions de compétition. Tous les autres processus envoient leurs sous-grilles pour traiter 0 à des fins d’écriture. Cela assure que les données restent séquentielles.
Un programme MPI se termine toujours par MPI_Finalize.

Cet exemple (illustré en anglais seulement) simule l’équation de la chaleur avec conditions à limites fixes.

Heatmpi.cpp

#include <iostream>
#include <fstream>
#include <mpi.h>

int main(int argc, char **argv) {
  MPI_Init(&argc, &argv);

  int num_processes;
  MPI_Comm_size(MPI_COMM_WORLD, &num_processes);
  
  int rank;
  MPI_Comm_rank(MPI_COMM_WORLD, &rank);

  double starttime = 0;
  // Only use process 0 to output text
  if(rank == 0) {
    std::cout << "Using " << num_processes << " processes" << std::endl;
    starttime = MPI_Wtime();
  }

  const int gridsize = 400;
  const int num_iterations = 50000;
  const int save_every = 100;
  const double alpha = 0.1;
  const double dt = 0.05;
  const double dx = 0.1;

  // Divide the grid over all processes and add ghost cell
  int localgridsize = gridsize / num_processes + 2;
  if(rank == num_processes-1)
    localgridsize += gridsize % num_processes;

  double *localgrid_now = new double[localgridsize];
  double *localgrid_future = new double[localgridsize];

  // Init
  for(int i = 0; i < localgridsize; i++)
    localgrid_now[i] = (i + rank*(gridsize / num_processes));
  if(rank == 0) {
    localgrid_now[0] = 0;
    localgrid_future[0] = 0;
  }
  if(rank == num_processes-1) {
    localgrid_now[localgridsize-1] = 0;
    localgrid_future[localgridsize-1] = 0;
  }

  for(int j = 0; j < num_iterations; j++) {
    // Do heat equation physics
    for(int i = 1; i < localgridsize-1; i++) {
      localgrid_future[i] = localgrid_now[i] + dt*alpha/(dx*dx) * (localgrid_now[i-1] - 2*localgrid_now[i] + localgrid_now[i+1]);
    }
    std::swap(localgrid_now, localgrid_future);

    // Exchange ghost cells with neighbouring processes
    if(rank > 0) {
      // Send first cell of subgrid to right-most ghost cell of left neighbour
      MPI_Send(localgrid_now+1, 1, MPI_DOUBLE, rank-1, 0, MPI_COMM_WORLD);
      // Receive last cell of subgrid of left neighbour as our left-most ghost cell
      MPI_Recv(localgrid_now, 1, MPI_DOUBLE, rank-1, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
    }
    if(rank < num_processes-1) {
      // Receive first cell of subgrid of right neighbour as our right-most ghost cell
      MPI_Recv(localgrid_now+localgridsize-1, 1, MPI_DOUBLE, rank+1, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
      // Send last cell of subgrid to left-most ghost cell of right neighbour
      MPI_Send(localgrid_now+localgridsize-2, 1, MPI_DOUBLE, rank+1, 0, MPI_COMM_WORLD);
    }

    if(j % save_every == 0) {
      // Save data. Only process 0 does I/O.
      if(rank == 0) {
        std::ofstream out("heat_" + std::to_string(j / save_every) + ".dat");
        for(int i = 1; i < localgridsize-1; i++)
          out << localgrid_now[i] << '\n';

        const int maxsize = gridsize / num_processes + gridsize % num_processes;
        double *buffer = new double[maxsize];
        for(int i = 1; i < num_processes; i++) {
          int recv;
          MPI_Status status;
          MPI_Recv(buffer, maxsize, MPI_DOUBLE, i, 0, MPI_COMM_WORLD, &status);
          MPI_Get_count(&status, MPI_DOUBLE, &recv);
          for(int k = 0; k < recv; k++)
            out << buffer[k] << '\n';
        }
        delete[] buffer;
        out.close();
      }
      else {
        MPI_Send(localgrid_now+1, localgridsize-2, MPI_DOUBLE, 0, 0, MPI_COMM_WORLD);
      }
    }
  }

  delete[] localgrid_now;
  delete[] localgrid_future;

Il existe plusieurs solutions pour d’autres langages. Par exemple, Julia dispose d’un calcul parallèle (en anglais seulement) intégré. Au cas où une utilisation plus contrôlée est requise, il est possible d’utiliser pthreads (en anglais seulement) sur Linux. MPI est également disponible pour Python (en anglais seulement).

Pour une utilisation avancée, il est possible de combiner MPI au traitement multithread pour tirer parti des systèmes à mémoire partagée tout en ayant la possibilité de combiner plusieurs systèmes.

Méthodes de calcul parallèle

Simulation de l’équation de la chaleur avec conditions arrow_drop_down