International audienceLes différentes actions qui ont lieu au cours d'une séquence vidéo suivent généralement un ordre logique. Dans cet article nous proposons une approche hybride qui résulte de la fusion d'un réseau de convolution avec une approche bayésienne qui repose sur des modèles d'interactions homme-objets et des transitions entre les différentes actions. L'idée est de combiner dans la prédiction finale ces deux approches. Nous validons notre stratégie de fusion sur deux jeux de données publics : CAD-120 [7] et Watch-n-Patch [27]. Par rapport aux deux méthodes individuelles la fusion permet un gain en justesse de +4% et +6% respectivement sur les deux jeux de données. Les performances de reconnaissance d'actions sont clairement amé...