Canon Research Centre France S.A.S.

Offres de stage

Les stages de CRF sont proposés dans le cadre de sa Responsabilité Sociétale des Entreprises (RSE). Le seul objectif des stages de CRF est de contribuer à l'éducation des stagiaires qui bénéficient de l'expertise des chercheurs de CRF. CRF propose plusieurs stages chaque année, donc n'hésitez pas à revenir régulièrement sur cette page.

Développement d’un outil d'annotation et d'interrogation des publications scientifiques basé sur l'Intelligence Artificielle (pourvu)
Mesures approfondies des distances de style dans l'imagerie médicale (pourvu)
Suivi d'objets multiples (Multiple Object Tracking) (pourvu)
WI-FI : Evaluation et simulation de la couche physique du IEEE 802.11be/bn (pourvu)

Pour postuler, merci d'envoyer votre candidature à jobs@crf.canon.fr

Développement d’un outil d'annotation et d'interrogation des publications scientifiques basé sur l'Intelligence Artificielle (pourvu)

Durée du stage : 5/6 mois / Date de début préférée : février 2025

Sujet du stage

Être au courant des derniers progrès scientifiques est un défi clé pour nos ingénieurs de recherche. À mesure que le nombre de publications scientifiques augmente, ce défi devient de plus en plus difficile et prend du temps. Cependant, le traitement de documents peut maintenant bénéficier de l'intelligence artificielle. La classification automatique des documents peut aider les équipes scientifiques en réduisant le besoin d'analyse détaillée et de catégorisation manuelle. Associé à une interface Web puissante et intuitive, d'énormes gains d'efficacité peuvent être générés.
Les progrès de la recherche sur l'intelligence artificielle (IA) et le traitement du langage naturel (PNL) ont donné lieu à des modèles qui peuvent être utilisés comme extracteurs de fonctionnalités pour les tâches de classification de jetons qui ont été la pierre angulaire des tâches d'extraction d'informations, telles que la reconnaissance d'entités nommées et la classification des relations entre entités.
Dans ce contexte, nous proposons au travers de ce stage le développement d’un outil pour organiser de grandes collections de documents en s'appuyant à la fois sur les approches conventionnelles et les dernières technologies de l'IA [1], avec une approche ouverte axée sur les résultats.

Mission

Dans un premier temps (examen et élaboration), les documents seront prétraités (extraction de l'information) pour créer une base de données à l'aide d'outils conventionnels (p. ex. recherche par mot-clé, méthodes basées sur des modèles). Le prétraitement aboutira à un premier ensemble d'annotations, qui pourront être utilisées comme étiquettes de vérité de base pour évaluer d'autres annotations produites par des solutions basées sur l'IA (objet de la deuxième phase). Le prétraitement sera également utilisé pour valider l'interface Web lors de la soumission de requêtes simples à des documents annotés.
Dans une deuxième étape (plus axée recherche), différents types d'information et de relations entre les documents (p. ex. La classification des relations) sera identifiée pour enrichir le premier ensemble d'annotations et permettre des requêtes avancées sur la base de données des publications.
L'annotation et l'interrogation de la base de données des publications se feront via une interface Web basée sur le framework Django [2].

[1] https://arxiv.org/abs/2406.00008 pour un exemple de l'outil visé
[2] https://www.djangoproject.com/ comme base de l'application à développer

Formation requise

Vous êtes en formation Master 2 ou 5ème année étude d’ingénierie en Informatique. Vous êtes curieux(se), ouvert(e) d’esprit et passionné(e) par les nouvelles technologies.

Connaissances spécifiques

IA, traitement du langage naturel, cadres Web
Python, Git

Haut

Mesures approfondies des distances de style dans l'imagerie médicale (pourvu)

Durée du stage : 4/6 mois / Date de début préférée : février 2025

Sujet du stage

Comment caractériser le "style" des images et, plus précisément, comment mesurer la distance entre les "styles" des images médicales ? La réponse à cette question pourrait aider à améliorer le traitement des images médicales pour un meilleur diagnostic.
Reconnaître le style d'images a été étudié pendant un certain temps dans la vision par ordinateur, et les méthodes de deep learning précoces se sont avérées efficaces dans cette tâche [1]. La raison est que les caractéristiques visuelles intérieures apprises par les modèles d'apprentissage profond peuvent capturer le "style" des images. Ceci nécessite toutefois de créer d'abord des ensembles de données avec des "styles" annotés spécifiques, ce qui peut être très coûteux, en particulier en imagerie médicale.
D'un point de vue différent, de nombreuses méthodes de transfert de style d'image ou de traduction d'image à image (I2I), y compris les modèles GAN et Diffusion, ont été proposées pour changer le style des images [2]. Dans I2I, l'objectif est de modifier la distribution d'un domaine d'entrée "style" pour correspondre à la distribution du domaine "style" cible. Les jeux de données sont composés de 2 ensembles d'images, l'un représentant le style d'entrée et l'autre le style de sortie. Les modèles sont évalués en calculant la distance entre les distributions d'entrée et de sortie. Par exemple, la Distance d'Inception de Fréchet (FID) est un choix populaire. Ces distances d'Inception peuvent être considérées comme des "distances de style" statistiques entre les ensembles d'images. Le problème est que la taille de l'ensemble de données est petite (ce qui est souvent le cas en imagerie médicale), ce qui empêche d'estimer de manière fiable la FID. Des méthodes alternatives à la FID ont récemment été proposées [3]. Lorsqu'une seule paire d'images (non appariées) doit être comparée, une méthode de calcul d'une métrique "style" entre les 2 images a également été récemment proposée dans [4].
Le sujet du stage sera d'étudier les différentes métriques pour calculer la distance "Style" entre les images médicales et leur performance en fonction de la taille des ensembles de données disponibles.

Mission

Dans une première phase (enquête scientifique), vous aurez pour mission d'étudier et de documenter les différentes mesures proposées pour calculer la distance "Style" entre les images.
Dans une deuxième phase (expériences et évaluations), l'objectif sera de mettre en œuvre les différentes mesures ci-dessus et d'évaluer leurs performances à partir de la formation et des tests sur différents ensembles de données de différentes tailles. Plusieurs modalités d'imagerie médicale pourraient être étudiées, allant des rayons X à l'imagerie par ultrasons.
Dans une troisième phase, en fonction de l’avancement, l'influence de la sélection des modèles de base pourrait également être étudiée [5].
À la fin de la période de formation, vous aurez acquis de bonnes connaissances dans le domaine de l'IA générative, son application à l'imagerie médicale ainsi que l'utilisation pratique du cadre d'apprentissage Python Deep Learning (Pytorch).

[1] https://arxiv.org/pdf/1311.3715
[2] https://pubmed.ncbi.nlm.nih.gov/36753766/
[3] https://arxiv.org/pdf/2401.09603v2
[4] https://arxiv.org/pdf/2405.14718
[5] https://arxiv.org/abs/2310.18689

Formation requise

Vous êtes en formation de Master 2 ou école d’ingénieur en informatique ou en télécommunications. Vous êtes curieux(se), ouvert(e) d’esprit et passionné(e) par les nouvelles technologies.

Connaissances spécifiques

IA, informatique et/ou traitement d'images
Python

Haut

Suivi d'objets multiples (Multiple Object Tracking) (pourvu)

Durée du stage : 4/6 mois / Date de début préférée : février 2025

Sujet du stage

Notre Centre de R&D contribue à plusieurs projets européens visant à améliorer la sécurité des usagers de la route en détectant et en analysant les objets sur les flux vidéo captés par des caméras vidéo ou des LiDAR. Les modèles Deep-Learning sont utilisés pour effectuer ces détections à partir des images capturées ou des nuages de points. Un traitement est ensuite réalisé pour suivre les objets d'une image à l'autre.
Au cours des dernières années, de nombreux progrès ont été réalisés pour mieux suivre les objets détectés à l'aide de modèles d'apprentissage profond. Certains modèles extraient des fonctions des objets détectés pour mieux les identifier dans les cadres suivants (par exemple, DeepSORT) tandis que d'autres combinent la détection d'objets et l'identification d'objets (par exemple, FairMOT, CSTrack).

Mission

Votre mission sera d'évaluer des modèles de deep learning construits pour le Multiple Object Tracking (MOT). Dans un premier temps, vous réaliserez une étude bibliographique sur les modèles récents d'apprentissage profond de MOT. Sur la base de cette étude, vous choisirez un modèle pour construire un prototype MOT. Enfin, vous évaluerez le modèle à la fois sur les ensembles de données publiques et sur notre scène de la circulation routière.

Formation requise

Vous êtes en formation de Master 2 ou école d’ingénieur en informatique ou en télécommunications. Vous êtes curieux(se), ouvert(e) d’esprit et passionné(e) par les nouvelles technologies.

Connaissances spécifiques

IA, modèles DeepLearning
Python

Haut

WI-FI : Evaluation et simulation de la couche physique du IEEE 802.11be/bn (pourvu)

Durée du stage : 5/6 mois / Date de début préférée : février 2025

Depuis plusieurs années, le Groupe Canon s’intéresse aux activités du standard IEEE 802.11, notamment la dernière génération Wi-Fi-7 et future Wi-Fi-8. Notre Centre de R&D est reconnu comme actif et présent dans le standard avec une bonne expertise dans le domaine de la standardisation. A travers ce stage, vous participerez au plus près à l’évolution du standard Wi-Fi et notamment, à l’investigation des technologies avancées employées dans la couche physique.

Sujet du stage

Le Wi-Fi est une des technologies qui permettent à de nombreux appareils électroniques d'échanger des données ou de se connecter à Internet sans fil à l'aide d’ondes radio. L'avantage principal des périphériques IEEE 802.11 ou « Wireless LAN » est qu'ils permettent un déploiement peu coûteux des réseaux locaux (LAN). De nos jours, des millions de périphériques IEEE 802.11, dont ceux qui sont employés dans les appareils Canon, sont utilisés dans le monde entier et fonctionnent dans les mêmes bandes de fréquences.
La norme IEEE 802.11 est un ensemble de spécifications décrivant la fonctionnalité de la couche MAC (Medium Access Control) et de la couche physique (PHY) pour la mise en œuvre de la communication sur réseau local sans fil (WLAN).
Afin d’augmenter le débit et augmenter l’efficacité spectrale, de nouvelles techniques ont été introduites pour booster les performances Wi-Fi jusqu’à arriver à des débits de l’ordre du Gigabit par seconde (Gbps). Ainsi, des techniques avancées telles que OFDMA, MU-MIMO et beamforming ont contribué à améliorer les performances dans les récentes générations Wi-Fi.
Un simulateur sous MATLAB, utilisé par nos équipes, permet d’évaluer les différentes technologies mises en place par le standard IEEE 802.11. Ce simulateur permet notamment d’évaluer les différentes techniques employées dans la couche physique pour différents scénarios possibles.
Vous intégrerez notre équipe projet Wi-Fi et vous développerez une expérience unique en activité de standardisation et de recherche avec l’appui d’experts reconnus dans le domaine.

Mission

Vos missions seront :

Prendre en main le simulateur déjà développé
Evaluer les différentes techniques utilisées et leurs impacts sur la performance du système
Evaluer le modèle du canal utilisé
Appliquer le simulateur à des scénarios adressés par le standard

Formation requise

Vous êtes en formation Master 2 ou école d’ingénieur dans le domaine des technologies de l’information ou des télécommunications. Vous êtes curieux(se), ouvert(e) d’esprit et passionné(e) par les nouvelles technologies.

Connaissances spécifiques

Modélisation et simulation sous Matlab
Langages de programmation python, C/C++

Haut