Développeur(-euse) principal(e), Données non structurées

Caisse de dépôt et placement du Québec (CDPQ)•Montreal, QC

About The Position

L'équipe Science des données et intelligence artificielle (SDIA) accompagne l'organisation dans l'adoption responsable et à grande échelle de l'IA en mettant en place des fondations technologiques robustes, en soutenant les équipes d'affaires dans la transformation de leurs pratiques et en contribuant à la gestion des risques liés à l'utilisation de ces technologies. Au sein de la grande équipe Science des données et intelligence artificielle, l'équipe Données non structurées se spécialise dans l'acquisition, l'extraction et le traitement à grande échelle de sources de données complexes (documents, textes, contenus web, images, etc.). L'équipe rend ces données exploitables pour les équipes d'affaires et les solutions IA de l'organisation, favorisant ainsi une prise de décision plus efficace et un soutien à l'innovation. Dans cette équipe, la personne choisie participe activement à la conception, au développement et à l'opérationnalisation de processus automatisés d'extraction de données non structurées et de recherche et collecte de données du web. Ces processus transforment des données brutes en données structurées exploitables. Ils intègrent diverses composantes, dont de l'IA générative, de la reconnaissance optique des caractères (OCR) et des librairies spécialisées. Elle agit aussi à titre d'expert et partenaire auprès des équipes ayant des besoins d'extraction et de recherche. Par sa contribution, elle joue un rôle clé dans l'extraction et le traitement des données non structurées.

Requirements

Minimum de trois (3) à six (6) ans d'expérience pertinente en génie logiciel, ingénierie de données ou science des données appliquée.
Diplôme universitaire de 2e cycle ou expérience équivalente en ingénierie informatique, science de données, intelligence artificielle, informatique ou toute autre discipline connexe.
Excellente maîtrise de Python.
Connaissance des pratiques de déploiement et d'opérationnalisation (CI/CD, Git, conteneurisation, MLOps).

Nice To Haves

Expérience avec le traitement de données non structurées ou la recherche automatisée (ex. : Unstructured, LlamaIndex, Scrapy, Beautiful Soup; parsing de formats variés tels que PDF, HTML, etc.) un atout.
Expérience avec l'IA générative : utilisation de LLMs par API, prompt engineering, validation et structuration de sorties de modèles un atout.
Expérience avec Apache Spark / PySpark et des plateformes analytiques infonuagiques (Databricks, AWS, Azure) un atout.

Responsibilities

Concevoir, développer et faire évoluer des pipelines d'extraction de données non structurées et de recherche automatisée dans nos environnements infonuagiques Databricks et AWS (traitement de PDFs et documents financiers, extraction via OCR et LLMs, recherche et collecte de données du web, etc.).
Assurer le traitement de grands volumes de documents de bout en bout : ingestion, parsing, nettoyage, enrichissement, extraction et stockage structuré.
Mettre en place et maintenir les mécanismes de qualité et d'observabilité : monitoring des pipelines, gestion des erreurs, évaluation de la qualité des extractions et traçabilité des résultats.
Contribuer à l'évolution des fondations techniques de l'équipe : frameworks d'évaluation, «prompt engineering» structuré, intégration de services d'IA documentaire, automatisation des déploiements.
Participer à la veille technologique et à l'évaluation de solutions et d'approches nouvelles en traitement documentaire et en IA générative.
Jouer un rôle-conseil auprès des partenaires en matière d'extraction, de traitement et d'utilisation responsable des données non structurées.