Data Engineer Senior Nlp / Données Non Structurées

Casablanca, 6, MA, Morocco

Job Description

Data Engineer Senior - NLP / donnees non structurees (freelance ; 6 mois minimum)



Nous recrutons un(e) Data Engineer senior pour un projet a forte portee : digitaliser le droit au Maroc et en Afrique et creer la premiere base de connaissance juridique interrogeable par l'IA.



Notre ambition est de construire une plateforme capable de repondre a des questions juridiques de facon fiable, sourcee et tracable, en s'appuyant sur un corpus massif de documents juridiques heterogenes.



Pourquoi ce projet est different



Vous rejoignez une mission "infrastructure de connaissance" :



contribuer a rendre le droit plus accessible batir un actif durable : une base structuree du droit marocain (francais), extensible a l'Afrique travailler sur un defi technique concret et profond : transformer du non-structure en une donnee exploitable, fiable et maintenable a grande echelle

Votre mission



Vous serez responsable de la chaine "documents ? donnees structurees" qui alimentera notre moteur IA (RAG).



Au coeur du poste (interet technique)



Constituer une base de donnees structuree du droit marocain en francais a partir de donnees tres heterogenes :



PDF (texte et scannes), Word, images, fichiers texte, parfois bruites ou incomplets extraction de texte (parsing + OCR si necessaire), nettoyage structuration : detection titres/chapitres/sections/articles, hierarchie, normalisation chunking intelligent (par structure juridique plutot que par taille arbitraire), avec tracabilite (source, page, identifiants) metadonnees : date, type de texte (loi/decret/circulaire/jurisprudence...), source, version, numeros d'articles, etc. deduplication & versioning : documents redondants, amendements, versions consolidees industrialisation : orchestration, logs, retries, idempotence, monitoring, tests qualite

? Profil recherche



3+ ans d'experience en Data Engineering et/ou Document AI / NLP applique Tres bonne maitrise de Python Experience reelle avec documents non structures : parsing PDF, OCR, nettoyage, structuration Habitude de livrer en production : pipelines robustes, observabilite, qualite, performance

Stack / competences (indicatif)



Stockage : AWS Traitement documents : outils OCR/parsing, pipelines de pretraitement texte Tests & qualite : metriques, echantillonnage, validation automatique

? Bonus (apprecies)



Experience sur corpus juridiques / reglementaires / contenus a forte exigence de precision Familiarite avec les problematiques multilingues (FR/AR) et encodage Connaissances de base sur les besoins en aval (vector DB, retrieval, citation)

Process de selection



Test en ligne (20 min) Entretien technique (60 min)

Localisation



Poste base a Casablanca * Remote possible (au Maroc ou a l'etranger) selon profil et niveau d'autonomie

Beware of fraud agents! do not pay money to get a job

MNCJobsGulf.com will not be responsible for any payment made to a third-party. All Terms of Use are applicable.


Job Detail

  • Job Id
    JD2227572
  • Industry
    Not mentioned
  • Total Positions
    1
  • Job Type:
    Full Time
  • Salary:
    Not mentioned
  • Employment Status
    Permanent
  • Job Location
    Casablanca, 6, MA, Morocco
  • Education
    Not mentioned