top of page
Rechercher

Comment exploiter 268 000 accords collectifs avec Claude : la recette accessible à tous (si si !)

L'idée en deux lignes :


L'État publie sur data.gouv.fr la base complète des accords collectifs déposés en France (≈ 268 000 accords, 45 Go). Avec l'aide de Claude (Anthropic), j'en ai tiré un petit fichier d'index (75 Mo) qui permet à n'importe qui - sans compétence technique - de faire des recherches intelligentes dans cette masse, simplement en téléversant le fichier dans une conversation Claude. Le tout, en quelques clics. Cette recette est volontairement courte.


Deux façons de procéder :


👶Voie rapide (5 minutes) — pour la majorité des confrères


  1. Télécharger l'index pré-construit avec ce lien :


  1. Ouvrir Claude (claude.ai ou l'application bureau) et démarrer une nouvelle conversation.


  2. Glisser-déposer le fichier acco_index.db dans la conversation.


  3. Poser sa question en français, par exemple :


    • "Cherche dans la base les accords récents sur le passage des congés en jours ouvrés"

    • "Trouve des exemples d'accords prévoyant une régularisation annuelle de l'indémnité de CP selon la régle du 10ème."

    • "Quels accords métallurgie traitent du forfait jours signés depuis 2022 ?"


C'est tout. Claude ouvre la base, lance la requête, et vous renvoie une short-list exploitable. Là où Légifrance imposait de cliquer sur les accords un par un, on obtient en moins d'une minute une sélection ciblée.



🧑‍🦰Voie complète — pour reconstruire l'index soi-même


À faire si vous voulez la base la plus à jour, ou simplement comprendre comment ça fonctionne. Comptez 1 à 2 heures, principalement de l'attente.


1. Installer Python (5 minutes)

Python est le langage qui exécute le script d'indexation. Sa version officielle gratuite s'installe en 2 clics.

  • Aller sur https://www.python.org/downloads/.

  • Télécharger la version la plus récente pour Windows.

  • Lancer l'installeur. Important : cocher la case "Add python.exe to PATH" avant de cliquer sur Install Now.

Pour vérifier que c'est en place : appuyer sur la touche Windows, taper PowerShell, ouvrir l'application, et taper :

python --version

Si une version (par exemple Python 3.12.0) s'affiche, c'est bon.

PowerShell, c'est la console qui permet de taper des commandes. Elle est déjà installée par défaut sur Windows : rien à télécharger.

2. Télécharger la base ACCO (45 Go)

L'archive complète est hébergée par la DILA (la même administration qui édite Légifrance) :

Cliquer sur le lien et laisser le navigateur télécharger. Selon la connexion, prévoir entre 1 et 4 heures.


3. Décompresser sur un disque dédié

Une fois le .tar.gz téléchargé, il faut le décompresser. L'archive génère ≈ 45 Go de fichiers : prévoir un disque dur (interne ou externe) avec 50 Go libres.

  • Outil gratuit recommandé : 7-Zip (https://www.7-zip.org/), qui ouvre les .tar.gz nativement.

  • Faire clic droit sur le fichier → 7-Zip → Extraire vers "Freemium_acco_global...".

  • L'extraction dure 30 à 60 minutes.

Résultat : un dossier contenant 268 000 fichiers XML (les fiches de chaque accord) et autant de fichiers .docx (le texte intégral).


4. Demander à Claude le script d'indexation

C'est l'étape clé, et c'est la plus simple. Ouvrir une conversation avec Claude et lui dire :

"J'ai téléchargé la base ACCO de data.gouv.fr et je l'ai décompressée dans le dossier [chemin de votre dossier]. Elle contient 268 000 fichiers XML. Écris-moi un script Python qui parcourt tous ces fichiers, extrait pour chacun le titre, le secteur, les thèmes, l'entreprise, la date et le chemin du .docx associé, et enregistre tout dans une base SQLite locale appelée acco_index.db. Donne-moi aussi un mode d'emploi pas à pas pour le lancer dans PowerShell."

Claude livre :

  • un fichier build_acco_index.py (le script d'indexation),

  • les instructions pour le placer dans le bon dossier et le lancer.


5. Lancer le script

Dans PowerShell, se placer dans le dossier où sont le script et la base :

cd "C:\chemin\vers\le\dossier"
python build_acco_index.py

Le script tourne 30 à 45 minutes. À la fin, un seul fichier apparaît : acco_index.db (≈ 75 Mo). C'est l'index. C'est lui qu'on va utiliser au quotidien.


6. Utiliser l'index avec Claude

Glisser-déposer acco_index.db dans une conversation Claude, et poser ses questions en langage naturel comme à l'étape Voie rapide ci-dessus.

L'intérêt par rapport au script de recherche en ligne de commande : Claude comprend l'intention (synonymes, reformulations, articles du Code visés…), interroge la base de manière intelligente, et synthétise la réponse. On reste dans une conversation, pas dans une console.


Le principe vaut pour toutes les bases publiques

La recette ci-dessus n'est pas spécifique aux accords collectifs. Le même schéma fonctionne pour la quasi-totalité des bases ouvertes publiées sur data.gouv.fr : décisions de la Cour de cassation (CASS), arrêts d'appel (CAPP), conventions collectives nationales (KALI), marchés publics (DECP), URSSAF, INSEE, registre du commerce (RNE), etc.

À chaque fois, le même réflexe :

  1. Localiser le jeu de données sur data.gouv.fr.

  2. Télécharger l'archive.

  3. Demander à Claude un script d'indexation adapté au format.

  4. Travailler ensuite sur l'index, plus petit et léger, avec Claude.

Posts récents

Voir tout

Commentaires


bottom of page