Méthodologie

CLAIR agrège des données publiques provenant de sources officielles. Cette page explique comment nous collectons, structurons et présentons ces informations.

Sources de données

Toutes nos données proviennent de sources officielles et publiques. Aucune donnée n'est inventée ou estimée.

Assemblée nationale - Open Data

Le portail Open Data de l'Assemblée nationale fournit des exports JSON complets de l'activité parlementaire.

Données collectées :

  • Députés : identité, groupe politique, circonscription, mandats
  • Scrutins publics : votes solennels et ordinaires avec résultats détaillés
  • Votes individuels : position de chaque député sur chaque scrutin (pour, contre, abstention, absent)
  • Amendements : texte, auteur, sort (adopté, rejeté, retiré)
  • Dossiers législatifs : projets et propositions de loi, procédure

Format : Archives ZIP contenant des fichiers JSON

Sénat - Open Data

Le Sénat publie également ses données en open data via son portail dédié.

Données collectées :

  • Sénateurs : identité, groupe politique, circonscription, série
  • Scrutins publics : votes avec résultats par groupe
  • Votes individuels : position de chaque sénateur
  • Amendements : propositions de modification des textes
  • Interventions : prises de parole en séance

DILA - Comptes rendus des débats

La Direction de l'Information Légale et Administrative publie les comptes rendus intégraux des débats parlementaires.

Données collectées :

  • Interventions : texte intégral des prises de parole en séance
  • Questions au Gouvernement : questions orales et réponses
  • Explications de vote : justifications des positions

Format : Archives TAR contenant des fichiers XML

HATVP - Répertoire des représentants d'intérêts

La Haute Autorité pour la Transparence de la Vie Publique tient le registre obligatoire des lobbyistes en France.

Données collectées :

  • Représentants d'intérêts : entreprises, associations, cabinets de conseil, syndicats
  • Actions de lobbying : description des actions menées
  • Cibles : parlementaires ou administrations contactés
  • Budgets déclarés : moyens consacrés au lobbying

Note sur le comptage

Les chiffres affichés sur CLAIR peuvent différer de ceux du site HATVP. Cela s'explique par notre méthodologie :

  • Actions par exercice : CLAIR compte chaque activité déclarée par exercice fiscal. Une activité identique déclarée sur 3 ans = 3 actions dans CLAIR.
  • Historique complet : CLAIR conserve l'historique depuis 2018, alors que HATVP peut n'afficher que les données récentes ou agrégées.
  • Entités distinctes : Les branches régionales d'organisations (ex: Chambres de métiers départementales) sont comptées séparément si elles ont des identifiants HATVP distincts.

Cette approche offre une transparence maximale sur l'évolution du lobbying dans le temps.

Synchronisation des données

Notre système d'ingestion récupère et met à jour les données de manière automatique et régulière.

Processus de collecte

  1. Vérification des mises à jour : Le système vérifie régulièrement si de nouvelles données sont disponibles sur les sources (via ETag ou date de modification).
  2. Téléchargement : Les nouvelles archives sont téléchargées et décompressées (ZIP pour l'AN, TAR/XML pour la DILA).
  3. Transformation : Les données brutes sont transformées pour correspondre à notre modèle de données unifié.
  4. Stockage : Les données sont enregistrées dans notre base PostgreSQL avec traçabilité de la source.
  5. Indexation : Les données sont indexées pour permettre la recherche full-text.

Fréquence des mises à jour

  • Scrutins et votes : Synchronisation quotidienne
  • Parlementaires : Synchronisation quotidienne
  • Interventions : Synchronisation quotidienne
  • Amendements : Synchronisation quotidienne
  • Lobbying (HATVP) : Synchronisation hebdomadaire

Enrichissement par intelligence artificielle

Pour rendre les données parlementaires plus accessibles, CLAIR utilise l'intelligence artificielle pour générer des résumés et des analyses complémentaires.

Technologie utilisée

CLAIR s'appuie sur les modèles de Mistral AI, une entreprise française spécialisée dans l'IA générative. Le modèle Mistral Small est utilisé pour sa capacité à traiter du texte en français avec précision et sobriété.

Données enrichies

  • Résumés de scrutins : Chaque scrutin public reçoit un résumé en langage clair expliquant l'objet du vote et son contexte.
  • Synthèses de dossiers législatifs : Les dossiers sont résumés avec une analyse des positions des groupes politiques basée sur les votes effectifs de leurs membres.
  • Résumés de sujets parlementaires : Les sujets transversaux regroupant plusieurs dossiers bénéficient d'une synthèse globale.

Garanties de fiabilité

  • Données factuelles en entrée : L'IA reçoit uniquement des données officielles (titres, résultats de votes, positions des groupes) et non des opinions.
  • Positions calculées, pas générées : Les positions des groupes politiques sont calculées à partir des votes individuels réels, puis transmises à l'IA comme contexte factuel.
  • Contrôle qualité automatisé : Un pipeline de vérification détecte les inversions de position et les incohérences entre les résumés générés et les données sources.
  • Aucune donnée inventée : L'IA ne génère pas de statistiques ou de chiffres. Tous les nombres affichés proviennent directement des sources officielles.

Modèle de données

Les données sont structurées autour des entités principales suivantes :

Parlementaire

Député ou sénateur avec son identité, groupe politique, circonscription, et statistiques d'activité (présence, loyauté au groupe, nombre d'interventions et amendements).

Groupe politique

Groupe parlementaire à l'Assemblée ou au Sénat, avec sa position sur l'échiquier politique et la liste de ses membres.

Scrutin

Vote public avec date, titre, type (solennel, ordinaire, motion), résultat global et répartition des votes.

Vote

Position individuelle d'un parlementaire sur un scrutin : pour, contre, abstention ou absent.

Intervention

Prise de parole en séance : question, intervention libre, ou explication de vote.

Amendement

Proposition de modification d'un texte avec auteur, contenu et sort (adopté, rejeté, retiré).

Lobbyiste

Représentant d'intérêts inscrit au répertoire HATVP : entreprise, association, cabinet de conseil, syndicat.

Action de lobbying

Action menée par un lobbyiste auprès d'un parlementaire ou d'une administration, avec dates et budget.

Stack technique

CLAIR est construit avec des technologies modernes et open source :

Frontend

  • Next.js 14 (App Router)
  • TypeScript
  • Tailwind CSS
  • TanStack Query

Backend

  • Fastify
  • Prisma ORM
  • PostgreSQL
  • Redis (cache & queues)

Ingestion

  • Mistral AI (enrichissement)
  • Connecteurs sources

Limitations et transparence

  • Délai de publication : Les données ne sont disponibles sur CLAIR qu'après leur publication par les sources officielles, généralement sous 24 à 48h.
  • Scrutins non publics : Seuls les scrutins publics sont disponibles. Les votes en commission ou à main levée ne sont pas enregistrés nominativement.
  • Données HATVP : Les informations de lobbying sont déclaratives. Leur exactitude dépend des déclarations des représentants d'intérêts.
  • Statistiques calculées : Les taux de présence et de loyauté sont calculés par nos soins à partir des données brutes. La méthodologie de calcul est documentée dans notre code source.