Méthodologie
CLAIR agrège des données publiques provenant de sources officielles. Cette page explique comment nous collectons, structurons et présentons ces informations.
Sources de données
Toutes nos données proviennent de sources officielles et publiques. Aucune donnée n'est inventée ou estimée.
Le portail Open Data de l'Assemblée nationale fournit des exports JSON complets de l'activité parlementaire.
Données collectées :
- Députés : identité, groupe politique, circonscription, mandats
- Scrutins publics : votes solennels et ordinaires avec résultats détaillés
- Votes individuels : position de chaque député sur chaque scrutin (pour, contre, abstention, absent)
- Amendements : texte, auteur, sort (adopté, rejeté, retiré)
- Dossiers législatifs : projets et propositions de loi, procédure
Format : Archives ZIP contenant des fichiers JSON
Le Sénat publie également ses données en open data via son portail dédié.
Données collectées :
- Sénateurs : identité, groupe politique, circonscription, série
- Scrutins publics : votes avec résultats par groupe
- Votes individuels : position de chaque sénateur
- Amendements : propositions de modification des textes
- Interventions : prises de parole en séance
La Direction de l'Information Légale et Administrative publie les comptes rendus intégraux des débats parlementaires.
Données collectées :
- Interventions : texte intégral des prises de parole en séance
- Questions au Gouvernement : questions orales et réponses
- Explications de vote : justifications des positions
Format : Archives TAR contenant des fichiers XML
La Haute Autorité pour la Transparence de la Vie Publique tient le registre obligatoire des lobbyistes en France.
Données collectées :
- Représentants d'intérêts : entreprises, associations, cabinets de conseil, syndicats
- Actions de lobbying : description des actions menées
- Cibles : parlementaires ou administrations contactés
- Budgets déclarés : moyens consacrés au lobbying
Note sur le comptage
Les chiffres affichés sur CLAIR peuvent différer de ceux du site HATVP. Cela s'explique par notre méthodologie :
- Actions par exercice : CLAIR compte chaque activité déclarée par exercice fiscal. Une activité identique déclarée sur 3 ans = 3 actions dans CLAIR.
- Historique complet : CLAIR conserve l'historique depuis 2018, alors que HATVP peut n'afficher que les données récentes ou agrégées.
- Entités distinctes : Les branches régionales d'organisations (ex: Chambres de métiers départementales) sont comptées séparément si elles ont des identifiants HATVP distincts.
Cette approche offre une transparence maximale sur l'évolution du lobbying dans le temps.
Synchronisation des données
Notre système d'ingestion récupère et met à jour les données de manière automatique et régulière.
Processus de collecte
- Vérification des mises à jour : Le système vérifie régulièrement si de nouvelles données sont disponibles sur les sources (via ETag ou date de modification).
- Téléchargement : Les nouvelles archives sont téléchargées et décompressées (ZIP pour l'AN, TAR/XML pour la DILA).
- Transformation : Les données brutes sont transformées pour correspondre à notre modèle de données unifié.
- Stockage : Les données sont enregistrées dans notre base PostgreSQL avec traçabilité de la source.
- Indexation : Les données sont indexées pour permettre la recherche full-text.
Fréquence des mises à jour
- Scrutins et votes : Synchronisation quotidienne
- Parlementaires : Synchronisation quotidienne
- Interventions : Synchronisation quotidienne
- Amendements : Synchronisation quotidienne
- Lobbying (HATVP) : Synchronisation hebdomadaire
Enrichissement par intelligence artificielle
Pour rendre les données parlementaires plus accessibles, CLAIR utilise l'intelligence artificielle pour générer des résumés et des analyses complémentaires.
Technologie utilisée
CLAIR s'appuie sur les modèles de Mistral AI, une entreprise française spécialisée dans l'IA générative. Le modèle Mistral Small est utilisé pour sa capacité à traiter du texte en français avec précision et sobriété.
Données enrichies
- Résumés de scrutins : Chaque scrutin public reçoit un résumé en langage clair expliquant l'objet du vote et son contexte.
- Synthèses de dossiers législatifs : Les dossiers sont résumés avec une analyse des positions des groupes politiques basée sur les votes effectifs de leurs membres.
- Résumés de sujets parlementaires : Les sujets transversaux regroupant plusieurs dossiers bénéficient d'une synthèse globale.
Garanties de fiabilité
- Données factuelles en entrée : L'IA reçoit uniquement des données officielles (titres, résultats de votes, positions des groupes) et non des opinions.
- Positions calculées, pas générées : Les positions des groupes politiques sont calculées à partir des votes individuels réels, puis transmises à l'IA comme contexte factuel.
- Contrôle qualité automatisé : Un pipeline de vérification détecte les inversions de position et les incohérences entre les résumés générés et les données sources.
- Aucune donnée inventée : L'IA ne génère pas de statistiques ou de chiffres. Tous les nombres affichés proviennent directement des sources officielles.
Modèle de données
Les données sont structurées autour des entités principales suivantes :
Parlementaire
Député ou sénateur avec son identité, groupe politique, circonscription, et statistiques d'activité (présence, loyauté au groupe, nombre d'interventions et amendements).
Groupe politique
Groupe parlementaire à l'Assemblée ou au Sénat, avec sa position sur l'échiquier politique et la liste de ses membres.
Scrutin
Vote public avec date, titre, type (solennel, ordinaire, motion), résultat global et répartition des votes.
Vote
Position individuelle d'un parlementaire sur un scrutin : pour, contre, abstention ou absent.
Intervention
Prise de parole en séance : question, intervention libre, ou explication de vote.
Amendement
Proposition de modification d'un texte avec auteur, contenu et sort (adopté, rejeté, retiré).
Lobbyiste
Représentant d'intérêts inscrit au répertoire HATVP : entreprise, association, cabinet de conseil, syndicat.
Action de lobbying
Action menée par un lobbyiste auprès d'un parlementaire ou d'une administration, avec dates et budget.
Stack technique
CLAIR est construit avec des technologies modernes et open source :
Frontend
- Next.js 14 (App Router)
- TypeScript
- Tailwind CSS
- TanStack Query
Backend
- Fastify
- Prisma ORM
- PostgreSQL
- Redis (cache & queues)
Ingestion
- Mistral AI (enrichissement)
- Connecteurs sources
Limitations et transparence
- Délai de publication : Les données ne sont disponibles sur CLAIR qu'après leur publication par les sources officielles, généralement sous 24 à 48h.
- Scrutins non publics : Seuls les scrutins publics sont disponibles. Les votes en commission ou à main levée ne sont pas enregistrés nominativement.
- Données HATVP : Les informations de lobbying sont déclaratives. Leur exactitude dépend des déclarations des représentants d'intérêts.
- Statistiques calculées : Les taux de présence et de loyauté sont calculés par nos soins à partir des données brutes. La méthodologie de calcul est documentée dans notre code source.