Méthodologie

CLAIR agrège des données publiques provenant de sources officielles. Cette page explique comment nous collectons, structurons et présentons ces informations.

Sources de données

Toutes nos données proviennent de sources officielles et publiques. Aucune donnée n'est inventée ou estimée.

Assemblée nationale - Open Data

Le portail Open Data de l'Assemblée nationale fournit des exports JSON complets de l'activité parlementaire.

Données collectées :

Députés : identité, groupe politique, circonscription, mandats
Scrutins publics : votes solennels et ordinaires avec résultats détaillés
Votes individuels : position de chaque député sur chaque scrutin (pour, contre, abstention, absent)
Amendements : texte, auteur, sort (adopté, rejeté, retiré)
Dossiers législatifs : projets et propositions de loi, procédure
Commissions : organes parlementaires, types, composition et mandats des membres
Réunions : agenda des commissions et séances publiques, participants, ordres du jour
Vidéos : replays des séances et commissions (via videos.assemblee-nationale.fr)

Format : Archives ZIP contenant des fichiers JSON

Sénat - Open Data

Le Sénat publie également ses données en open data via son portail dédié.

Données collectées :

Sénateurs : identité, groupe politique, circonscription, série
Scrutins publics : votes avec résultats par groupe
Votes individuels : position de chaque sénateur
Amendements : propositions de modification des textes
Interventions : prises de parole en séance
Commissions : commissions permanentes, spéciales et d'enquête
Réunions : comptes rendus des commissions avec participants identifiés
Agenda des séances : séances publiques à venir avec ordres du jour (via l'API senat.fr)

DILA - Comptes rendus des débats

La Direction de l'Information Légale et Administrative publie les comptes rendus intégraux des débats parlementaires.

Données collectées :

Interventions : texte intégral des prises de parole en séance
Questions au Gouvernement : questions orales et réponses
Explications de vote : justifications des positions

Format : Archives TAR contenant des fichiers XML

HATVP - Répertoire des représentants d'intérêts

La Haute Autorité pour la Transparence de la Vie Publique tient le registre obligatoire des lobbyistes en France.

Données collectées :

Représentants d'intérêts : entreprises, associations, cabinets de conseil, syndicats
Actions de lobbying : description des actions menées
Cibles : parlementaires ou administrations contactés
Budgets déclarés : moyens consacrés au lobbying

Note sur le comptage

Les chiffres affichés sur CLAIR peuvent différer de ceux du site HATVP. Cela s'explique par notre méthodologie :

Actions par exercice : CLAIR compte chaque activité déclarée par exercice fiscal. Une activité identique déclarée sur 3 ans = 3 actions dans CLAIR.
Historique complet : CLAIR conserve l'historique depuis 2018, alors que HATVP peut n'afficher que les données récentes ou agrégées.
Entités distinctes : Les branches régionales d'organisations (ex: Chambres de métiers départementales) sont comptées séparément si elles ont des identifiants HATVP distincts.

Cette approche offre une transparence maximale sur l'évolution du lobbying dans le temps.

Synchronisation des données

Notre système d'ingestion récupère et met à jour les données de manière automatique et régulière.

Processus de collecte

Vérification des mises à jour : Le système vérifie régulièrement si de nouvelles données sont disponibles sur les sources (via ETag ou date de modification).
Téléchargement : Les nouvelles archives sont téléchargées et décompressées (ZIP pour l'AN, TAR/XML pour la DILA).
Transformation : Les données brutes sont transformées pour correspondre à notre modèle de données unifié.
Stockage : Les données sont enregistrées dans notre base PostgreSQL avec traçabilité de la source.
Indexation : Les données sont indexées pour permettre la recherche full-text.

Fréquence des mises à jour

Scrutins et votes : Synchronisation quotidienne
Parlementaires : Synchronisation quotidienne
Interventions : Synchronisation quotidienne
Amendements : Synchronisation quotidienne
Lobbying (HATVP) : Synchronisation hebdomadaire
Commissions et réunions : Synchronisation biquotidienne
Vidéos et directs : Détection en temps réel (proxy vers l'API vidéo de l'Assemblée nationale)

Enrichissement par intelligence artificielle

Pour rendre les données parlementaires plus accessibles, CLAIR utilise l'intelligence artificielle pour générer des résumés et des analyses complémentaires.

Technologie utilisée

CLAIR s'appuie sur les modèles de Mistral AI, une entreprise française spécialisée dans l'IA générative. Le modèle Mistral Small est utilisé pour sa capacité à traiter du texte en français avec précision et sobriété.

Données enrichies

Résumés de scrutins : Chaque scrutin public reçoit un résumé en langage clair expliquant l'objet du vote et son contexte.
Synthèses de dossiers législatifs : Les dossiers sont résumés avec une analyse des positions des groupes politiques basée sur les votes effectifs de leurs membres.
Résumés de sujets parlementaires : Les sujets transversaux regroupant plusieurs dossiers bénéficient d'une synthèse globale.
Fiches de parlementaires : Chaque député et sénateur dispose d'une fiche de synthèse (résumé, parcours, positions clés, faits notables) rédigée à partir de ses données officielles (mandats, statistiques de votes et d'interventions, déclarations HATVP) complétées par des sources publiques (Wikipédia, articles de presse).
Positions des groupes par sujet : Sur un sujet donné, l'action de chaque groupe politique est résumée à partir des amendements qu'il a effectivement déposés.

Garanties de fiabilité

Données factuelles en entrée : Pour les résumés de scrutins, dossiers et sujets, l'IA reçoit uniquement des données officielles (titres, résultats de votes, positions des groupes) et non des opinions. Les fiches de parlementaires s'appuient en complément sur des sources publiques (Wikipédia, articles de presse), toujours signalées comme générées par IA.
Positions calculées, pas générées : Les positions des groupes politiques sont calculées à partir des votes individuels réels, puis transmises à l'IA comme contexte factuel.
Contrôle qualité automatisé : Un pipeline de vérification détecte les inversions de position et les incohérences entre les résumés générés et les données sources.
Aucune donnée inventée : L'IA ne génère pas de statistiques ou de chiffres. Tous les nombres affichés proviennent directement des sources officielles.

Modèle de données

Les données sont structurées autour des entités principales suivantes :

Parlementaire

Député ou sénateur avec son identité, groupe politique, circonscription, et statistiques d'activité (présence, loyauté au groupe, nombre d'interventions et amendements).

Groupe politique

Groupe parlementaire à l'Assemblée ou au Sénat, avec sa position sur l'échiquier politique et la liste de ses membres.

Scrutin

Vote public avec date, titre, type (solennel, ordinaire, motion), résultat global et répartition des votes.

Vote

Position individuelle d'un parlementaire sur un scrutin : pour, contre, abstention ou absent.

Intervention

Prise de parole en séance : question, intervention libre, ou explication de vote.

Amendement

Proposition de modification d'un texte avec auteur, contenu et sort (adopté, rejeté, retiré).

Commission

Commission parlementaire (permanente, spéciale, d'enquête) avec ses membres actuels et anciens, ses réunions et les dossiers législatifs examinés.

Réunion

Séance publique ou réunion de commission avec date, lieu, ordre du jour, participants et lien vers la vidéo.

Lobbyiste

Représentant d'intérêts inscrit au répertoire HATVP : entreprise, association, cabinet de conseil, syndicat.

Action de lobbying

Action menée par un lobbyiste auprès d'un parlementaire ou d'une administration, avec dates et budget.

Stack technique

CLAIR est construit avec des technologies modernes et open source :

Frontend

Next.js 14 (App Router)
TypeScript
Tailwind CSS
TanStack Query

Backend

Fastify
Prisma ORM
PostgreSQL
Redis (cache & queues)

Ingestion

Mistral AI (enrichissement)
Connecteurs sources

Limitations et transparence

Délai de publication : Les données ne sont disponibles sur CLAIR qu'après leur publication par les sources officielles, généralement sous 24 à 48h.
Scrutins non publics : Seuls les scrutins publics sont disponibles. Les votes en commission ou à main levée ne sont pas enregistrés nominativement.
Données HATVP : Les informations de lobbying sont déclaratives. Leur exactitude dépend des déclarations des représentants d'intérêts.
Statistiques calculées : Les taux de présence et de loyauté sont calculés par nos soins à partir des données brutes. La méthodologie de calcul est documentée dans notre code source.