Atomaire Claims & Annotaties

info

Dit is een actief onderzoeksspoor. De inzichten zijn in ontwikkeling en nog niet uitgewerkt tot concrete aanbevelingen.

Aanleiding

Wie gegevens betrouwbaar wil vastleggen, stelt al snel twee eisen. De eerste is semantische helderheid: elk gegeven moet precies betekenen wat het zegt, ongeacht de context waarin het wordt gebruikt. De tweede is traceerbaarheid over tijd: het moet altijd mogelijk zijn om te reconstrueren wanneer iets is vastgelegd, op basis waarvan, en of dat later is gecorrigeerd of ingetrokken.

Gangbare vastleggingsparadigma's voldoen maar ten dele aan deze eisen. Een rij in een relationele tabel bundelt meerdere attributen in één eenheid, terwijl elk attribuut zijn eigen ontstaansmoment, bron en geldigheidsperiode kan hebben. Bi-temporele modellen voegen tijddimensies toe op rijniveau, maar ook zij tracken wijzigingen per rij — niet per individueel gegeven. Wie een correctie doorvoert op één attribuut, raakt daarmee onvermijdelijk de context van de hele rij.

Event sourcing verfijnt het beeld door veranderingen als een reeks events op te slaan. Daarmee wordt de ontstaansgeschiedenis van een toestand zichtbaar. Maar een event beschrijft een overgang en laat de individuele beweringen die erin besloten liggen ongedifferentieerd: het is niet rechtstreeks zichtbaar welk deel van een event over welk attribuut gaat, of met welke zekerheid dat is vastgelegd.

Wie serieus nadenkt over semantiek en traceerbaarheid, ontdekt dat je steeds fijnmaziger wilt werken — totdat je de kleinst mogelijke eenheid bereikt die nog zelfstandig betekenis heeft. Dat is de atomaire claim. Atomaire Claims & Annotaties (ACA) is de aanpak die daaruit voortkomt.

Atomaire claims

Een atomaire claim is de kleinst mogelijke betekenisvolle eenheid van data in een register. Ze legt één eigenschap van één entiteit vast — niet meer en niet minder.

We spreken bewust van een claim, niet van een feit of een tuple. Bij elke registratie speelt interpretatie of beoordeling een rol: een medewerker, een systeem of een algoritme heeft op basis van beschikbare informatie geconcludeerd dat iets het geval is. Een register beschrijft daarmee niet de werkelijkheid zelf, maar doet een bewering over de werkelijkheid op een bepaald moment, vanuit een bepaald gezichtspunt.

Dit sluit aan bij het principe van epistemische nederigheid dat centraal staat in het project Uit betrouwbare bron: overheidsregisters weten niet alles zeker, en een goed ontworpen register maakt dat zichtbaar in plaats van het te verdoezelen.

Atomaire claim en annotatie — emigratievoorbeeld

Annotaties

Elke claim kan worden voorzien van annotaties: metadata die de context van die claim beschrijft. Annotaties worden bijgehouden op het niveau van de individuele claim — niet op rij- of recordniveau. Daardoor is het mogelijk om twijfel, onderzoek en correctie precies uit te drukken, zonder andere gegevens aan te tasten.

Er zijn vijf architectuurbepalende aspecten waarop een claim geannoteerd kan worden:

Herkomst — de bron van de claim, de oorzaak van de registratie en de verwerkingswijze
Registratie — het moment waarop de claim is vastgelegd in het register
Geldigheid — het tijdvak waarover de claim van toepassing is
Zekerheid — de mate van zekerheid waarmee de claim is geregistreerd
Doorhaling — het moment waarop bleek dat de claim niet had mogen worden opgenomen

Met annotaties op dit detailniveau kan een register uitdrukken dat een gegeven voorlopig is, dat er onderzoek loopt, dat een eerdere registratie is teruggedraaid, of dat twee bronnen elkaar tegenspreken. Dat maakt het register niet alleen nauwkeuriger, maar ook transparanter en beter herstelbaar.

Annotaties op atomaire claims

Domeinagnostische projecties

Claims zijn de atomen; leveringen zijn de moleculen. Een levering — een view, een bericht, een API-response — is altijd een samenstelling van claims, geselecteerd en gecombineerd op basis van een projectie.

Omdat alle claims dezelfde annotatiestructuur hebben, kan één algoritme worden geschreven dat projecties samenstelt zonder domeinkennis nodig te hebben. Dat algoritme selecteert de juiste claims op basis van hun annotaties: geldig op een bepaald tijdstip, zeker genoeg, niet doorgehaald, afkomstig van de juiste bron. Domeinkennis zit alleen in de selectiecriteria, niet in de projectielogica zelf.

Dit lost het replay-probleem op: bij herstel of bij een verandering van de projectieregels hoeft alleen het algoritme opnieuw te worden toegepast op dezelfde claimstore. Het algoritme hoeft maar één keer goed geschreven en getest te worden.

Wetenschappelijke wortels

ACA bouwt voort op een aantal eerdere ontwikkelingen in de informatiewetenschap:

Fact-based modeling — de benadering waarbij gegevens worden opgeslagen als afzonderlijke, onafhankelijke feiten over entiteiten. Wordt ook toegepast in DEMO en Wendbaar wetgeven.
De zesde normaalvorm — geformuleerd door Chris Date (2003), die de volledige decompositie van relaties tot enkelvoudige attributen beschrijft.
RDF Star — het annotatiemechanisme voor RDF-triples (2014), waarmee metadata op individuele uitspraken kan worden vastgelegd.

Verhouding tot de handreiking

Het project Uit betrouwbare bron kent twee sporen die parallel lopen. Het eerste spoor heeft een praktisch karakter: het levert een handreiking voor het ontwerpen en bouwen van capabele registers, die vandaag toepasbaar is. Event sourcing speelt daarin een prominente rol. Het is al beproefd in de praktijk en biedt een aantoonbare verbetering voor het vastleggen van ontstaansgeschiedenis en de evolutie van gegevens over tijd.

Het tweede spoor heeft een meer onderzoekskarakter. Hier worden ACA onderzocht en uitgewerkt. De centrale vragen zijn: hoe ziet een volledig geannoteerd claimmodel er in de praktijk uit, welke projectiemechanismen zijn nodig, en hoe verhoudt dit model zich tot bestaande standaarden en implementaties? Het doel is om te komen tot een aanpak die op termijn zijn weg kan vinden naar de handreiking.

De twee sporen sluiten elkaar niet uit. Waar event sourcing zich richt op het vastleggen van wat er is gebeurd, richt ACA zich op het vastleggen van wat er bekend is — en met welke zekerheid, op welk moment, en op basis waarvan. Ze zijn complementair: event sourcing biedt een betrouwbaar auditspoor van besluiten en handelingen; ACA biedt een nauwkeurig gegevensmodel dat twijfel en correctie kan uitdrukken op het niveau van individuele datapunten.

Op termijn zullen de twee sporen bij elkaar komen en elkaar versterken. Wie nu met de handreiking aan de slag gaat, legt daarmee ook de basis voor een register dat later kan worden uitgebreid met de principes van ACA.

Aanleiding​

Atomaire claims​

Annotaties​

Domeinagnostische projecties​

Wetenschappelijke wortels​

Verhouding tot de handreiking​