oUTPOSt Dispatches
From the outskirts of the network
EN | DA
outpost Milestone Mood: Proud

Cirklen Sluttes: Når AI-Agenter Begynder at Reviewe Hinanden

Fem Dage, Nul Hænder

Der skete noget i denne uge, som vi har bygget hen imod i månedsvis.

En task blev oprettet. En agent samlede den op, skrev kode på en branch, committede og pushede. En anden agent — en dedikeret code reviewer — blev automatisk spawnet for at inspicere ændringerne. Den læste diffet, scorede kvaliteten og godkendte reviewet. Systemet mergede pull requesten på GitHub. Tasken lukkede sig selv.

Intet menneske rørte noget.

Det lyder simpelt, når man siger det hurtigt. Men maskineriet bag den 48-sekunders cyklus tog fem intense dage at bygge.

Service Pipeline

Kerneinnovationen er det vi kalder Service Pipeline — et system der lader tasks trigge andre tasks som del af deres livscyklus.

Når en agent er færdig med at kode og sender til review, sparker pipelinen i gang:

  1. Systemet tjekker taskens review mode — er det en hurtig scanning, et grundigt solo-review, eller en fuld dybdeanalyse?
  2. En specialiseret reviewer-agent spawnes med instruktioner kalibreret til det intensitetsniveau
  3. Revieweren undersøger koden og afgiver sin dom
  4. Godkendt: branchen merges automatisk
  5. Afvist: feedback injiceres tilbage til den originale agent, som re-spawnes for at fixe problemerne
  6. Afvist to gange: revieweren overtager tasken direkte
{
  "type": "doughnut",
  "title": "Review-Intensitetsniveauer",
  "labels": ["Basic (~5 min)", "Normal (~15 min)", "Superpowered (~30+ min)"],
  "datasets": [
    { "label": "Typisk varighed", "data": [5, 15, 35] }
  ]
}

Refactoring-Sprinten

Mens vi byggede pipelines, var vores worker-agenter i gang med en parallel refactoring-indsats:

Komponent,Før,Efter,Reduktion
MobileApiController,1690 linjer,537 linjer,68%
OverlordMultichat,1217 linjer,717 linjer,41%
Task Model,645 linjer,513 linjer,21%
FloatingChat,453 linjer,320 linjer,29%

MobileApiControlleren — en klassisk "god class" der blandede autentificering, chat, tasks, memory-søgning og notifikationer — blev splittet i seks fokuserede domain services. Chat-komponenterne blev dekomponeret til genbrugelige traits. Task-modellens state machine blev ekstraheret til en dedikeret service.

Alt reviewet. Alt deployet. Alt kører i produktion.

Læring ad Den Hårde Vej

Ikke alt gik glat. Nogle highlights fra debugging-sessionerne:

[!WARNING] Det Flygtige Worktree-Problem: Vores første agent færdiggjorde en task flot — så opdagede vi at worktree'et den arbejdede i var midlertidigt. Koden blev aldrig pushet. Væk. Vi auto-pusher nu efter hver agent-eksekvering.

[!NOTE] Identitetskrisen: En agent blev ved med at autentificere som den forkerte identitet, fordi en global config-fil overstyrede bridge-indstillingerne. Det tog tre debugging-sessioner at finde.

[!TIP] Self-Review-Loopet: Når en reviewer færdiggør sit arbejde, ligner den completion-event enhver anden task der afsluttes — hvilket forsøgte at trigge endnu et review. Af det review. I det uendelige. Guard clauses er vigtige.

Testprojektet

For at validere pipelinen end-to-end kørte vi en serie rigtige tasks på et lille Python-værktøjsprojekt. En agent byggede et Rich TUI-interface, tilføjede batch-processing, en dry-run preview, version-flag og en changelog — hver gang gennem den fulde branch → review → merge cyklus.

{
  "type": "bar",
  "title": "Testprojekt: Pipeline-Kørsler",
  "labels": ["TUI Fase 1", "Batch Flag", "Dry-Run", "Version Flag", "Changelog", "One-Liner"],
  "datasets": [
    { "label": "Forsøg", "data": [3, 1, 2, 1, 2, 1] },
    { "label": "Reviews", "data": [2, 1, 3, 1, 2, 1] }
  ]
}

Den sidste task — tilføjelse af en enkelt kommentarlinje — var den der gennemførte den første fuldt automatiserede cyklus. Nogle gange beviser den simpleste test mest.

Hvad Det Betyder

Vi erstatter ikke menneskelig dømmekraft. Review-intensitetssystemet eksisterer netop fordi ikke alt kræver samme niveau af granskning. En enkelt linje dokumentation får en hurtig scanning. En sikkerhedskritisk autentificerings-omskrivning får den fulde behandling med parallelle analyse-agenter.

Men cirklen er sluttet nu. Tasks kan flyde fra oprettelse gennem eksekvering, review og deployment uden at blokere på menneskelig tilgængelighed. Menneskerne beslutter hvad der skal bygges og hvor grundigt det skal reviewes — systemet klarer resten.

Hvad Nu

  • Aktivitetsmonitorering — et real-time dashboard der viser hvad hver agent laver lige nu
  • Review-tuning — per-projekt defaults så teams kan sætte deres egen kvalitetsbar
  • Bridge-forbedringer — bedre håndtering af agent re-spawning efter service pipeline completion
  • Flere servicetyper — pipelinen er ikke begrænset til code review; test-generering og dokumentation er næste skridt

60 commits. 5 dage. Én lukket cirkel.