📊 Eval Dashboard Semanal

Hermes Agent Performance & Decision Tracking

⚠️ Placeholder — Setup Necessário

Dashboard fica no Mac local (~/Downloads/hermes-eval-dashboard-DATE.html). Mini não tem acesso direto ao SQLite eval DB (~/.claude/agent_feedback.db).

Status atual: DB criado 10/05/2026, aguardando operacionalização do eval loop.

Eval DB: ~/.claude/agent_feedback.db (local Mac)

Top Agents (Últimos 30 dias)

[Aguardando dados do eval DB]

Query: SELECT agent_name, COUNT(*) FROM agent_usage WHERE ts > datetime('now','-30 days') GROUP BY agent_name ORDER BY 2 DESC LIMIT 5

Rating Médio por Agent

[Aguardando dados do eval DB]

Query: SELECT agent_name, AVG(rating), COUNT(*) FROM agent_feedback GROUP BY agent_name ORDER BY 2 DESC

Decisões Pendentes (Outcome)

[Aguardando dados do eval DB]

Query: SELECT decision_text, ts FROM decisions WHERE outcome IS NULL ORDER BY ts DESC LIMIT 10

Semana em Números

[Aguardando dados de daily_eval]

Feedback Recente

[Últimas 10 ratings de Hermes]

Tendência de Quality

[Gráfico de evolução semanal]

Como Operacionalizar

1. Verificar schema SQLite
Rodar no Mac local:
sqlite3 ~/.claude/agent_feedback.db ".schema"
2. Ativar Hermes para perguntar ratings
Após outputs críticos (projeto v1, parecer, council, briefing morning, prep reunião):
"Rating rápido? 1-5 ou pula."
3. Logging automático de uso
Hermes registra cada agent call (sem perguntar):
INSERT INTO agent_usage (agent_name, task_type, source) VALUES ('[agent]', '[tipo]', 'manual|cron|skill');
4. Dashboard semanal no Mac
Gerar query consolidada e renderizar HTML (run this on Mac local):
sqlite3 ~/.claude/agent_feedback.db ".mode json" < queries.sql > eval-data.json # Depois renderizar com template HTML (será automatizado via skill /eval-dashboard)
5. Copiar pra Claude-Shared/eval-dashboard/
Manter histórico semanal:
cp ~/Downloads/hermes-eval-dashboard-2026-07-03.html /path/to/Claude-Shared/eval-dashboard/

Schema SQLite (Referência)

Tabelas:
agent_usage: ts, agent_name, task_type, source agent_feedback: ts, agent_name, task_summary, rating (1-5), notes, model_used decisions: ts, decision_text, context, rationale, council_run, devil_run, outcome, outcome_ts daily_eval: date, briefing_rating, council_rating, energy, notes
Objetivo: Top 1% diferenciador — sem rating, qualidade não melhora. Trimestre vira gráfico, identifica qual agent vale a pena.