Eval Dashboard Semanal — Hermes (Placeholder)

⚠️ Placeholder — Setup Necessário

Dashboard fica no Mac local (~/Downloads/hermes-eval-dashboard-DATE.html). Mini não tem acesso direto ao SQLite eval DB (~/.claude/agent_feedback.db).

Status atual: DB criado 10/05/2026, aguardando operacionalização do eval loop.

Eval DB: ~/.claude/agent_feedback.db (local Mac)

Top Agents (Últimos 30 dias)

[Aguardando dados do eval DB]

Query: SELECT agent_name, COUNT(*) FROM agent_usage WHERE ts > datetime('now','-30 days') GROUP BY agent_name ORDER BY 2 DESC LIMIT 5

Rating Médio por Agent

[Aguardando dados do eval DB]

Query: SELECT agent_name, AVG(rating), COUNT(*) FROM agent_feedback GROUP BY agent_name ORDER BY 2 DESC

Decisões Pendentes (Outcome)

[Aguardando dados do eval DB]

Query: SELECT decision_text, ts FROM decisions WHERE outcome IS NULL ORDER BY ts DESC LIMIT 10

Como Operacionalizar

1. Verificar schema SQLite

Rodar no Mac local:

sqlite3 ~/.claude/agent_feedback.db ".schema"

2. Ativar Hermes para perguntar ratings

Após outputs críticos (projeto v1, parecer, council, briefing morning, prep reunião):

"Rating rápido? 1-5 ou pula."

3. Logging automático de uso

Hermes registra cada agent call (sem perguntar):

INSERT INTO agent_usage (agent_name, task_type, source) VALUES ('[agent]', '[tipo]', 'manual|cron|skill');

4. Dashboard semanal no Mac

Gerar query consolidada e renderizar HTML (run this on Mac local):

sqlite3 ~/.claude/agent_feedback.db ".mode json" < queries.sql > eval-data.json
# Depois renderizar com template HTML (será automatizado via skill /eval-dashboard)

5. Copiar pra Claude-Shared/eval-dashboard/

Manter histórico semanal:

cp ~/Downloads/hermes-eval-dashboard-2026-07-03.html /path/to/Claude-Shared/eval-dashboard/

Schema SQLite (Referência)

Tabelas:

agent_usage: ts, agent_name, task_type, source
agent_feedback: ts, agent_name, task_summary, rating (1-5), notes, model_used
decisions: ts, decision_text, context, rationale, council_run, devil_run, outcome, outcome_ts
daily_eval: date, briefing_rating, council_rating, energy, notes
        

Objetivo: Top 1% diferenciador — sem rating, qualidade não melhora. Trimestre vira gráfico, identifica qual agent vale a pena.

📊 Eval Dashboard Semanal

⚠️ Placeholder — Setup Necessário

Top Agents (Últimos 30 dias)

Rating Médio por Agent

Decisões Pendentes (Outcome)

Semana em Números

Feedback Recente

Tendência de Quality

Como Operacionalizar

Schema SQLite (Referência)