🤝 Multi-agent collaboration
N agentes resolvem subtarefas em paralelo, depositam resultados num diretório do Storage e um agente "coordenador" agrega. AIOS evita que o agente mais loquaz monopolize o LLM Core.
💡 Padrão fan-out / fan-in
- •Coordenador divide tarefa em N subtarefas.
- •N agentes processam em paralelo, escalonados pelo Scheduler.
- •Cada agente salva resultado no Storage compartilhado.
- •Coordenador detecta que todos terminaram e agrega.
💡 Dica
Use Round-Robin para N >= 3. Em FIFO o agente mais "tagarela" toma o LLM e os outros esperam.
🔎 Research agent — Long-running com memória
O caso "assinatura" do AIOS. Agente que pesquisa por horas, salva tudo em Storage, e pode ser pausado/retomado pelo Context Manager. Sem AIOS, fazer isso à mão demanda código bespoke.
📊 Componentes que entram em ação
- LLM Core — planeja, sintetiza
- Tool Manager — web search, scraper
- Storage — bibliografia, resumos, embeddings
- Memory — working set da sessão atual
- Context Manager — checkpoint a cada N minutos
- Scheduler — preempta para outros agentes ocasionalmente
⌨️ Code agent — Execução isolada
Agente que escreve e executa código. Tool Manager controla quais comandos podem rodar, em qual sandbox. Em produção, sandbox = container ou microVM (Firecracker).
✓ Dev / experimentação
- ✓Sandbox subprocess simples
- ✓Timeout curto (10s)
- ✓Whitelist por sufixo
✓ Produção
- ✓Container ou microVM
- ✓Network policy fechada
- ✓Logs centralizados
🔀 Workflows complexos — Cadeias condicionais
Pipeline não-linear: agente A roda; se score > 0.8, agente B; senão agente C; se falhou, agente D de fallback. AIOS não impõe estrutura — você modela a DAG e cada nó é um agente.
📊 Boas práticas
- Gates explícitos (não use exceptions como controle de fluxo)
- Retry com backoff exponencial em syscalls flaky
- Timeout por nó da DAG (não global)
- Persiste estado de cada nó em Storage para retomada
⚙️ Concorrência prática — FIFO vs RR no campo
Quando trocar de FIFO para Round-Robin? Olhe duas métricas: latência p95 por agente e fairness ratio (syscalls servidas por agente / total). Se p95 de um agente explodiu e fairness está < 0.3, troque.
| Cenário | Política | Por quê |
|---|---|---|
| 1 agente | FIFO | Não há concorrência |
| 2 agentes simétricos | FIFO | Throughput máximo |
| 3+ agentes | Round-Robin | Fairness importa |
| Latência crítica | RR + priorização | Custom config |
📡 Observabilidade — Métricas, logs, traces
Stack típica em produção: Prometheus coleta métricas do kernel (syscalls/s, latência, tokens), Loki guarda logs de syscalls, Tempo/Jaeger visualiza traces da cadeia de syscalls. Grafana coloca tudo num dashboard.
# Métricas chave para alertar
aios_syscalls_total{module="llm_core"} # rate
aios_syscall_latency_seconds{module=...} # p95
aios_agent_fairness_ratio{agent="..."} # > 0.3
aios_tool_errors_total{tool="..."} # spike
💡 Métrica de ouro
Fairness ratio < 0.3 em qualquer agente = mude política do Scheduler imediatamente. É o indicador mais direto de problema multi-agente.
✅ Resumo do Módulo
Próxima trilha:
Trilha 6 — 🧩 Computer-Use & Extensão. LiteCUA, MCP, VM Controller, A-MEM, LSFS e o futuro.