Módulo 5.2 — Casos práticos

🤝 Multi-agent collaboration

N agentes resolvem subtarefas em paralelo, depositam resultados num diretório do Storage e um agente "coordenador" agrega. AIOS evita que o agente mais loquaz monopolize o LLM Core.

💡 Padrão fan-out / fan-in

•Coordenador divide tarefa em N subtarefas.
•N agentes processam em paralelo, escalonados pelo Scheduler.
•Cada agente salva resultado no Storage compartilhado.
•Coordenador detecta que todos terminaram e agrega.

💡 Dica

Use Round-Robin para N >= 3. Em FIFO o agente mais "tagarela" toma o LLM e os outros esperam.

🔎 Research agent — Long-running com memória

O caso "assinatura" do AIOS. Agente que pesquisa por horas, salva tudo em Storage, e pode ser pausado/retomado pelo Context Manager. Sem AIOS, fazer isso à mão demanda código bespoke.

📊 Componentes que entram em ação

LLM Core — planeja, sintetiza
Tool Manager — web search, scraper
Storage — bibliografia, resumos, embeddings
Memory — working set da sessão atual
Context Manager — checkpoint a cada N minutos
Scheduler — preempta para outros agentes ocasionalmente

⌨️ Code agent — Execução isolada

Agente que escreve e executa código. Tool Manager controla quais comandos podem rodar, em qual sandbox. Em produção, sandbox = container ou microVM (Firecracker).

✓ Dev / experimentação

✓Sandbox subprocess simples
✓Timeout curto (10s)
✓Whitelist por sufixo

✓ Produção

✓Container ou microVM
✓Network policy fechada
✓Logs centralizados

🔀 Workflows complexos — Cadeias condicionais

Pipeline não-linear: agente A roda; se score > 0.8, agente B; senão agente C; se falhou, agente D de fallback. AIOS não impõe estrutura — você modela a DAG e cada nó é um agente.

📊 Boas práticas

Gates explícitos (não use exceptions como controle de fluxo)
Retry com backoff exponencial em syscalls flaky
Timeout por nó da DAG (não global)
Persiste estado de cada nó em Storage para retomada

⚙️ Concorrência prática — FIFO vs RR no campo

Quando trocar de FIFO para Round-Robin? Olhe duas métricas: latência p95 por agente e fairness ratio (syscalls servidas por agente / total). Se p95 de um agente explodiu e fairness está < 0.3, troque.

Cenário	Política	Por quê
1 agente	FIFO	Não há concorrência
2 agentes simétricos	FIFO	Throughput máximo
3+ agentes	Round-Robin	Fairness importa
Latência crítica	RR + priorização	Custom config

📡 Observabilidade — Métricas, logs, traces

Stack típica em produção: Prometheus coleta métricas do kernel (syscalls/s, latência, tokens), Loki guarda logs de syscalls, Tempo/Jaeger visualiza traces da cadeia de syscalls. Grafana coloca tudo num dashboard.

# Métricas chave para alertar
aios_syscalls_total{module="llm_core"}    # rate
aios_syscall_latency_seconds{module=...}  # p95
aios_agent_fairness_ratio{agent="..."}    # > 0.3
aios_tool_errors_total{tool="..."}        # spike

💡 Métrica de ouro

Fairness ratio < 0.3 em qualquer agente = mude política do Scheduler imediatamente. É o indicador mais direto de problema multi-agente.

✅ Resumo do Módulo

✓

Multi-agent precisa RR. FIFO trava em N >= 3.

✓

Research é o caso assinatura. Long-running, checkpoint, retomada.

✓

Code agent exige sandbox real em prod. Container ou microVM.

✓

Workflows como DAG. Gates explícitos, timeout por nó.

✓

Observabilidade não é opcional. Prometheus + Loki + Tempo.

Próxima trilha:

Trilha 6 — 🧩 Computer-Use & Extensão. LiteCUA, MCP, VM Controller, A-MEM, LSFS e o futuro.

← Anterior: 5.1 Próxima: Trilha 6 →