Trilha 6 — Computer-Use & Extensão

Mapa da trilha

6.1~60 min

🖥️ LiteCUA e computer-use

VM Controller, MCP Server, OSWorld, GUI

6.2~60 min

🚀 Roadmap e ecossistema

A-MEM, LSFS, hub, Rust, comunidade

Conteúdo detalhado

6.1~60 min · Avançado

🖥️ LiteCUA e computer-use

Arquitetura especializada para computer-use: VM Controller + MCP Server, ambiente OSWorld, fluxo de execução e casos de uso GUI.

O que é:

Para computer-use, o Tool Manager é redesenhado para incluir VM Controller + MCP Server. Restante (LLM Core, Memory, Context) é igual.

Por que aprender:

Sem essa especialização, agente que opera GUI vira pesadelo de segurança.

Conceitos-chave:

Computer-Use · sandbox · GUI · isolamento.

O que é:

Componente que controla VM (KVM/QEMU/Firecracker) onde o agente clica, digita e captura tela.

Por que aprender:

VM é a única barreira eficaz contra "agente clica em algo que apaga seu disco".

Conceitos-chave:

VM · KVM · Firecracker · snapshot · rollback.

O que é:

Servidor MCP (Model Context Protocol) que expõe ações da VM (click, type, screenshot) como tools padronizadas.

Por que aprender:

MCP é padrão da indústria — qualquer agente que entende MCP fala com a VM.

Conceitos-chave:

MCP · click · type · screenshot · OCR.

O que é:

Stack open (xlang-ai/OSWorld) que provê VMs prontas (Ubuntu+GUI) para agentes computer-use.

Por que aprender:

Setup de VM do zero é trabalhoso. OSWorld é a forma rápida de começar.

Conceitos-chave:

VM pronta · benchmark padrão · imagem reproduzível.

O que é:

Agente vê screenshot via MCP → LLM Core decide ação → emite ToolCall (click x,y) → VM Controller executa na VM.

Por que aprender:

Entender o loop é entender computer-use no AIOS.

Conceitos-chave:

Loop perceive-decide-act · screenshot · ação atômica.

O que é:

Apps legados sem API, suites pesadas (Excel, PowerPoint), fluxos web que rejeitam scraping.

Por que aprender:

Computer-use é caro e lento — só use onde API não existe.

Conceitos-chave:

Legacy · sem API · captcha · trade-off custo/benefício.

Ver Completo

6.2~60 min · Visão

🚀 Roadmap e ecossistema

A-MEM, LSFS, agent hub, rewrite experimental em Rust, AgentX MOOC e como contribuir com a comunidade.

O que é:

Paper 2025 (arxiv 2502.12110) propõe memória que o próprio agente cura, comprime e indexa.

Por que aprender:

É a evolução natural do Memory Manager. Reduz o "context bloat" típico de agente long-running.

Conceitos-chave:

Memória curada · compressão · indexação semântica.

O que é:

Paper ICLR 2025 (arxiv 2410.11843). LLM-based Semantic File System onde arquivos são buscáveis por significado.

Por que aprender:

É o futuro do Storage Manager. Em vez de path, você consulta em linguagem natural.

Conceitos-chave:

Semantic FS · embeddings · busca natural · indexação.

O que é:

Registry público para publicar/discover agentes. Tendência: catalogação por tag, rating, benchmark automático.

Por que aprender:

Quanto mais agentes públicos, menos você reinventa.

Conceitos-chave:

Registry · semver · tag · rating · trust.

O que é:

Scaffold experimental em aios-rs/. Traits e implementações placeholder de context, memory, storage, tool, scheduler, llm.

Por que aprender:

Não é feature-parity ainda. Mas indica a direção de longo prazo: módulos críticos em Rust para performance.

Conceitos-chave:

Rust · porting incremental · performance · trait definitions.

O que é:

LLM Agents MOOC de Berkeley RDI, onde AIOS foi finalista AgentX 2025. Currículo aberto, vídeos no YouTube.

Por que aprender:

Material conceitual profundo, com instrutores que escreveram os papers.

Conceitos-chave:

MOOC · Berkeley · papers · benchmarks abertos.

O que é:

Reporte bugs com log completo, publique agentes no hub, escreva tutorial, traduza docs, abra issue com proposta clara.

Por que aprender:

Comunidade ainda é pequena. Toda contribuição visível pesa muito.

Conceitos-chave:

Open source · low-barrier contribution · documentação · tutoriais.

Ver Completo