docs: runbook de deploy da schema-per-tenant (hosted)

docs/DEPLOY_SCHEMA_PER_TENANT.md — pre-requisito do freemium. Cutover em fases: - estrategia copia-nao-move (public + schemas coexistem ate o DROP) - Risco #1 hosted: exposicao dinamica de schemas no PostgREST (ALTER ROLE authenticator) + fallback Exposed schemas no dashboard - Fase A migrations aditivas / B manual privilegiados / C pgrst dinamico (testar cedo) / D migracao de dados (janela) / E frontend+edge / F smoke+soak / G F6.3 DROP (gated, irreversivel) - rollback por fase (botao de panico = redeploy do codigo antigo ate o DROP) - freemium pode entrar apos as Fases A-F, sem depender do DROP Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-13 20:46:56 -03:00
parent 1082123967
commit 91b89b7b5d
1 changed files with 212 additions and 0 deletions
@@ -0,0 +1,212 @@
+# Deploy — Migração Schema-per-Tenant (hosted)
+
+> Runbook de produção da migração RLS-only → schema físico por tenant
+> (branch `feat/schema-per-tenant`). **Pré-requisito do freemium** (ver
+> `docs/DEPLOY_FREEMIUM_F4.md`). Gerado em 2026-06-13.
+>
+> ⚠️ Esta é a migração **mais delicada do projeto**: envolve migração de DADOS,
+> exposição dinâmica de schemas no PostgREST e um DROP **irreversível** no fim.
+> Faça em **janela de manutenção**, com backup fresco, um passo de cada vez.
+
+---
+
+## Estratégia de cutover (por que é seguro)
+
+O desenho **COPIA** os dados (não move) de `public` pros schemas `tenant_<slug>` e
+só remove o espelho de `public` no **último** passo (F6.3 DROP). Durante a transição,
+os dados existem nos **dois lugares** → o código antigo (lê `public`) e o novo
+(lê `tenant_<slug>`) funcionam simultaneamente. Isso permite:
+
+```
+estrutura aditiva → migra dados (copia) → sobe código novo → valida → (só então) DROP
+```
+
+Se algo der errado **antes do DROP**, é só voltar o frontend/edge pra versão antiga
+(que lê `public`, intacto). O DROP é o único ponto de não-retorno.
+
+---
+
+## ⚠️ Risco hosted #1 — exposição dinâmica de schemas no PostgREST
+
+Local: `refresh_pgrst_schemas()` faz `ALTER ROLE authenticator SET pgrst.db_schemas=...`
+ `NOTIFY pgrst, 'reload config'` (config in-database, persiste em `pg_db_role_setting`).
+Um trigger em `public.tenant_schemas` re-roda isso a cada clone/drop.
+
+No **Supabase hosted** isso precisa ser confirmado:
+- O hosted suporta a config in-DB do PostgREST, MAS a permissão de `ALTER ROLE
+  authenticator` pode estar restrita à role de serviço. **Teste cedo** (Fase C):
+  rode `select public.refresh_pgrst_schemas();` e cheque se os schemas tenant
+  passam a responder via REST.
+- Fallback se o `ALTER ROLE` falhar no hosted: adicionar os schemas em
+  **Dashboard → Project Settings → API → Exposed schemas** (lista). Problema: é
+  **estática** — cada signup novo cria um schema que precisaria entrar na lista.
+  Mitigação: manter o trigger in-DB (se funcionar) OU automatizar via Management API.
+  **Decidir isso ANTES de abrir pra signup self-service.**
+
+> Sem exposição dos schemas tenant, o app novo recebe 404/empty nas tabelas tenant.
+
+---
+
+## Inventário (branch `feat/schema-per-tenant`)
+
+### Migrations (aditivas — rodam como `postgres` / `supabase db push`)
+Ordem natural por timestamp:
+```
+20260612000001_f1_tenants_slug.sql            # tenants.slug + generate_tenant_slug + trigger
+20260612000002_f1_tenant_schema_helpers.sql   # tenant_schema_name, tenant_id_for_schema, ...
+20260612000003_f1_tenant_template.sql         # _tenant_template (78 tabelas, views, seeds)
+20260612000004_f1_clone_drop_functions.sql    # clone_tenant_template, drop_tenant_schema, tenant_schemas, channel_routing
+20260612000005_f1_template_seed_whitelist.sql # limpa seeds órfãos
+20260612000006_f2_provision_clone.sql         # provision_* chamam clone
+20260612000007_f3_my_tenants_slug.sql         # my_tenants() retorna slug
+20260613000001_f1b_keep_anon_tables_public.sql# 6 tabelas anon ficam em public
+20260613000002_f5_pgrst_schemas_trigger.sql   # trigger pgrst refresh em tenant_schemas
+20260613000003_f6_0_clone_existing_tenants.sql# clona os tenants já existentes
+20260613000004_f6_2a_attach_agnostic_triggers.sql # Lote A (triggers agnósticos)
+```
+> As 3 migrations `*_freemium_*` / `*_fix_audit_*` (000005/06/07) são do **freemium** —
+> aplicar só no deploy do freemium (depois). A `fix_audit` pode (e deve) vir já aqui se
+> for testar provisionamento, mas é inócua antes.
+
+### Manual `supabase_admin` (privilegiadas — ordem obrigatória)
+```
+f5_pgrst_refresh_schemas.supabase_admin.sql   # refresh_pgrst_schemas (ALTER ROLE authenticator)
+f6_2b_schema_aware_triggers.supabase_admin.sql# Lote B (14 trigger funcs schema-aware)
+f6_2c_notifications_split.supabase_admin.sql  # Lote C (notifications_sistema + triggers)
+f6_2d_user_rpcs.supabase_admin.sql            # Lote D (14 user RPCs + _tenant_route)
+f6_2e_cron_rpcs.supabase_admin.sql            # Lote E (cron RPCs + _tenant_schema_unchecked)
+f6_2f_anon_token_rpcs.supabase_admin.sql      # Lote F (anon/token RPCs)
+f6_2g_sql_to_plpgsql.supabase_admin.sql       # Lote G (5 SQL→plpgsql)
+f6_2h_clone_wiring.supabase_admin.sql         # wiring: tenants novos nascem com triggers
+f6_4_saas_admin_rpcs.supabase_admin.sql       # SaaS-admin RPCs (feriados/notif/whatsapp)
+# DADOS:
+f6_1_migrate_data.supabase_admin.sql          # cutover: COPIA dados public→schemas
+# DROP (último, gated):
+f6_3_drop_public_tenant_tables.supabase_admin.sql  # 🛑 ponto de não-retorno
+```
+Rollback do DROP documentado em `database-novo/manual/f6_3_ROLLBACK.md`.
+
+### Frontend / Edge (vão no rebuild + deploy)
+- `src/lib/supabase/tenantClient.js`, `src/composables/useTenantDb.js`, `tenantStore` (slug/schema getters), `notificationStore` (dual-source), e os `supabase.from(...)` → `tenantDb().from(...)` espalhados.
+- `supabase/functions/_shared/tenant.ts` + os webhooks/crons que passaram a rotear por schema.
+
+### Config
+- `supabase/config.toml [api] schemas` permanece `["public","graphql_public"]` — os
+  tenant são expostos **dinamicamente** (não na lista). Confirmar no hosted (Risco #1).
+
+---
+
+## Passo a passo
+
+### Fase 0 — Pré-flight
+- [ ] **Backup completo** do hosted (dashboard → Database → Backups, ou `pg_dump`).
+- [ ] Confirmar que o hosted está no baseline (branch `main`/RLS) e estável.
+- [ ] Janela de manutenção combinada (a Fase D é cutover de dados).
+- [ ] Ter a connection string de **serviço** em mãos (algumas etapas exigem role elevada).
+
+### Fase A — Estrutura aditiva (migrations)
+Aplicar as 11 migrations `20260612*`/`20260613000001..000004` (e a `fix_audit` 000006).
+Via `supabase db push` (com a branch linkada) ou colando no **SQL Editor** na ordem.
+São **aditivas** — criam slug, helpers, `_tenant_template`, funções de clone, registry
+`tenant_schemas`, e **clonam os tenants existentes** (000003 = f6_0). Não tocam dados.
+
+**Verificar:**
+```sql
+select count(*) from public.tenant_schemas;        -- = nº de tenants
+select tenant_schema_name((select id from tenants limit 1));  -- 'tenant_<slug>'
+select count(*) from information_schema.schemata where schema_name like 'tenant_%';
+```
+
+### Fase B — Funções/triggers privilegiados (manual)
+Aplicar, **na ordem**, via connection string de serviço (ou SQL Editor se permitir):
+`f6_2b → f6_2c → f6_2d → f6_2e → f6_2f → f6_2g → f6_2h → f6_4`.
+(São CREATE OR REPLACE / idempotentes.)
+
+> Vários fazem `ALTER FUNCTION ... OWNER TO supabase_admin`. Se a role disponível no
+> hosted não permitir, troque pra `OWNER TO postgres` (sem perda funcional) — mesma
+> nota do runbook do freemium.
+
+### Fase C — PostgREST dinâmico (CRÍTICO — testar cedo)
+Aplicar `f5_pgrst_refresh_schemas.supabase_admin.sql` e disparar:
+```sql
+select public.refresh_pgrst_schemas();   -- seta pgrst.db_schemas + NOTIFY reload
+```
+**Teste real:** via REST (anon/auth key do hosted), bater numa tabela de um schema tenant
+(ex.: `GET /rest/v1/patients` com header `Accept-Profile: tenant_<slug>`). Deve responder
+(200/empty), não 404 "schema not exposed".
+- ✅ funcionou → seguir.
+- ❌ falhou (`ALTER ROLE authenticator` negado) → aplicar o **fallback** do Risco #1
+  (Exposed schemas no dashboard) antes de prosseguir, e planejar a automação por signup.
+
+### Fase D — Migração de DADOS (cutover, janela de manutenção)
+Aplicar `f6_1_migrate_data.supabase_admin.sql` (precisa `session_replication_role=replica`
+→ role de serviço). **COPIA** os dados public→schemas (idempotente, ON CONFLICT DO NOTHING).
+
+**Verificar paridade** (por tabela/tenant — exemplo com `patients`):
+```sql
+-- public (origem) vs schema (destino) devem bater por tenant
+select t.slug,
+  (select count(*) from public.patients p where p.tenant_id=t.id) as em_public,
+  -- ajuste o schema dinamicamente / rode por tenant:
+  null as em_schema
+from public.tenants t order by t.slug;
+-- e por schema:  select count(*) from tenant_<slug>.patients;
+```
+Repetir o spot-check nas tabelas de maior volume (conversation_messages, financial_records, agenda_eventos).
+
+### Fase E — Frontend + Edge (sobe o código novo)
+- Deploy das **edge functions** alteradas (`supabase functions deploy <nome>` pras que
+  mudaram: webhooks twilio/evolution inbound, crons de fila, `_shared/tenant.ts` é embutido).
+- **Rebuild + publish do frontend** da branch (agora `tenantDb().from(...)` lê os schemas).
+- A partir daqui o app **lê/escreve nos schemas tenant**. Como os dados foram copiados na
+  Fase D e `public` ainda existe, nada quebra mesmo se algum ponto antigo escapar.
+
+### Fase F — Smoke test (app no modelo novo)
+- [ ] Login em 2-3 tenants distintos → agenda, pacientes, financeiro, conversas carregam.
+- [ ] Criar/editar registros → conferir que gravam em `tenant_<slug>` (não em `public`).
+- [ ] Notificações (sino) — dual-source (tenant + `notifications_sistema`).
+- [ ] Webhook inbound (twilio/evolution) grava no schema certo (roteamento por canal).
+- [ ] Crons (fila de notificação/email) varrem os tenants.
+- [ ] Provisionar um tenant NOVO de teste → nasce com schema + triggers (wiring f6_2h).
+- [ ] **Deixar rodando alguns dias** com os dados ainda espelhados em public (rede de segurança).
+
+### Fase G — F6.3 DROP (🛑 PONTO DE NÃO-RETORNO)
+**Só depois** de F validada por dias + sem incidentes. Sequência:
+1. **Backup fresco obrigatório** (o header do f6_3 traz o `pg_dump --schema=public`).
+2. Reler `database-novo/manual/f6_3_ROLLBACK.md`.
+3. Aplicar `f6_3_drop_public_tenant_tables.supabase_admin.sql` (role de serviço):
+   pré-flight asserts → 2 FK→coluna solta → drop 9 views → DROP CASCADE 78 tabelas public.
+4. Smoke test final. A partir daqui `public` não tem mais as tabelas tenant — só schemas.
+
+---
+
+## Rollback por fase
+- **Fases A–C** (estrutura/funções/pgrst): aditivas. Reverter = dropar os schemas/funções
+  novos; `public` intacto, app antigo segue. Sem perda.
+- **Fase D** (dados): só copiou; reverter = ignorar/limpar schemas. `public` é a verdade.
+- **Fase E** (código): **rollback = redeploy do frontend/edge da versão antiga** (lê public).
+  Esse é o botão de pânico até o DROP.
+- **Fase G** (DROP): irreversível sem restore. Rollback = restaurar do backup (ver
+  `f6_3_ROLLBACK.md`). Por isso só após dias de validação.
+
+---
+
+## Ordem geral dos dois épicos
+```
+schema-per-tenant Fases A–F  →  (rodar dias)  →  schema-per-tenant Fase G (DROP)
+                                      └─ freemium (DEPLOY_FREEMIUM_F4.md) pode entrar
+                                         logo após as Fases A–F (não depende do DROP)
+```
+> O freemium **não** depende do DROP (F6.3) — depende da infra (Fases A–F). Dá pra subir
+> o freemium assim que o schema-per-tenant estiver validado no hosted, mantendo o espelho
+> em public como rede de segurança, e fazer o DROP com calma depois.
+
+## Checklist
+- [ ] Fase 0: backup + janela + baseline confirmado
+- [ ] Fase A: 11 migrations aplicadas + verificação
+- [ ] Fase B: 9 manual (b→4) na ordem
+- [ ] Fase C: pgrst dinâmico testado via REST (ou fallback decidido)
+- [ ] Fase D: f6_1 + paridade de contagens conferida
+- [ ] Fase E: edges + frontend novos publicados
+- [ ] Fase F: smoke test + dias de soak
+- [ ] Fase G: backup fresco → DROP → smoke final