Lab 1 — Financial Analytics SARIMA do volume do varejo (PMC/IBGE) — UF: São Paulo

1. Dados & UF escolhida

UF: São Paulo

N obs

266

Período

2004-01 → 2026-02

Média

90.94

Desvio

17.66

Mín / Máx

48.3 / 132.5

2. Análise descritiva (linha, ACF, PACF)

PMC nível — Série bruta (nível). Tendência crescente clara, com vales em 2009 e 2015–16 e quebra forte em 2020 (Covid).

ACF nível — ACF do nível: decaimento muito lento + picos a cada 12 lags = raiz unitária + sazonalidade anual.

PACF nível — PACF do nível: spike enorme em lag 1 e quase nada depois — assinatura clássica de não-estacionariedade.

3. Decomposição STL

STL observado — Componente 'observado' do STL — a série original repetida pra comparar com os 3 componentes abaixo.

STL tendência — Tendência: alta firme até 2014, queda em 2015–16 (recessão), recuperação, choque de 2020 e nova subida.

STL sazonalidade — Sazonalidade (período = 12): pico claro em dezembro, vale em fev — efeito Natal/Carnaval.

STL resíduo — Resíduo do STL: parece ruído com outliers nos meses de crise (2009, 2020).

4. Diferenciação

1a diferença regular — Δ Yₜ — remove tendência. Ainda dá pra ver ondas de 12 meses (sazonalidade não tratada).

1a diferença sazonal — Δ₁₂ Yₜ — remove sazonalidade. Sobra deriva/tendência de longo prazo.

Diferença regular + sazonal — Δ Δ₁₂ Yₜ — remove os dois. Oscila em torno de zero com amplitude estável; estacionária.

5. Testes ADF / KPSS & estimativa de ndiffs

Série	ADF stat	ADF p	Veredito ADF	KPSS stat	KPSS p	Veredito KPSS
Nível	-2.187	0.2111	n.estac.	+1.620	0.0100	n.estac.
Δ regular	-5.453	2.62e-06	estac.	+0.271	0.1000	estac.
Δ sazonal	-2.461	0.1253	n.estac.	+0.524	0.0362	n.estac.
Δ regular + sazonal	-6.448	1.55e-08	estac.	+0.055	0.1000	estac.

Estimativa por KPSS sucessivo (analogia ao pmdarima.ndiffs): d = 1 diferença regular e D = 1 diferença sazonal, batendo exatamente com o que o AutoARIMA escolheu adiante

ACF / PACF da série diferenciada (Δ Δ₁₂ Yₜ)

ACF diferenciada — ACF da série já estacionária — usa pra escolher q e Q (componentes MA).

PACF diferenciada — PACF da série já estacionária — usa pra escolher p e P (componentes AR).

6. AutoARIMA(season_length=12)

Ordem

SARIMA(2,1,1)(0,1,1)_12

AICc (statsforecast)

1446.54

AIC (SARIMAX)

1372.01

BIC (SARIMAX)

1389.39

log-lik

-681.00

7. Diagnóstico dos resíduos

Resíduos no tempo — oscilam em torno de zero; outliers visíveis nas crises.

Histograma resíduos — Histograma vs. normal — caudas pesadas e leve assimetria à esquerda.

Q-Q plot — extremos saem da diagonal (S clássico, caudas pesadas).

ACF resíduos — ACF dos resíduos — todas as barras dentro da banda 95%, sem padrão sazonal.

Teste	stat	p-valor	Veredito
Ljung-Box (lag 12)	—	0.3005	OK
Ljung-Box (lag 24)	—	0.5079	OK
Ljung-Box (lag 36)	—	0.6518	OK
ARCH-LM(12)	6.44	0.8925	sem heterocedasticidade
Jarque-Bera	389.9	2.11e-85	NÃO normal — caudas pesadas

8. Forecast 24 meses (IC 80% e 95%)

Horizonte	Data	Previsão	IC 80%	IC 95%	Amplitude IC95%
h+1	2026-03	99.79	[94.51, 105.06]	[91.72, 107.86]	16.14
h+24	2028-02	90.09	[76.74, 103.44]	[69.67, 110.50]	40.83

Razão IC95% h+24 / h+1 ≈ 2.53× — incerteza acumula com horizonte, comportamento esperado.

9. Respostas (análise crítica)

1. O ACF/PACF da série original sugeriu sazonalidade? E tendência? Bate com o que você viu no gráfico de linha?

Sim para os dois. O gráfico de linha do nível mostra uma tendência crescente clara (média sobe de ~50 em 2004 para ~100 em 2022) e oscilações regulares dentro de cada ano com pico em dezembro (efeito Natal).

A ACF do nível confirma isso: as barras decaem muito lentamente (indicando raiz unitária / tendência) com picos visíveis nos lags 12, 24, 36, 48 indicando sazonalidade anual.

A PACF do nível tem um spike enorme no lag 1 (não-estacionária) e quase nada nos demais, mais um indicador de que precisa diferenciar antes de modelar.

Os testes formais batem: ADF no nível p=0.2111 (ou seja, não rejeita H0 de raiz unitária) e KPSS p=0.0100 (rejeita H0 de estacionariedade).

Conclusão: tem tendência, tem sazonalidade, e os 3 ângulos (linha, ACF, PACF, testes) concordam.

2. Quantas diferenças (regular e sazonal) o AutoARIMA aplicou? E os componentes AR/MA? Conseguiu observar isso no ACF/PACF?

O AutoARIMA escolheu SARIMA(2,1,1)(0,1,1)_12, ou seja: d = 1 diferença regular e D = 1 diferença sazonal.

Componentes não-sazonais: p = 2 AR, q = 1 MA. Componentes sazonais: P = 0 SAR, Q = 1 SMA. O d=1, D=1 casa exatamente com a estimativa prévia feita por KPSS sucessivo (ndiffs = 1, nsdiffs = 1) e com a varredura ADF: o nível e a série só com diferença sazonal (d12) ainda não passam no KPSS, mas a série diferenciada nos dois níveis (d1+d12) sim (KPSS p=0.1000, ADF p=1.55e-08).

Na ACF/PACF da série já diferenciada, dá pra ver os picos típicos (lag 1 e lag 12 ≈ MA1 + SMA1), mas o AutoARIMA preferiu adicionar p=2 lags AR.

É possível que haja dependência de curto prazo que sobrou após a diferenciação.

AICc = 1446.54, AIC do SARIMAX reestimado = 1372.01.

3. Os resíduos parecem white noise? Algum padrão remanescente sazonal?

Para autocorrelação, sim: Ljung-Box rejeita H0 só se p<0.05, e em todos os horizontes os p-valores estão folgados.

lag 12: p=0.3005, lag 24: p=0.5079, lag 36: p=0.6518. Ou seja, não parece existir autocorrelação remanescente, inclusive nos lags sazonais (12, 24, 36)

ARCH-LM(12) p=0.8925 indica também ausência de clusters de volatilidade. O ACF dos resíduos confirma visualmente: barras todas dentro da banda de 95%.

O ponto fraco é a normalidade: Jarque-Bera p=2.11e-85 rejeita normalidade com sobra; assimetria = -0.81 (cauda esquerda mais pesada.. talvez sejam choques negativos como 2009 e 2020) e curtose excesso = +6.05 (caudas bem mais pesadas que a normal).

Isso aparece no QQ plot com um "S" de extremos saindo da diagonal.

Os IC 80% e 95% do forecast são otimistas nas caudas e eventos extremos (recessão, choque) caem fora do IC com frequência.

Não há padrão sazonal remanescente, mas os outliers das crises empurram a distribuição, o que aparentemente é comum de acontecer.

4. A previsão pareceu razoável visualmente (captura a sazonalidade, fica bem ancorada no histórico, intervalos abrem muito com o horizonte)?

Aparentemente sim, o forecast captura a sazonalidade. O último observado (2026-02) foi 89.24 (queda sazonal).

A previsão para h+1 (2026-03) é 99.79 (talvez uma subida pós-Carnaval?)

A previsão reproduz razoalvemente bem o ciclo anual: pico em dezembro (2028-02) e vale em fev/mar, exatamente como o observado.

As bandas se abrem como esperado: amplitude do IC 95% em h+1 = 16.14 contra 40.83 em h+24

Uma razão de ~2.5× (o erro de previsão acumula com o horizonte).

Os IC 80% (mais escuro) ficam dentro do IC 95% (mais claro), e as duas faixas abraçam o pico/vale sazonal previstos.

A ressalva é que, dado o JB rejeitando normalidade, os IC podem subestimar choques extremos.

5. Que outras UFs você imagina que dariam um SARIMA bem diferente do seu (e por quê)? Pense em estados de regiões diferentes, com perfil econômico distinto.

Roraima — SARIMA(2,0,1)(0,1,1)_12: o AutoARIMA escolheu d = 0, ou seja, sem diferenciação regular, porque a tendência de Roraima ao longo do período é muito mais fraca / quebrada.

RR é um estado comparativamente pequeno em termos de população, e talvez tenha uma economia menos diversificada e/ou um varejo talvez ,ais sensível a choques locais (logística, isolamento, fronteira venezuelana), o que produz uma série mais estacionária

Distrito Federal — SARIMA(1,1,1)(0,1,2)_12: DF tem a mesma estrutura de diferenciação que SP (d=1, D=1) mas Q = 2, ou seja, dois termos de MA sazonal, com a hipótese de que o varejo do DF seja razoavelmente dominado pelo ciclo do funcionalismo público (13º salário, férias) e o ajuste sazonal precisa de mais lags MA sazonais pra capturar.

De forma geral, esperaria SARIMAs bem diferentes do de SP em: (i) estados do Norte e do Centro-Oeste com economia ligada a commodities (Mato Grosso, Pará), ciclos sazonais ditados pela safra, não pelo Natal; (ii) estados pequenos (AC, AP, RR, TO) com séries mais ruidosas e menos persistência; (iii) economias mais turísticas (Bahia, Ceará, RJ no verão) com sazonalidade de duas pontas (verão + Natal) que pediria modelos com termos sazonais mais ricos.