Lab 1 — Financial Analytics SARIMA do volume do varejo (PMC/IBGE) — UF: São Paulo
1. Dados & UF escolhida
UF: São Paulo
2. Análise descritiva (linha, ACF, PACF)
3. Decomposição STL
4. Diferenciação
5. Testes ADF / KPSS & estimativa de ndiffs
| Série | ADF stat | ADF p | Veredito ADF | KPSS stat | KPSS p | Veredito KPSS |
|---|---|---|---|---|---|---|
| Nível | -2.187 | 0.2111 | n.estac. | +1.620 | 0.0100 | n.estac. |
| Δ regular | -5.453 | 2.62e-06 | estac. | +0.271 | 0.1000 | estac. |
| Δ sazonal | -2.461 | 0.1253 | n.estac. | +0.524 | 0.0362 | n.estac. |
| Δ regular + sazonal | -6.448 | 1.55e-08 | estac. | +0.055 | 0.1000 | estac. |
Estimativa por KPSS sucessivo (analogia ao pmdarima.ndiffs):
d = 1 diferença regular e
D = 1 diferença sazonal, batendo exatamente com o que o
AutoARIMA escolheu adiante
ACF / PACF da série diferenciada (Δ Δ₁₂ Yₜ)
6. AutoARIMA(season_length=12)
7. Diagnóstico dos resíduos
| Teste | stat | p-valor | Veredito |
|---|---|---|---|
| Ljung-Box (lag 12) | — | 0.3005 | OK |
| Ljung-Box (lag 24) | — | 0.5079 | OK |
| Ljung-Box (lag 36) | — | 0.6518 | OK |
| ARCH-LM(12) | 6.44 | 0.8925 | sem heterocedasticidade |
| Jarque-Bera | 389.9 | 2.11e-85 | NÃO normal — caudas pesadas |
8. Forecast 24 meses (IC 80% e 95%)
| Horizonte | Data | Previsão | IC 80% | IC 95% | Amplitude IC95% |
|---|---|---|---|---|---|
| h+1 | 2026-03 | 99.79 | [94.51, 105.06] | [91.72, 107.86] | 16.14 |
| h+24 | 2028-02 | 90.09 | [76.74, 103.44] | [69.67, 110.50] | 40.83 |
Razão IC95% h+24 / h+1 ≈ 2.53× — incerteza acumula com horizonte, comportamento esperado.
9. Respostas (análise crítica)
Sim para os dois. O gráfico de linha do nível mostra uma tendência crescente clara (média sobe de ~50 em 2004 para ~100 em 2022) e oscilações regulares dentro de cada ano com pico em dezembro (efeito Natal).
A ACF do nível confirma isso: as barras decaem muito lentamente (indicando raiz unitária / tendência) com picos visíveis nos lags 12, 24, 36, 48 indicando sazonalidade anual.
A PACF do nível tem um spike enorme no lag 1 (não-estacionária) e quase nada nos demais, mais um indicador de que precisa diferenciar antes de modelar.
Os testes formais batem: ADF no nível p=0.2111 (ou seja, não rejeita H0 de raiz unitária) e KPSS p=0.0100 (rejeita H0 de estacionariedade).
Conclusão: tem tendência, tem sazonalidade, e os 3 ângulos (linha, ACF, PACF, testes) concordam.
O AutoARIMA escolheu SARIMA(2,1,1)(0,1,1)_12, ou seja: d = 1 diferença regular e D = 1 diferença sazonal.
Componentes não-sazonais: p = 2 AR, q = 1 MA. Componentes sazonais: P = 0 SAR, Q = 1 SMA. O d=1, D=1 casa exatamente com a estimativa prévia feita por KPSS sucessivo (ndiffs = 1, nsdiffs = 1) e com a varredura ADF: o nível e a série só com diferença sazonal (d12) ainda não passam no KPSS, mas a série diferenciada nos dois níveis (d1+d12) sim (KPSS p=0.1000, ADF p=1.55e-08).
Na ACF/PACF da série já diferenciada, dá pra ver os picos típicos (lag 1 e lag 12 ≈ MA1 + SMA1), mas o AutoARIMA preferiu adicionar p=2 lags AR.
É possível que haja dependência de curto prazo que sobrou após a diferenciação.
AICc = 1446.54, AIC do SARIMAX reestimado = 1372.01.
Para autocorrelação, sim: Ljung-Box rejeita H0 só se p<0.05, e em todos os horizontes os p-valores estão folgados.
lag 12: p=0.3005, lag 24: p=0.5079, lag 36: p=0.6518. Ou seja, não parece existir autocorrelação remanescente, inclusive nos lags sazonais (12, 24, 36)
ARCH-LM(12) p=0.8925 indica também ausência de clusters de volatilidade. O ACF dos resíduos confirma visualmente: barras todas dentro da banda de 95%.
O ponto fraco é a normalidade: Jarque-Bera p=2.11e-85 rejeita normalidade com sobra; assimetria = -0.81 (cauda esquerda mais pesada.. talvez sejam choques negativos como 2009 e 2020) e curtose excesso = +6.05 (caudas bem mais pesadas que a normal).
Isso aparece no QQ plot com um "S" de extremos saindo da diagonal.
Os IC 80% e 95% do forecast são otimistas nas caudas e eventos extremos (recessão, choque) caem fora do IC com frequência.
Não há padrão sazonal remanescente, mas os outliers das crises empurram a distribuição, o que aparentemente é comum de acontecer.
Aparentemente sim, o forecast captura a sazonalidade. O último observado (2026-02) foi 89.24 (queda sazonal).
A previsão para h+1 (2026-03) é 99.79 (talvez uma subida pós-Carnaval?)
A previsão reproduz razoalvemente bem o ciclo anual: pico em dezembro (2028-02) e vale em fev/mar, exatamente como o observado.
As bandas se abrem como esperado: amplitude do IC 95% em h+1 = 16.14 contra 40.83 em h+24
Uma razão de ~2.5× (o erro de previsão acumula com o horizonte).
Os IC 80% (mais escuro) ficam dentro do IC 95% (mais claro), e as duas faixas abraçam o pico/vale sazonal previstos.
A ressalva é que, dado o JB rejeitando normalidade, os IC podem subestimar choques extremos.
Roraima — SARIMA(2,0,1)(0,1,1)_12: o AutoARIMA escolheu d = 0, ou seja, sem diferenciação regular, porque a tendência de Roraima ao longo do período é muito mais fraca / quebrada.
RR é um estado comparativamente pequeno em termos de população, e talvez tenha uma economia menos diversificada e/ou um varejo talvez ,ais sensível a choques locais (logística, isolamento, fronteira venezuelana), o que produz uma série mais estacionária
Distrito Federal — SARIMA(1,1,1)(0,1,2)_12: DF tem a mesma estrutura de diferenciação que SP (d=1, D=1) mas Q = 2, ou seja, dois termos de MA sazonal, com a hipótese de que o varejo do DF seja razoavelmente dominado pelo ciclo do funcionalismo público (13º salário, férias) e o ajuste sazonal precisa de mais lags MA sazonais pra capturar.
De forma geral, esperaria SARIMAs bem diferentes do de SP em: (i) estados do Norte e do Centro-Oeste com economia ligada a commodities (Mato Grosso, Pará), ciclos sazonais ditados pela safra, não pelo Natal; (ii) estados pequenos (AC, AP, RR, TO) com séries mais ruidosas e menos persistência; (iii) economias mais turísticas (Bahia, Ceará, RJ no verão) com sazonalidade de duas pontas (verão + Natal) que pediria modelos com termos sazonais mais ricos.