Documento de metodologia
Como chegamos a 13/13 — e por que isso não é mágica
Esta página documenta o benchmark exibido na página inicial e a cadeia de custódia que sustenta cada resposta do VERIFICÁVEL. Sem retórica: o desenho do teste, os critérios de veredito e os limites.
1. O benchmark
Foram formuladas 13 perguntas objetivas sobre normas brasileiras recentes — súmulas canceladas pelo TST em 2025, a Lei nº 15.270/2025 (IRPF e dividendos), a regulamentação da CBS e os primeiros atos do Comitê Gestor do IBS. São perguntas com resposta única e verificável: uma data, um número de norma, um valor, um “vigente ou cancelada”.
As mesmas perguntas foram feitas, sem nenhum contexto adicional, ao Claude e ao ChatGPT de prateleira. As respostas foram registradas na íntegra e comparadas ao gabarito — que não é opinião nossa: é o conteúdo da própria norma oficial, extraída da fonte .gov.br com hash SHA-256.
Por isso o VERIFICÁVEL acerta 100% por construção: o gabarito É o conteúdo da norma oficial. O ponto do benchmark não é provar que um modelo é “melhor” que outro — é mostrar que nenhum modelo de prateleira, por melhor que seja, conhece normas publicadas depois do seu corte de treinamento. E que ele responde mesmo assim, com confiança.
2. Os vereditos
Cada resposta recebeu um de três vereditos, sempre em relação ao fato central da pergunta:
- ✅ CORRETO — acerta o fato central sem contradições relevantes com o gabarito.
- ⚠️ PARCIAL — acerta parte do fato central, mas erra a norma, a data ou um parâmetro relevante; ou se recusa a responder dizendo não saber.
- ❌ ERRADO — afirma o oposto do gabarito ou cita norma/valores incorretos no ponto central.
A justificativa de cada veredito está publicada, na íntegra, nos cards da página inicial — incluindo os casos em que o modelo acertou (3 acertos do ChatGPT, 0 do Claude). Não escondemos os acertos dos modelos: eles fazem parte do resultado.
3. Resultados, pergunta a pergunta
4. A cadeia de custódia
Toda resposta do VERIFICÁVEL nasce de um processo fixo, auditável de ponta a ponta:
- Origem oficial. A norma é baixada diretamente do domínio oficial — Planalto, TST, MTE, Receita Federal, CGIBS. Nunca de fonte secundária.
- Hash na origem. No momento da extração, calcula-se o SHA-256 do documento oficial — a impressão digital criptográfica daquele conteúdo exato, naquela data.
- Fragmentação citável. O texto é dividido em trechos (shards) ancorados em artigo e norma, cada um carregando a referência à fonte e ao hash.
- Resposta com recibo. Quando o seu assistente consulta a base, a resposta vem com o trecho da norma, o artigo, o link da fonte oficial, a data de extração e o hash truncado — um recibo que qualquer pessoa pode conferir recalculando o SHA-256 do documento público.
- Atualização diária. O corpus é reconstruído diariamente contra as fontes oficiais, com troca atômica da base: ou a versão nova inteira, ou a anterior. Nunca um estado intermediário.
E o veredito é binário e honesto: EVIDENCIA_ENCONTRADA quando há base normativa para a resposta, SEM_EVIDENCIA quando não há. O sistema não interpola, não extrapola e não “acha provável”.
Estado atual do corpus: atualizado em 10/06 · 843 normas · 10.893 shards.
5. Limites — ditos com todas as letras
- O benchmark mede conhecimento de normas recentes, não capacidade geral de raciocínio jurídico. Os modelos testados são excelentes em muitas outras tarefas.
- O VERIFICÁVEL responde sobre o que está no corpus. Fora dele, a resposta é SEM_EVIDENCIA — por desenho.
- O VERIFICÁVEL é ferramenta de pesquisa regulatória. Ele entrega a norma, a fonte e o hash; a avaliação jurídica do caso concreto continua sendo de advogado ou contador habilitado.