Documento de metodologia

Como chegamos a 13/13 — e por que isso não é mágica

Esta página documenta o benchmark exibido na página inicial e a cadeia de custódia que sustenta cada resposta do VERIFICÁVEL. Sem retórica: o desenho do teste, os critérios de veredito e os limites.

1. O benchmark

Foram formuladas 13 perguntas objetivas sobre normas brasileiras recentes — súmulas canceladas pelo TST em 2025, a Lei nº 15.270/2025 (IRPF e dividendos), a regulamentação da CBS e os primeiros atos do Comitê Gestor do IBS. São perguntas com resposta única e verificável: uma data, um número de norma, um valor, um “vigente ou cancelada”.

As mesmas perguntas foram feitas, sem nenhum contexto adicional, ao Claude e ao ChatGPT de prateleira. As respostas foram registradas na íntegra e comparadas ao gabarito — que não é opinião nossa: é o conteúdo da própria norma oficial, extraída da fonte .gov.br com hash SHA-256.

Por isso o VERIFICÁVEL acerta 100% por construção: o gabarito É o conteúdo da norma oficial. O ponto do benchmark não é provar que um modelo é “melhor” que outro — é mostrar que nenhum modelo de prateleira, por melhor que seja, conhece normas publicadas depois do seu corte de treinamento. E que ele responde mesmo assim, com confiança.

2. Os vereditos

Cada resposta recebeu um de três vereditos, sempre em relação ao fato central da pergunta:

  • ✅ CORRETO — acerta o fato central sem contradições relevantes com o gabarito.
  • ⚠️ PARCIAL — acerta parte do fato central, mas erra a norma, a data ou um parâmetro relevante; ou se recusa a responder dizendo não saber.
  • ❌ ERRADO — afirma o oposto do gabarito ou cita norma/valores incorretos no ponto central.

A justificativa de cada veredito está publicada, na íntegra, nos cards da página inicial — incluindo os casos em que o modelo acertou (3 acertos do ChatGPT, 0 do Claude). Não escondemos os acertos dos modelos: eles fazem parte do resultado.

3. Resultados, pergunta a pergunta

ID Pergunta Claude ChatGPT Fonte do gabarito
TRAB-01 A Súmula 437 do TST, sobre intervalo intrajornada, está vigente hoje? Posso citá-la numa petição? ❌ ERRADO ❌ ERRADO Resolução TST 225/2025
TRAB-02 A Súmula 444 do TST, que valida a jornada 12x36, continua válida? ❌ ERRADO ❌ ERRADO Resolução TST 225/2025
TRAB-03 A Súmula 277 do TST (ultratividade das normas coletivas) está cancelada ou vigente? ⚠️ PARCIAL ❌ ERRADO Resolução TST 225/2025
TRAB-04 A partir de que data as empresas brasileiras são obrigadas a cumprir o capítulo 1.5 da NR-01 (gerenciamento de riscos psicossociais)? Dê a data exata. ❌ ERRADO ⚠️ PARCIAL Portaria MTE 765/2025
IR-01 Em 2026, até qual valor de rendimento mensal a pessoa física fica com IRPF zero no Brasil? Qual lei estabeleceu isso? ⚠️ PARCIAL ✅ CORRETO Lei 15.270/2025
IR-02 Quem ganha R$ 6.500 por mês em 2026 tem direito a alguma redução de IRPF? Até que valor de renda mensal existe redução parcial? ❌ ERRADO ⚠️ PARCIAL Lei 15.270/2025, art. 2º
IR-03 Minha empresa vai me distribuir R$ 80.000 de dividendos num único mês de 2026. Há retenção de imposto de renda na fonte sobre esses dividendos? ❌ ERRADO ✅ CORRETO Lei 15.270/2025
IR-04 O que é a 'tributação mínima' do IRPF criada recentemente no Brasil? A partir de qual valor anual de rendimentos ela se aplica e desde quando? ⚠️ PARCIAL ✅ CORRETO Lei 15.270/2025
RT-01 Qual decreto regulamentou a CBS (Contribuição sobre Bens e Serviços) e em que data ele foi publicado? ❌ ERRADO ❌ ERRADO Decreto 12.955/2026
RT-02 O que é a Lei Complementar 227 e o que ela fez com o Comitê Gestor do IBS? De quando ela é? ⚠️ PARCIAL ⚠️ PARCIAL LC 227/2026 (via Resolução CSIBS 1/2026 e LC 214 compilada)
RT-03 Quais comissões de trabalho transitórias o Conselho Superior do CGIBS instituiu em fevereiro de 2026, e por qual resolução? ⚠️ PARCIAL ⚠️ PARCIAL Resolução CSIBS 1/2026
TRAB-05 A Súmula 90 do TST, sobre horas in itinere, ainda pode ser usada como fundamento em reclamação trabalhista? ❌ ERRADO ❌ ERRADO Resolução TST 225/2025
RT-04 Existe alguma norma conjunta da Receita Federal com o Comitê Gestor do IBS sobre as obrigações acessórias de IBS/CBS em 2026? Qual? ⚠️ PARCIAL ❌ ERRADO Ato Conjunto RFB/CGIBS 1/2025

4. A cadeia de custódia

Toda resposta do VERIFICÁVEL nasce de um processo fixo, auditável de ponta a ponta:

  1. Origem oficial. A norma é baixada diretamente do domínio oficial — Planalto, TST, MTE, Receita Federal, CGIBS. Nunca de fonte secundária.
  2. Hash na origem. No momento da extração, calcula-se o SHA-256 do documento oficial — a impressão digital criptográfica daquele conteúdo exato, naquela data.
  3. Fragmentação citável. O texto é dividido em trechos (shards) ancorados em artigo e norma, cada um carregando a referência à fonte e ao hash.
  4. Resposta com recibo. Quando o seu assistente consulta a base, a resposta vem com o trecho da norma, o artigo, o link da fonte oficial, a data de extração e o hash truncado — um recibo que qualquer pessoa pode conferir recalculando o SHA-256 do documento público.
  5. Atualização diária. O corpus é reconstruído diariamente contra as fontes oficiais, com troca atômica da base: ou a versão nova inteira, ou a anterior. Nunca um estado intermediário.

E o veredito é binário e honesto: EVIDENCIA_ENCONTRADA quando há base normativa para a resposta, SEM_EVIDENCIA quando não há. O sistema não interpola, não extrapola e não “acha provável”.

Estado atual do corpus: atualizado em 10/06 · 843 normas · 10.893 shards.

5. Limites — ditos com todas as letras

  • O benchmark mede conhecimento de normas recentes, não capacidade geral de raciocínio jurídico. Os modelos testados são excelentes em muitas outras tarefas.
  • O VERIFICÁVEL responde sobre o que está no corpus. Fora dele, a resposta é SEM_EVIDENCIA — por desenho.
  • O VERIFICÁVEL é ferramenta de pesquisa regulatória. Ele entrega a norma, a fonte e o hash; a avaliação jurídica do caso concreto continua sendo de advogado ou contador habilitado.