Metodologia — VERIFICÁVEL

1. O benchmark

Foram formuladas 13 perguntas objetivas sobre normas brasileiras recentes — súmulas canceladas pelo TST em 2025, a Lei nº 15.270/2025 (IRPF e dividendos), a regulamentação da CBS e os primeiros atos do Comitê Gestor do IBS. São perguntas com resposta única e verificável: uma data, um número de norma, um valor, um “vigente ou cancelada”.

As mesmas perguntas foram feitas, sem nenhum contexto adicional, ao Claude e ao ChatGPT de prateleira. As respostas foram registradas na íntegra e comparadas ao gabarito — que não é opinião nossa: é o conteúdo da própria norma oficial, extraída da fonte .gov.br com hash SHA-256.

Por isso o VERIFICÁVEL acerta 100% por construção: o gabarito É o conteúdo da norma oficial. O ponto do benchmark não é provar que um modelo é “melhor” que outro — é mostrar que nenhum modelo de prateleira, por melhor que seja, conhece normas publicadas depois do seu corte de treinamento. E que ele responde mesmo assim, com confiança.

2. Os vereditos

Cada resposta recebeu um de três vereditos, sempre em relação ao fato central da pergunta:

✅ CORRETO — acerta o fato central sem contradições relevantes com o gabarito.
⚠️ PARCIAL — acerta parte do fato central, mas erra a norma, a data ou um parâmetro relevante; ou se recusa a responder dizendo não saber.
❌ ERRADO — afirma o oposto do gabarito ou cita norma/valores incorretos no ponto central.

A justificativa de cada veredito está publicada, na íntegra, nos cards da página inicial — incluindo os casos em que o modelo acertou (3 acertos do ChatGPT, 0 do Claude). Não escondemos os acertos dos modelos: eles fazem parte do resultado.

3. Resultados, pergunta a pergunta

ID	Pergunta	Claude	ChatGPT	Fonte do gabarito
TRAB-01	A Súmula 437 do TST, sobre intervalo intrajornada, está vigente hoje? Posso citá-la numa petição?	❌ ERRADO	❌ ERRADO	Resolução TST 225/2025
TRAB-02	A Súmula 444 do TST, que valida a jornada 12x36, continua válida?	❌ ERRADO	❌ ERRADO	Resolução TST 225/2025
TRAB-03	A Súmula 277 do TST (ultratividade das normas coletivas) está cancelada ou vigente?	⚠️ PARCIAL	❌ ERRADO	Resolução TST 225/2025
TRAB-04	A partir de que data as empresas brasileiras são obrigadas a cumprir o capítulo 1.5 da NR-01 (gerenciamento de riscos psicossociais)? Dê a data exata.	❌ ERRADO	⚠️ PARCIAL	Portaria MTE 765/2025
IR-01	Em 2026, até qual valor de rendimento mensal a pessoa física fica com IRPF zero no Brasil? Qual lei estabeleceu isso?	⚠️ PARCIAL	✅ CORRETO	Lei 15.270/2025
IR-02	Quem ganha R$ 6.500 por mês em 2026 tem direito a alguma redução de IRPF? Até que valor de renda mensal existe redução parcial?	❌ ERRADO	⚠️ PARCIAL	Lei 15.270/2025, art. 2º
IR-03	Minha empresa vai me distribuir R$ 80.000 de dividendos num único mês de 2026. Há retenção de imposto de renda na fonte sobre esses dividendos?	❌ ERRADO	✅ CORRETO	Lei 15.270/2025
IR-04	O que é a 'tributação mínima' do IRPF criada recentemente no Brasil? A partir de qual valor anual de rendimentos ela se aplica e desde quando?	⚠️ PARCIAL	✅ CORRETO	Lei 15.270/2025
RT-01	Qual decreto regulamentou a CBS (Contribuição sobre Bens e Serviços) e em que data ele foi publicado?	❌ ERRADO	❌ ERRADO	Decreto 12.955/2026
RT-02	O que é a Lei Complementar 227 e o que ela fez com o Comitê Gestor do IBS? De quando ela é?	⚠️ PARCIAL	⚠️ PARCIAL	LC 227/2026 (via Resolução CSIBS 1/2026 e LC 214 compilada)
RT-03	Quais comissões de trabalho transitórias o Conselho Superior do CGIBS instituiu em fevereiro de 2026, e por qual resolução?	⚠️ PARCIAL	⚠️ PARCIAL	Resolução CSIBS 1/2026
TRAB-05	A Súmula 90 do TST, sobre horas in itinere, ainda pode ser usada como fundamento em reclamação trabalhista?	❌ ERRADO	❌ ERRADO	Resolução TST 225/2025
RT-04	Existe alguma norma conjunta da Receita Federal com o Comitê Gestor do IBS sobre as obrigações acessórias de IBS/CBS em 2026? Qual?	⚠️ PARCIAL	❌ ERRADO	Ato Conjunto RFB/CGIBS 1/2025

4. A cadeia de custódia

Toda resposta do VERIFICÁVEL nasce de um processo fixo, auditável de ponta a ponta:

Origem oficial. A norma é baixada diretamente do domínio oficial — Planalto, TST, MTE, Receita Federal, CGIBS. Nunca de fonte secundária.
Hash na origem. No momento da extração, calcula-se o SHA-256 do documento oficial — a impressão digital criptográfica daquele conteúdo exato, naquela data.
Fragmentação citável. O texto é dividido em trechos (shards) ancorados em artigo e norma, cada um carregando a referência à fonte e ao hash.
Resposta com recibo. Quando o seu assistente consulta a base, a resposta vem com o trecho da norma, o artigo, o link da fonte oficial, a data de extração e o hash truncado — um recibo que qualquer pessoa pode conferir recalculando o SHA-256 do documento público.
Atualização diária. O corpus é reconstruído diariamente contra as fontes oficiais, com troca atômica da base: ou a versão nova inteira, ou a anterior. Nunca um estado intermediário.

E o veredito é binário e honesto: EVIDENCIA_ENCONTRADA quando há base normativa para a resposta, SEM_EVIDENCIA quando não há. O sistema não interpola, não extrapola e não “acha provável”.

Estado atual do corpus: atualizado em 10/06 · 843 normas · 10.893 shards.

5. Limites — ditos com todas as letras

O benchmark mede conhecimento de normas recentes, não capacidade geral de raciocínio jurídico. Os modelos testados são excelentes em muitas outras tarefas.
O VERIFICÁVEL responde sobre o que está no corpus. Fora dele, a resposta é SEM_EVIDENCIA — por desenho.
O VERIFICÁVEL é ferramenta de pesquisa regulatória. Ele entrega a norma, a fonte e o hash; a avaliação jurídica do caso concreto continua sendo de advogado ou contador habilitado.