PLVRS.
dcnr d plvrs cmprmds / br
vol. 01 — ed. d hj — — — — — br · pt-br · static edition

PLVRS.

dcnr d pt-br cmprmd
§ 01

Conversor

digite, cole, ou clique num exemplo. converte ao vivo, sem botão de submit.
português
caracteres0
comprimido
caracteres0
compressão
0%
0 caracteres a menos
exemplos →
carregando regras…
§ 02

Dicionário

busca ignora acento. chunks são carregados por letra inicial.
prévia editorial do léxico chunk: prévia
pronto para buscar.
§ 03

Estatísticas

o que o corpus inteiro diz sobre como a gente escreve em chat.
caracteres poupados, no agregado
soma total da economia produzida pelo léxico inteiro.
verbetes no dicionário
português indexado por letra inicial e carregado sob demanda no browser.
compressão média
quanto o conjunto inteiro encolhe com a heurística atual.
atalhos manuais
palavras e expressões fixas preservadas por uso real de chat.
tamanho dos dados
44mb
26 chunks de `a` a `z`, mais metadados e regras de frase.
como cada verbete foi comprimido
as maiores economias do dicionário
distribuição por letra inicial
letras iniciais mais frequentes sobem; letras raras ficam achatadas no fim da escala.
§ 04

Método & transparência

sem backend, sem ml, com prioridade de leitura para o uso real de chat. só regra e corpus.

Como a compressão funciona

Toda palavra passa primeiro pela tabela de atalhos manuais. Hoje ela contém 0 regras fixas entre palavras e expressões.

Fora disso, a heurística atual tenta a menor forma direta possível, misturando cortes curtos, bordas, consoantes e prefixos antes de desistir da compressão.

Quando duas palavras caem na mesma forma, o sistema escolhe um vencedor para o atalho curto e empurra as outras para candidatos maiores, usando um ranking leve de uso para favorecer palavras mais frequentes, e sempre sem deixar uma palavra tomar o original canônico de outra.

Acentos são ignorados na resolução do conversor. Isso evita bugs artificiais entre pares como manda / mandá e faz o sistema escolher uma forma canônica estável.

Atalhos manuais

Princípios

i.

Prioridade de leitura

quase todo atalho continua único; em exceções raras, uma forma muito comum de chat pode vencer um verbete literal raro.

ii.

Compressão máxima útil

o objetivo não é só ficar bonito; é reduzir o texto o máximo possível sem transformar a leitura em charada.

iii.

Uso real de chat

abreviações manuais entram porque já circulam em uso cotidiano, não porque a interface resolveu inventá-las.

Pipeline atual