docs(readme): add encode/decode examples and output samples

This commit is contained in:
Sergey Penkovsky
2025-07-13 01:08:37 +03:00
parent 6d746a960e
commit 6f2de3c13d

View File

@@ -36,9 +36,25 @@ text = "мама мыла раму, папа пил какао"
bpe = SimpleBPE(vocab_size=50)
bpe.fit(text)
# Токенизация
tokens = bpe.tokenize(text)
print(tokens)
# Кодирование/декодирование
encoded = bpe.encode(text)
print(f"Закодировано: {encoded}")
decoded = bpe.decode(encoded)
print(f"Декодировано: '{decoded}'")
print(f"Совпадение с оригиналом: {text == decoded}")
# Обработка неизвестных слов
unknown = bpe.encode(еизвестное_слово")
print(f"Неизвестное слово: {unknown}")
```
Пример вывода:
```
Закодировано: [12, 12, 0, 15, 8, 0, 17, 9, 1, 0, 16, 16, 0, 14, 7, 0, 10, 10, 3]
Декодировано: 'мама мыла раму, папа пил какао'
Совпадение с оригиналом: True
Неизвестное слово: [-1, -1, 3, -1, -1, -1, -1, -1, -1, 7, -1, -1, -1, 5, 7, -1, 7]
```
## Интеграция в проект