From 6f2de3c13ddab7567df07230c3bfadf207a82747 Mon Sep 17 00:00:00 2001 From: Sergey Penkovsky Date: Sun, 13 Jul 2025 01:08:37 +0300 Subject: [PATCH] docs(readme): add encode/decode examples and output samples --- README.md | 22 +++++++++++++++++++--- 1 file changed, 19 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index 8ccc306..7929b8a 100644 --- a/README.md +++ b/README.md @@ -36,9 +36,25 @@ text = "мама мыла раму, папа пил какао" bpe = SimpleBPE(vocab_size=50) bpe.fit(text) -# Токенизация -tokens = bpe.tokenize(text) -print(tokens) +# Кодирование/декодирование +encoded = bpe.encode(text) +print(f"Закодировано: {encoded}") + +decoded = bpe.decode(encoded) +print(f"Декодировано: '{decoded}'") +print(f"Совпадение с оригиналом: {text == decoded}") + +# Обработка неизвестных слов +unknown = bpe.encode("неизвестное_слово") +print(f"Неизвестное слово: {unknown}") +``` + +Пример вывода: +``` +Закодировано: [12, 12, 0, 15, 8, 0, 17, 9, 1, 0, 16, 16, 0, 14, 7, 0, 10, 10, 3] +Декодировано: 'мама мыла раму, папа пил какао' +Совпадение с оригиналом: True +Неизвестное слово: [-1, -1, 3, -1, -1, -1, -1, -1, -1, 7, -1, -1, -1, 5, 7, -1, 7] ``` ## Интеграция в проект