diff --git a/README.md b/README.md index 8ccc306..7929b8a 100644 --- a/README.md +++ b/README.md @@ -36,9 +36,25 @@ text = "мама мыла раму, папа пил какао" bpe = SimpleBPE(vocab_size=50) bpe.fit(text) -# Токенизация -tokens = bpe.tokenize(text) -print(tokens) +# Кодирование/декодирование +encoded = bpe.encode(text) +print(f"Закодировано: {encoded}") + +decoded = bpe.decode(encoded) +print(f"Декодировано: '{decoded}'") +print(f"Совпадение с оригиналом: {text == decoded}") + +# Обработка неизвестных слов +unknown = bpe.encode("неизвестное_слово") +print(f"Неизвестное слово: {unknown}") +``` + +Пример вывода: +``` +Закодировано: [12, 12, 0, 15, 8, 0, 17, 9, 1, 0, 16, 16, 0, 14, 7, 0, 10, 10, 3] +Декодировано: 'мама мыла раму, папа пил какао' +Совпадение с оригиналом: True +Неизвестное слово: [-1, -1, 3, -1, -1, -1, -1, -1, -1, 7, -1, -1, -1, 5, 7, -1, 7] ``` ## Интеграция в проект