mirror of
https://github.com/pese-git/simple-llm.git
synced 2026-01-23 21:14:17 +00:00
docs(readme): add encode/decode examples and output samples
This commit is contained in:
22
README.md
22
README.md
@@ -36,9 +36,25 @@ text = "мама мыла раму, папа пил какао"
|
||||
bpe = SimpleBPE(vocab_size=50)
|
||||
bpe.fit(text)
|
||||
|
||||
# Токенизация
|
||||
tokens = bpe.tokenize(text)
|
||||
print(tokens)
|
||||
# Кодирование/декодирование
|
||||
encoded = bpe.encode(text)
|
||||
print(f"Закодировано: {encoded}")
|
||||
|
||||
decoded = bpe.decode(encoded)
|
||||
print(f"Декодировано: '{decoded}'")
|
||||
print(f"Совпадение с оригиналом: {text == decoded}")
|
||||
|
||||
# Обработка неизвестных слов
|
||||
unknown = bpe.encode("неизвестное_слово")
|
||||
print(f"Неизвестное слово: {unknown}")
|
||||
```
|
||||
|
||||
Пример вывода:
|
||||
```
|
||||
Закодировано: [12, 12, 0, 15, 8, 0, 17, 9, 1, 0, 16, 16, 0, 14, 7, 0, 10, 10, 3]
|
||||
Декодировано: 'мама мыла раму, папа пил какао'
|
||||
Совпадение с оригиналом: True
|
||||
Неизвестное слово: [-1, -1, 3, -1, -1, -1, -1, -1, -1, 7, -1, -1, -1, 5, 7, -1, 7]
|
||||
```
|
||||
|
||||
## Интеграция в проект
|
||||
|
||||
Reference in New Issue
Block a user