mirror of
https://github.com/pese-git/simple-llm.git
synced 2026-01-23 21:14:17 +00:00
docs(readme): add encode/decode examples and output samples
This commit is contained in:
22
README.md
22
README.md
@@ -36,9 +36,25 @@ text = "мама мыла раму, папа пил какао"
|
|||||||
bpe = SimpleBPE(vocab_size=50)
|
bpe = SimpleBPE(vocab_size=50)
|
||||||
bpe.fit(text)
|
bpe.fit(text)
|
||||||
|
|
||||||
# Токенизация
|
# Кодирование/декодирование
|
||||||
tokens = bpe.tokenize(text)
|
encoded = bpe.encode(text)
|
||||||
print(tokens)
|
print(f"Закодировано: {encoded}")
|
||||||
|
|
||||||
|
decoded = bpe.decode(encoded)
|
||||||
|
print(f"Декодировано: '{decoded}'")
|
||||||
|
print(f"Совпадение с оригиналом: {text == decoded}")
|
||||||
|
|
||||||
|
# Обработка неизвестных слов
|
||||||
|
unknown = bpe.encode("неизвестное_слово")
|
||||||
|
print(f"Неизвестное слово: {unknown}")
|
||||||
|
```
|
||||||
|
|
||||||
|
Пример вывода:
|
||||||
|
```
|
||||||
|
Закодировано: [12, 12, 0, 15, 8, 0, 17, 9, 1, 0, 16, 16, 0, 14, 7, 0, 10, 10, 3]
|
||||||
|
Декодировано: 'мама мыла раму, папа пил какао'
|
||||||
|
Совпадение с оригиналом: True
|
||||||
|
Неизвестное слово: [-1, -1, 3, -1, -1, -1, -1, -1, -1, 7, -1, -1, -1, 5, 7, -1, 7]
|
||||||
```
|
```
|
||||||
|
|
||||||
## Интеграция в проект
|
## Интеграция в проект
|
||||||
|
|||||||
Reference in New Issue
Block a user