doc: update bpe algorithm

2026-01-23 21:14:17 +00:00 · 2025-07-12 11:19:54 +03:00
parent 362a7483e6
commit 26f173cc16
1 changed files with 77 additions and 0 deletions
--- a/doc/bpe_algorithm.md
+++ b/doc/bpe_algorithm.md
@@ -117,6 +117,83 @@ def train_bpe(text, vocab_size):
 **Результирующий словарь** (частично):
 ['м', 'а', ' ', 'ы', 'л', 'р', 'у', 'ма', 'ма ', 'мы']
 ## Алгоритм энкодинга (токенизации)
 После обучения BPE-модели (создания словаря), энкодинг текста происходит по следующему алгоритму:
 ```mermaid
 graph TD
    A[Начало] --> B[Разбить текст на символы]
    B --> C[Инициализировать пустой список токенов]
    C --> D[Установить i=0 'начало последовательности']
    D --> E{i < длины текста?}
    E -->|Нет| F[Заменить токены на их ID]
    E -->|Да| G[Найти все токены в словаре, начинающиеся с text_i]
    G --> H[Выбрать самый длинный подходящий токен]
    H --> I[Добавить токен в результат]
    I --> J[Увеличить i на длину токена]
    J --> E
    F --> K[Конец]
 ```
 Пошаговое описание:
 1. **Инициализация**:
   - Исходный текст разбивается на символы
   - Создается пустой список для результата
   - Указатель `i` устанавливается в 0
 2. **Основной цикл**:
   - Для текущей позиции `i` находим все токены в словаре, которые:
     - Начинаются с символа `text[i]`
     - Совпадают с подстрокой `text[i:i+len(token)]`
   - Из подходящих токенов выбираем самый длинный
   - Добавляем найденный токен в результат
   - Сдвигаем указатель `i` на длину добавленного токена
 3. **Завершение**:
   - Когда весь текст обработан, заменяем токены на их ID из словаря
 Пример:
 ```python
 Словарь: ['ма', 'мама', ' ', 'мыл', 'а', 'раму']
 Текст: "мама мыла раму"
 Энкодинг:
 1. Находим самый длинный токен, начинающийся с 'м' -> 'мама'
 2. Добавляем 'мама', i += 4
 3. Токен ' ' (пробел), i += 1
 4. Токен 'мыл', i += 3
 5. Токен 'а', i += 1
 6. Токен ' ', i += 1
 7. Токен 'раму', i += 4
 Результат: ['мама', ' ', 'мыл', 'а', ' ', 'раму']
 ```
 ## Алгоритм декодирования
 ### Принцип работы
 1. Преобразование списка ID обратно в текст
 2. Замена каждого ID на соответствующий токен
 3. Обработка неизвестных ID (`[UNK]`)
 ```mermaid
 flowchart TD
    A[Список ID] --> B{ID ∈ словарь?}
    B -->|Да| C[Добавить токен]
    B -->|Нет| D[Добавить UNK]
    C --> E[Следующий ID]
    D --> E
    E --> F{Конец списка?}
    F -->|Нет| B
    F -->|Да| G[Объединить токены]
 ```
 Пример:
 ```python
 decode([0,1,2]) → "абра"  # Для словаря {0:"а", 1:"б", 2:"ра"}
 ```
 ## Применение в языковых моделях
 1. Эффективное представление редких слов