Документация и примеры: унификация путей, стабильная работа на CPU, расширенный корпус для токенизатора, end-to-end пайплайн обучения и генерации. Исправлены все ошибки с устройствами и индексами, добавлены проверки и диагностика prompt.

This commit is contained in:
Sergey Penkovsky
2025-07-23 14:34:10 +03:00
parent a895c59bfe
commit e0813fedc6
22 changed files with 768 additions and 93 deletions

View File

@@ -1,5 +1,26 @@
# Byte Pair Encoding (BPE) Algorithm
> **Документ актуален для Simple-LLM v1.0 (июль 2025)**
---
**Краткое summary:**
Этот документ подробно описывает алгоритм Byte Pair Encoding (BPE) — как он используется для токенизации текста, как устроен процесс обучения словаря и как происходит энкодинг/декодинг текста. Документ предназначен для пользователей Simple-LLM и всех, кто хочет понять внутреннюю механику BPE.
---
**Структура документа:**
- Введение
- Основные понятия
- Алгоритм работы (обучение словаря)
- Псевдокод
- Пример работы
- Алгоритм энкодинга (токенизации)
- Алгоритм декодирования
- Типовые ошибки и их решения
---
## Введение
Byte Pair Encoding (BPE) - это алгоритм компрессии данных, адаптированный для токенизации текста в обработке естественного языка. В контексте языковых моделей BPE используется для создания эффективного словаря подстрок (токенов).