mirror of
https://github.com/pese-git/simple-llm.git
synced 2026-01-23 21:14:17 +00:00
Документация и примеры: унификация путей, стабильная работа на CPU, расширенный корпус для токенизатора, end-to-end пайплайн обучения и генерации. Исправлены все ошибки с устройствами и индексами, добавлены проверки и диагностика prompt.
This commit is contained in:
@@ -1,5 +1,26 @@
|
||||
# Byte Pair Encoding (BPE) Algorithm
|
||||
|
||||
> **Документ актуален для Simple-LLM v1.0 (июль 2025)**
|
||||
|
||||
---
|
||||
|
||||
**Краткое summary:**
|
||||
Этот документ подробно описывает алгоритм Byte Pair Encoding (BPE) — как он используется для токенизации текста, как устроен процесс обучения словаря и как происходит энкодинг/декодинг текста. Документ предназначен для пользователей Simple-LLM и всех, кто хочет понять внутреннюю механику BPE.
|
||||
|
||||
---
|
||||
|
||||
**Структура документа:**
|
||||
- Введение
|
||||
- Основные понятия
|
||||
- Алгоритм работы (обучение словаря)
|
||||
- Псевдокод
|
||||
- Пример работы
|
||||
- Алгоритм энкодинга (токенизации)
|
||||
- Алгоритм декодирования
|
||||
- Типовые ошибки и их решения
|
||||
|
||||
---
|
||||
|
||||
## Введение
|
||||
|
||||
Byte Pair Encoding (BPE) - это алгоритм компрессии данных, адаптированный для токенизации текста в обработке естественного языка. В контексте языковых моделей BPE используется для создания эффективного словаря подстрок (токенов).
|
||||
|
||||
Reference in New Issue
Block a user