# Документация по GPT модели (рус)

## 1. Общее описание
GPT (Generative Pre-trained Transformer) - это архитектура трансформера для генерации текста, основанная на механизме внимания.

**Основные характеристики:**
- Авторегрессивная генерация
- Многослойный декодер
- Самовнимание с маской

## 2. Алгоритм работы

### 2.1 Архитектура
```mermaid
graph TD
    A[Входные токены] --> B[Токенные эмбеддинги]
    A --> C[Позиционные эмбеддинги]
    B --> D[Сумма эмбеддингов]
    C --> D
    D --> E[Слой нормализации]
    E --> F[Многоголовое внимание]
    F --> G[Пропускная связь]
    G --> H[FeedForward слой]
    H --> I[Слой нормализации]
    I --> J[Выходные логиты]
```

### 2.2 Процесс генерации
1. Токенизация входного текста
2. Вычисление эмбеддингов:
   - Токенные + позиционные
3. Прохождение через N декодеров:
   - Самовнимание с маской
   - Полносвязные слои
4. Преобразование в вероятности
5. Выбор следующего токена

## 3. Использование

### 3.1 Инициализация
```python
from simple_llm.transformer.gpt import GPT

model = GPT(
    vocab_size=10000,
    max_seq_len=512,
    emb_size=768,
    num_heads=12,
    head_size=64,
    num_layers=6
)
```

### 3.2 Генерация текста
```python
output = model.generate(input_ids, max_new_tokens=50)
```

## 4. Гиперпараметры

| Параметр       | Описание                          |
|----------------|-----------------------------------|
| vocab_size     | Размер словаря                   |
| max_seq_len    | Макс. длина последовательности   |
| emb_size       | Размерность эмбеддингов          |
| num_heads      | Количество голов внимания        |
| head_size      | Размерность головы внимания      |
| num_layers     | Количество слоев декодера        |

## 5. Примеры применения
- Генерация текста
- Дозаполнение форм
- Кодогенерация
- Чат-боты

## 6. Ограничения
- Требует больших вычислительных ресурсов
- Ограничена максимальной длиной последовательности
- Может генерировать некорректный текст