feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation - Add hf-proxy for HuggingFace integration - Add experiments for training and generation - Add comprehensive documentation and examples - Configure uv workspace with proper dependencies
2026-01-23 13:00:54 +00:00 · 2025-10-04 22:40:21 +03:00
commit ec07546ea8
54 changed files with 9337 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,43 @@
+# Python
+__pycache__/
+*.py[cod]
+*$py.class
+*.so
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sitemedia/
+var/
+wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+
+# Virtual environments
+.venv
+venv/
+env/
+ENV/
+
+# Project specific
+checkpoints/
+logs/
+.ipynb_checkpoints
+
+# IDE
+.vscode/
+.idea/
+*.swp
+*.swo
+
+# OS
+.DS_Store
+Thumbs.db
+__pycache__
--- a/README.md
+++ b/README.md
@@ -0,0 +1,317 @@
+# LLM Architecture Research
+
+Исследовательский проект для разработки и обучения архитектур больших языковых моделей (LLM).
+
+## 🏗️ Архитектура проекта
+
+Проект организован как монорепозиторий с использованием **uv** workspace:
+
+- **`llm`** — основная библиотека с реализацией архитектур LLM
+- **`hf-proxy`** — адаптер для интеграции с HuggingFace
+- **`experiments`** — скрипты обучения и экспериментов
+- **`notebooks`** — исследовательские ноутбуки
+
+## 📁 Структура проекта
+
+```
+llm-arch-research/
+│
+├── pyproject.toml        # корневой workspace конфиг
+├── uv.lock
+│
+├── llm/                  # основная библиотека архитектур
+│   ├── pyproject.toml
+│   └── src/llm/
+│       ├── core/         # базовые компоненты
+│       │   ├── base_model.py
+│       │   ├── decoder.py
+│       │   ├── multi_head_attention.py
+│       │   ├── head_attention.py
+│       │   ├── feed_forward.py
+│       │   ├── token_embeddings.py
+│       │   └── positional_embeddings.py
+│       ├── models/gpt/   # GPT реализация
+│       │   ├── gpt.py
+│       │   └── __init__.py
+│       ├── training/     # утилиты обучения
+│       │   ├── dataset.py
+│       │   ├── trainer.py
+│       │   ├── optimizer.py
+│       │   └── scheduler.py
+│       ├── evaluation/   # оценка моделей
+│       └── tokenizers/   # токенизаторы
+│           ├── base_tokenizer.py
+│           └── bpe_tokenizer.py
+│
+├── hf-proxy/             # адаптер HuggingFace
+│   ├── pyproject.toml
+│   └── src/hf_proxy/
+│       ├── hf_config.py
+│       ├── hf_adapter.py
+│       ├── hf_tokenizer.py
+│       └── hf_utils.py
+│
+├── experiments/          # скрипты обучения и экспериментов
+│   ├── hf_integration/   # интеграция с HuggingFace
+│   │   ├── train_with_hf_trainer.py
+│   │   ├── generate_with_hf_tools.py
+│   │   ├── simple_hf_training.py
+│   │   └── test_hf_proxy.py
+│   ├── llm_only/         # обучение без HF
+│   │   ├── train_gpt_bpe.py
+│   │   └── generate_gpt_bpe.py
+│   └── shared/           # общие утилиты
+│       ├── configs.py
+│       └── data.py
+│
+├── checkpoints/          # сохраненные модели и токенизаторы
+└── notebooks/            # исследовательские ноутбуки
+```
+
+## 🚀 Быстрый старт
+
+### Установка зависимостей
+
+```bash
+# Установка всех зависимостей workspace
+uv sync
+
+# Установка с dev-зависимостями
+uv sync --extra dev
+```
+
+### Запуск обучения GPT
+
+```bash
+# Обучение базовой GPT модели
+uv run python experiments/llm_only/train_gpt_bpe.py
+
+# Обучение с интеграцией HuggingFace
+uv run python experiments/hf_integration/simple_hf_training.py
+```
+
+### Тестирование hf-proxy
+
+```bash
+# Базовое тестирование интеграции
+uv run python experiments/hf_integration/test_hf_proxy.py
+
+# Генерация через HF инструменты
+uv run python experiments/hf_integration/generate_with_hf_tools.py
+```
+
+### Использование в коде
+
+```python
+from llm.models.gpt import GPT
+from llm.tokenizers import BPETokenizer
+from hf_proxy import HFAdapter, HFTokenizerAdapter
+
+# Создание модели
+config = {
+    "vocab_size": 50257,
+    "embed_dim": 256,
+    "num_heads": 4,
+    "num_layers": 4,
+    "max_position_embeddings": 128,
+    "dropout": 0.1
+}
+model = GPT(config)
+
+# Генерация текста
+generated = model.generate(
+    input_ids, 
+    max_new_tokens=50, 
+    do_sample=True, 
+    temperature=0.7
+)
+
+# Использование с HuggingFace через hf-proxy
+hf_model = HFAdapter.from_llm_model(model)
+hf_tokenizer = HFTokenizerAdapter(tokenizer)
+
+# Генерация через HF интерфейс
+generated = hf_model.generate(
+    input_ids=inputs['input_ids'],
+    max_new_tokens=50,
+    do_sample=True,
+    temperature=0.7
+)
+```
+
+## 🛠️ Технологический стек
+
+- **Python 3.10+** — язык программирования
+- **uv** — современный менеджер пакетов и workspace
+- **PyTorch 2.8+** — фреймворк глубокого обучения
+- **Transformers** — интеграция с HuggingFace
+- **Datasets** — работа с данными
+- **TOML** — конфигурационные файлы
+
+## 📦 Зависимости
+
+### Корневой workspace
+```toml
+[project]
+dependencies = ["tqdm>=4,<5"]
+
+[project.optional-dependencies]
+dev = [
+    "pytest>=8.0.0",
+    "black>=24.0.0", 
+    "ruff>=0.3.0",
+    "mypy>=1.8.0",
+    "jupyter>=1.0.0",
+]
+test = [
+    "pytest>=8.0.0",
+    "pytest-cov>=4.1.0",
+]
+```
+
+### Пакет llm
+```toml
+[project]
+dependencies = [
+    "torch>=2.3.0",
+    "numpy>=1.24.0",
+]
+```
+
+### Пакет hf-proxy
+```toml
+[project]
+dependencies = [
+    "torch>=2.3.0",
+    "transformers>=4.44.0",
+    "datasets>=2.20.0",
+]
+```
+
+## 🎯 Реализованные возможности
+
+### Архитектура GPT
+- ✅ Токенные и позиционные эмбеддинги
+- ✅ Многоголовое внимание с causal mask
+- ✅ Декодерные блоки с residual connections
+- ✅ Layer normalization
+- ✅ Dropout регуляризация
+
+### Генерация текста
+- ✅ Жадный поиск (greedy decoding)
+- ✅ Вероятностное сэмплирование
+- ✅ Top-k сэмплирование
+- ✅ Nucleus sampling (top-p)
+- ✅ Контроль температуры
+
+### Обучение
+- ✅ Датасет для языкового моделирования
+- ✅ Базовый тренировочный цикл
+- ✅ Оптимизатор AdamW
+- ✅ Сохранение чекпоинтов
+
+### Интеграция с HuggingFace (hf-proxy)
+- ✅ Адаптер моделей для совместимости с HF интерфейсами
+- ✅ Адаптер токенизаторов с поддержкой всех методов HF
+- ✅ Сохранение и загрузка в HF формате
+- ✅ Совместимость с HF Trainer и pipelines
+- ✅ Генерация через стандартные HF интерфейсы
+
+## 🔬 Эксперименты с hf-proxy
+
+### Успешно протестированные функции:
+
+1. **Базовая интеграция** (`test_hf_proxy.py`)
+   - ✅ Создание HF адаптера для токенизаторов
+   - ✅ Создание HF адаптера для моделей
+   - ✅ Токенизация и декодирование
+   - ✅ Forward pass через адаптированную модель
+   - ✅ Сохранение и загрузка моделей
+
+2. **Упрощенное обучение** (`simple_hf_training.py`)
+   - ✅ Обучение GPT модели с использованием hf-proxy
+   - ✅ Ручной цикл обучения без сложных зависимостей
+   - ✅ Сохранение результатов обучения
+
+3. **Генерация через HF инструменты** (`generate_with_hf_tools.py`)
+   - ✅ Загрузка моделей в HF формате
+   - ✅ Генерация через стандартные HF интерфейсы
+   - ✅ Сравнение стратегий генерации
+   - ✅ Интерактивная генерация
+
+### Решенные проблемы:
+
+- ✅ Исправление метода `pad` в токенизаторе для обработки разных типов данных
+- ✅ Корректная загрузка моделей с передачей конфигурации
+- ✅ Совместимость с HF экосистемой
+
+## 📊 Примеры работы
+
+### Обучение модели
+```bash
+🚀 УПРОЩЕННОЕ ОБУЧЕНИЕ GPT С HF-PROXY
+=========================================================
+🔧 Подготовка данных...
+📊 Данные: 10 train, 2 validation
+🔧 Подготовка токенизатора...
+✅ Токенизатор создан (vocab_size=473)
+🔧 Подготовка модели...
+✅ Модель создана
+🎯 Обучение модели...
+📊 Результаты обучения:
+   Final train loss: 4.6802
+   Final val loss: 5.1834
+✅ Модель сохранена
+```
+
+### Генерация через HF интерфейсы
+```bash
+🧪 Тестирование HuggingFace pipeline...
+🎯 Генерация текста через HF адаптер
+🔤 Промпт: 'Искусственный'
+🎯 Результат: 'Искусственный интеллект продолжает развиваться...'
+```
+
+## 🔧 Разработка
+
+### Добавление зависимостей
+```bash
+# В корневой проект
+uv add package-name
+
+# В конкретный пакет
+cd llm && uv add package-name
+
+# Dev-зависимости
+uv add --dev pytest black
+```
+
+### Запуск тестов
+```bash
+uv run pytest
+```
+
+### Форматирование кода
+```bash
+uv run black .
+uv run ruff check .
+```
+
+## 🤝 Вклад в проект
+
+1. Форкните репозиторий
+2. Создайте feature ветку
+3. Внесите изменения
+4. Запустите тесты: `uv run pytest`
+5. Отформатируйте код: `uv run black . && uv run ruff check .`
+6. Создайте pull request
+
+## 📄 Лицензия
+
+MIT License
+
+---
+
+**Разработано с ❤️ для исследований в области LLM**
+
+*Обновлено: Октябрь 2025*
--- a/experiments/README.md
+++ b/experiments/README.md
@@ -0,0 +1,131 @@
+# Эксперименты с LLM архитектурами
+
+Унифицированная структура экспериментов для обучения и генерации текста моделями LLM.
+
+## 📁 Структура экспериментов
+
+```
+experiments/
+├── llm_only/                    # Эксперименты только с библиотекой llm
+│   ├── train_gpt_bpe.py         # Обучение GPT с BPE токенизатором
+│   └── generate_gpt_bpe.py      # Генерация с GPT + BPE
+├── hf_integration/              # Эксперименты с hf-proxy
+│   ├── train_with_hf_trainer.py # Обучение через HF Trainer
+│   └── generate_with_hf_tools.py # Генерация через HF инструменты
+├── shared/                      # Общие утилиты
+│   ├── data.py                  # Загрузка и подготовка данных
+│   └── configs.py               # Конфигурации моделей
+└── README.md                    # Этот файл
+```
+
+## 🚀 Быстрый старт
+
+### 1. Только библиотека llm (автономный режим)
+
+```bash
+# Обучение GPT модели с собственным BPE токенизатором
+uv run python experiments/llm_only/train_gpt_bpe.py
+
+# Генерация текста обученной моделью
+uv run python experiments/llm_only/generate_gpt_bpe.py
+```
+
+### 2. Интеграция с HuggingFace через hf-proxy
+
+```bash
+# Обучение через HuggingFace Trainer
+uv run python experiments/hf_integration/train_with_hf_trainer.py
+
+# Генерация через HF инструменты
+uv run python experiments/hf_integration/generate_with_hf_tools.py
+```
+
+## 📊 Сравнение подходов
+
+| Аспект | Только llm | С hf-proxy |
+|--------|------------|------------|
+| **Зависимости** | Только PyTorch | + HuggingFace Transformers |
+| **Обучение** | Собственный Trainer | HF Trainer |
+| **Генерация** | Прямой вызов модели | HF pipeline & интерфейсы |
+| **Гибкость** | Полный контроль | Совместимость с HF экосистемой |
+| **Сложность** | Проще | Более сложная настройка |
+
+## 🔧 Конфигурация
+
+Все эксперименты используют общие конфигурации из `shared/configs.py`:
+
+- **Модели**: базовые, маленькие и большие конфигурации GPT
+- **Токенизаторы**: параметры BPE обучения
+- **Обучение**: гиперпараметры обучения
+- **Генерация**: параметры генерации текста
+
+## 📈 Результаты
+
+Эксперименты сохраняют:
+- Обученные модели в `checkpoints/`
+- Токенизаторы в формате JSON
+- Логи обучения и генерации
+- Конфигурации моделей
+
+## 🎯 Примеры использования
+
+### Автономное использование (только llm)
+
+```python
+from llm.models.gpt import GPT
+from llm.tokenizers import BPETokenizer
+
+# Загрузка обученной модели
+model = GPT(config)
+model.load_state_dict(torch.load("checkpoints/gpt-bpe/model.pt"))
+
+# Загрузка токенизатора
+tokenizer = BPETokenizer.load("checkpoints/bpe_tokenizer.json")
+
+# Генерация текста
+input_ids = tokenizer.encode("промпт")
+generated = model.generate(input_ids)
+```
+
+### Интеграция с HF (через hf-proxy)
+
+```python
+from hf_proxy import HFAdapter, HFTokenizerAdapter
+
+# Загрузка через адаптеры
+hf_model = HFAdapter.from_pretrained("checkpoints/hf-trained/pytorch_model.bin")
+hf_tokenizer = HFTokenizerAdapter.from_pretrained("checkpoints/hf-bpe-tokenizer")
+
+# Использование с HF инструментами
+from transformers import pipeline
+pipe = pipeline("text-generation", model=hf_model, tokenizer=hf_tokenizer)
+```
+
+## 🔍 Мониторинг
+
+- **Логи обучения**: автоматически сохраняются в JSON
+- **Метрики**: loss, длина генерации, эффективность токенизации
+- **Визуализация**: можно интегрировать с TensorBoard через HF Trainer
+
+## 🛠️ Разработка
+
+### Добавление нового эксперимента
+
+1. Создайте файл в соответствующей директории (`llm_only/` или `hf_integration/`)
+2. Используйте общие утилиты из `shared/`
+3. Сохраняйте результаты в стандартизированные пути
+4. Документируйте конфигурации и результаты
+
+### Модификация конфигураций
+
+Измените соответствующие секции в `shared/configs.py`:
+- `BASE_GPT_CONFIG` - параметры модели
+- `BPE_CONFIG` - параметры токенизатора  
+- `TRAINING_CONFIG` - параметры обучения
+- `GENERATION_CONFIG` - параметры генерации
+
+## 📚 Дополнительные ресурсы
+
+- [Документация llm библиотеки](../llm/README.md)
+- [Документация hf-proxy](../hf-proxy/README.md)
+- [Примеры использования](../notebooks/)
--- a/experiments/hf_integration/generate_with_hf_tools.py
+++ b/experiments/hf_integration/generate_with_hf_tools.py
@@ -0,0 +1,372 @@
+#!/usr/bin/env python3
+"""
+Experiment: generate_with_hf_tools.py
+Description: Генерация текста обученной GPT моделью через HuggingFace инструменты.
+Использует hf-proxy для интеграции кастомной модели с HF экосистемой.
+"""
+
+import torch
+import os
+import sys
+
+# Добавляем путь к shared модулям
+sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+
+from hf_proxy import HFAdapter, HFTokenizerAdapter, create_hf_pipeline
+
+from shared.configs import (
+    TEST_PROMPTS, GENERATION_CONFIG, PATHS
+)
+from shared.data import (
+    print_experiment_info, ensure_directories, ExperimentLogger
+)
+
+
+def load_hf_model_and_tokenizer() -> tuple:
+    """
+    Загружает модель и токенизатор в формате HuggingFace.
+    
+    Returns:
+        tuple: (hf_model, hf_tokenizer, model_config)
+    """
+    # Используем упрощенную версию модели
+    model_path = "checkpoints/hf_simple_trained"
+    tokenizer_path = "checkpoints/hf_simple_tokenizer"
+    
+    # Проверяем существование файлов
+    if not os.path.exists(model_path):
+        raise FileNotFoundError(
+            f"Модель не найдена: {model_path}\n"
+            f"Сначала обучите модель: uv run python experiments/hf_integration/simple_hf_training.py"
+        )
+    
+    if not os.path.exists(tokenizer_path):
+        raise FileNotFoundError(
+            f"Токенизатор не найден: {tokenizer_path}"
+        )
+    
+    # Загружаем адаптированный токенизатор
+    print("🔧 Загрузка адаптированного токенизатора...")
+    hf_tokenizer = HFTokenizerAdapter.from_pretrained(tokenizer_path)
+    print(f"✅ Токенизатор загружен (vocab_size={hf_tokenizer.vocab_size})")
+    
+    # Загружаем конфигурацию модели
+    import json
+    config_path = os.path.join(model_path, "config.json")
+    with open(config_path, 'r', encoding='utf-8') as f:
+        model_config = json.load(f)
+    
+    # Загружаем модель через HFAdapter с правильной конфигурацией
+    print("🔧 Загрузка адаптированной модели...")
+    model_bin_path = os.path.join(model_path, "pytorch_model.bin")
+    
+    # Создаем конфигурацию из сохраненного config.json
+    from hf_proxy import HFAdapterConfig
+    hf_config = HFAdapterConfig(
+        vocab_size=model_config["vocab_size"],
+        hidden_size=model_config["hidden_size"],
+        num_hidden_layers=model_config["num_hidden_layers"],
+        num_attention_heads=model_config["num_attention_heads"],
+        max_position_embeddings=model_config["max_position_embeddings"],
+        hidden_dropout_prob=model_config.get("hidden_dropout_prob", 0.1),
+        attention_probs_dropout_prob=model_config.get("attention_probs_dropout_prob", 0.1),
+    )
+    
+    hf_model = HFAdapter.from_pretrained(model_bin_path, hf_config=hf_config)
+    hf_model.eval()
+    print("✅ Модель загружена")
+    
+    return hf_model, hf_tokenizer, model_config
+
+
+def test_hf_pipeline(hf_model, hf_tokenizer):
+    """
+    Тестирует создание HuggingFace pipeline.
+    
+    Args:
+        hf_model: Адаптированная модель
+        hf_tokenizer: Адаптированный токенизатор
+    """
+    print("\n🧪 Тестирование HuggingFace pipeline...")
+    
+    try:
+        # Создаем pipeline
+        pipe = create_hf_pipeline(
+            hf_model,
+            tokenizer=hf_tokenizer,
+            device="cpu",
+            max_length=50,
+            do_sample=True,
+            temperature=0.7
+        )
+        
+        print("✅ HuggingFace pipeline создан")
+        
+        # Тестируем pipeline
+        test_prompts = TEST_PROMPTS[:3]
+        
+        for prompt in test_prompts:
+            print(f"\n🔤 Промпт: '{prompt}'")
+            
+            try:
+                result = pipe(prompt, max_new_tokens=20)
+                print(f"🎯 Результат: {result[0]['generated_text']}")
+            except Exception as e:
+                print(f"❌ Ошибка в pipeline: {e}")
+                
+    except Exception as e:
+        print(f"❌ Ошибка создания pipeline: {e}")
+
+
+def generate_with_hf_model(hf_model, hf_tokenizer, prompt: str, config: dict) -> str:
+    """
+    Генерирует текст через адаптированную модель HF.
+    
+    Args:
+        hf_model: Адаптированная модель
+        hf_tokenizer: Адаптированный токенизатор
+        prompt: Входной текст
+        config: Конфигурация генерации
+        
+    Returns:
+        str: Сгенерированный текст
+    """
+    print(f"🔤 Промпт: '{prompt}'")
+    print(f"📊 Параметры: max_tokens={config['max_new_tokens']}, "
+          f"temp={config['temperature']}, sample={config['do_sample']}")
+    
+    # Кодируем через адаптированный токенизатор
+    inputs = hf_tokenizer(prompt, return_tensors="pt")
+    
+    print(f"🎯 Токены промпта: {inputs['input_ids'].tolist()[0]}")
+    print("🔄 Генерация через HF адаптер...")
+    
+    # Генерируем через адаптированную модель
+    with torch.no_grad():
+        generated_ids = hf_model.generate(
+            input_ids=inputs['input_ids'],
+            max_new_tokens=config["max_new_tokens"],
+            do_sample=config["do_sample"],
+            temperature=config["temperature"],
+            top_k=config["top_k"],
+            top_p=config["top_p"]
+        )
+    
+    # Декодируем через адаптированный токенизатор
+    generated_text = hf_tokenizer.decode(generated_ids[0], skip_special_tokens=True)
+    
+    return generated_text
+
+
+def test_different_hf_strategies(hf_model, hf_tokenizer, prompt: str):
+    """
+    Тестирует разные стратегии генерации через HF интерфейс.
+    
+    Args:
+        hf_model: Адаптированная модель
+        hf_tokenizer: Адаптированный токенизатор
+        prompt: Тестовый промпт
+    """
+    print(f"\n🎭 Сравнение стратегий генерации через HF для промпта: '{prompt}'")
+    print("=" * 70)
+    
+    strategies = [
+        {"name": "🎯 Жадный поиск", "do_sample": False, "temperature": 1.0},
+        {"name": "🎲 Вероятностная (temp=0.7)", "do_sample": True, "temperature": 0.7},
+        {"name": "🔥 Случайная (temp=1.2)", "do_sample": True, "temperature": 1.2},
+        {"name": "❄️  Детерминированная (temp=0.3)", "do_sample": True, "temperature": 0.3},
+    ]
+    
+    for strategy in strategies:
+        print(f"\n{strategy['name']}:")
+        try:
+            config = GENERATION_CONFIG.copy()
+            config.update({
+                "do_sample": strategy["do_sample"],
+                "temperature": strategy["temperature"],
+                "max_new_tokens": 20
+            })
+            
+            generated = generate_with_hf_model(hf_model, hf_tokenizer, prompt, config)
+            
+            # Выделяем сгенерированную часть
+            generated_part = generated[len(prompt):]
+            print(f"   📤 Промпт: '{prompt}'")
+            print(f"   🎯 Сгенерировано: '{generated_part}'")
+            print(f"   📄 Полный текст: '{generated}'")
+            
+        except Exception as e:
+            print(f"   ❌ Ошибка: {e}")
+
+
+def analyze_hf_tokenization(hf_tokenizer, texts: list):
+    """
+    Анализирует токенизацию через адаптированный токенизатор.
+    
+    Args:
+        hf_tokenizer: Адаптированный токенизатор
+        texts: Список текстов для анализа
+    """
+    print(f"\n🔍 Анализ токенизации через HF адаптер:")
+    print("=" * 60)
+    
+    for i, text in enumerate(texts):
+        print(f"\nТекст {i+1}: '{text}'")
+        
+        # Токенизация через адаптер
+        inputs = hf_tokenizer(text, return_tensors="pt")
+        tokens = inputs['input_ids'].tolist()[0]
+        token_strings = hf_tokenizer.tokenize(text)
+        
+        print(f"   Токены (ID): {tokens}")
+        print(f"   Токены (текст): {token_strings}")
+        print(f"   Количество токенов: {len(tokens)}")
+        
+        # Декодирование обратно
+        decoded = hf_tokenizer.decode(tokens)
+        print(f"   Декодированный: '{decoded}'")
+        
+        if text == decoded:
+            print(f"   ✅ Декодирование корректно")
+        else:
+            print(f"   ⚠️  Расхождения")
+
+
+def interactive_hf_generation(hf_model, hf_tokenizer):
+    """
+    Режим интерактивной генерации через HF интерфейс.
+    
+    Args:
+        hf_model: Адаптированная модель
+        hf_tokenizer: Адаптированный токенизатор
+    """
+    print(f"\n💬 Интерактивная генерация через HF (для выхода введите 'exit')")
+    print("-" * 60)
+    
+    while True:
+        try:
+            user_input = input("\n🔤 Введите промпт: ").strip()
+            
+            if user_input.lower() in ['exit', 'quit', 'выход']:
+                break
+                
+            if not user_input:
+                continue
+            
+            # Запрашиваем параметры
+            try:
+                max_tokens = int(input("📏 Макс. токенов [50]: ") or "50")
+                temperature = float(input("🌡️  Температура [0.7]: ") or "0.7")
+                do_sample_input = input("🎲 Сэмплирование (y/n) [y]: ").lower()
+                do_sample = do_sample_input != 'n'
+            except:
+                max_tokens = 50
+                temperature = 0.7
+                do_sample = True
+                print("⚠️  Использую параметры по умолчанию")
+            
+            config = GENERATION_CONFIG.copy()
+            config.update({
+                "max_new_tokens": max_tokens,
+                "temperature": temperature,
+                "do_sample": do_sample
+            })
+            
+            generated = generate_with_hf_model(hf_model, hf_tokenizer, user_input, config)
+            
+            generated_part = generated[len(user_input):]
+            print(f"\n🎯 Результат:")
+            print(f"   📤 Промпт: '{user_input}'")
+            print(f"   🎯 Сгенерировано: '{generated_part}'")
+            print(f"   📄 Полный текст: '{generated}'")
+            
+        except KeyboardInterrupt:
+            print("\n👋 Завершение работы...")
+            break
+        except Exception as e:
+            print(f"❌ Ошибка: {e}")
+
+
+def main():
+    """Основная функция эксперимента."""
+    # === Настройка эксперимента ===
+    experiment_name = "Генерация текста через HF инструменты (с hf-proxy)"
+    experiment_config = {
+        "model": "GPT через HFAdapter",
+        "tokenizer": "BPE через HFTokenizerAdapter",
+        "инструменты": "HuggingFace pipeline & генерация",
+        "стратегия": "интеграция с HF экосистемой"
+    }
+    
+    print_experiment_info(experiment_name, experiment_config)
+    ensure_directories()
+    logger = ExperimentLogger(experiment_name)
+    
+    try:
+        # Загружаем модель и токенизатор в HF формате
+        hf_model, hf_tokenizer, model_config = load_hf_model_and_tokenizer()
+        
+        # === Анализ токенизации ===
+        analysis_texts = [
+            "Искусственный интеллект",
+            "Нейронные сети", 
+            "Машинное обучение"
+        ]
+        analyze_hf_tokenization(hf_tokenizer, analysis_texts)
+        
+        # === Тестирование HF pipeline ===
+        test_hf_pipeline(hf_model, hf_tokenizer)
+        
+        # === Генерация с разными промптами ===
+        print(f"\n🎯 Генерация текста через HF адаптер")
+        print("=" * 60)
+        
+        for i, prompt in enumerate(TEST_PROMPTS):
+            print(f"\n📝 Пример {i+1}/{len(TEST_PROMPTS)}")
+            print("-" * 40)
+            
+            try:
+                generated = generate_with_hf_model(hf_model, hf_tokenizer, prompt, GENERATION_CONFIG)
+                
+                # Выделяем сгенерированную часть
+                generated_part = generated[len(prompt):]
+                
+                print(f"📤 Промпт: '{prompt}'")
+                print(f"🎯 Сгенерировано: '{generated_part}'")
+                print(f"📄 Полный текст: '{generated}'")
+                print(f"📏 Длина: {len(generated)} символов")
+                
+                # Логируем успешную генерацию
+                logger.log_metric(f"hf_generation_length_{i}", len(generated))
+                
+            except Exception as e:
+                print(f"❌ Ошибка при генерации: {e}")
+                continue
+        
+        # === Сравнение стратегий генерации ===
+        test_prompt = "Искусственный"
+        test_different_hf_strategies(hf_model, hf_tokenizer, test_prompt)
+        
+        # === Интерактивная генерация ===
+        interactive_hf_generation(hf_model, hf_tokenizer)
+        
+        # === Сохранение результатов ===
+        logger.save_logs("checkpoints/hf_integration_generation_logs.json")
+        
+        print(f"\n🎉 Эксперимент с HF интеграцией завершен успешно!")
+        print(f"\n📚 Достигнутая интеграция:")
+        print(f"   ✅ Загрузка модели и токенизатора в HF формате")
+        print(f"   ✅ Использование HF pipeline")
+        print(f"   ✅ Генерация через стандартные HF интерфейсы")
+        print(f"   ✅ Совместимость с HF экосистемой")
+        
+    except FileNotFoundError as e:
+        print(f"❌ {e}")
+    except Exception as e:
+        print(f"❌ Ошибка в эксперименте: {e}")
+        import traceback
+        traceback.print_exc()
+
+
+if __name__ == "__main__":
+    main()
--- a/experiments/hf_integration/simple_hf_training.py
+++ b/experiments/hf_integration/simple_hf_training.py
@@ -0,0 +1,285 @@
+#!/usr/bin/env python3
+"""
+Experiment: simple_hf_training.py
+Description: Упрощенное обучение GPT модели с использованием hf-proxy.
+Использует ручное обучение вместо сложного HuggingFace Trainer.
+"""
+
+import torch
+import torch.nn as nn
+import os
+import sys
+import json
+
+# Добавляем путь к shared модулям
+sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+
+from llm.models.gpt import GPT
+from llm.tokenizers import BPETokenizer
+from hf_proxy import HFAdapter, HFTokenizerAdapter
+
+from shared.configs import (
+    TRAIN_TEXTS, BASE_GPT_CONFIG, BPE_CONFIG, 
+    TRAINING_CONFIG, PATHS, TEST_PROMPTS
+)
+
+
+def create_dataset(hf_tokenizer, texts, max_length=128):
+    """
+    Создает простой датасет для обучения.
+    
+    Args:
+        hf_tokenizer: Адаптированный токенизатор
+        texts: Список текстов
+        max_length: Максимальная длина последовательности
+        
+    Returns:
+        list: Список тензоров input_ids
+    """
+    dataset = []
+    
+    for text in texts:
+        # Токенизируем текст
+        inputs = hf_tokenizer(
+            text, 
+            max_length=max_length, 
+            truncation=True,
+            padding=False,
+            return_tensors="pt"
+        )
+        
+        input_ids = inputs['input_ids'][0]
+        
+        # Создаем метки для языкового моделирования
+        labels = input_ids.clone()
+        
+        dataset.append({
+            'input_ids': input_ids,
+            'labels': labels
+        })
+    
+    return dataset
+
+
+def manual_training_loop(hf_model, hf_tokenizer, train_texts, val_texts, config):
+    """
+    Ручной цикл обучения без использования Trainer.
+    
+    Args:
+        hf_model: Адаптированная модель
+        hf_tokenizer: Адаптированный токенизатор
+        train_texts: Тексты для обучения
+        val_texts: Тексты для валидации
+        config: Конфигурация обучения
+        
+    Returns:
+        dict: Результаты обучения
+    """
+    print("🎯 Запуск ручного обучения...")
+    
+    # Создаем датасеты
+    train_dataset = create_dataset(hf_tokenizer, train_texts)
+    val_dataset = create_dataset(hf_tokenizer, val_texts)
+    
+    print(f"📊 Данные: {len(train_dataset)} train, {len(val_dataset)} validation")
+    
+    # Оптимизатор
+    optimizer = torch.optim.AdamW(
+        hf_model.parameters(), 
+        lr=config["learning_rate"]
+    )
+    
+    # Функция потерь
+    loss_fn = nn.CrossEntropyLoss()
+    
+    # Обучение
+    hf_model.train()
+    train_losses = []
+    val_losses = []
+    
+    for epoch in range(config["num_epochs"]):
+        print(f"\n📅 Эпоха {epoch + 1}/{config['num_epochs']}")
+        
+        # Обучение
+        epoch_train_loss = 0
+        for i, batch in enumerate(train_dataset):
+            optimizer.zero_grad()
+            
+            input_ids = batch['input_ids'].unsqueeze(0)  # [1, seq_len]
+            labels = batch['labels'].unsqueeze(0)        # [1, seq_len]
+            
+            # Forward pass
+            outputs = hf_model(input_ids=input_ids, labels=labels)
+            loss = outputs.loss
+            
+            # Backward pass
+            loss.backward()
+            optimizer.step()
+            
+            epoch_train_loss += loss.item()
+            
+            if i % 5 == 0:
+                print(f"   Batch {i}/{len(train_dataset)}: loss = {loss.item():.4f}")
+        
+        avg_train_loss = epoch_train_loss / len(train_dataset)
+        train_losses.append(avg_train_loss)
+        print(f"   📊 Средняя train loss: {avg_train_loss:.4f}")
+        
+        # Валидация
+        hf_model.eval()
+        epoch_val_loss = 0
+        with torch.no_grad():
+            for batch in val_dataset:
+                input_ids = batch['input_ids'].unsqueeze(0)
+                labels = batch['labels'].unsqueeze(0)
+                
+                outputs = hf_model(input_ids=input_ids, labels=labels)
+                epoch_val_loss += outputs.loss.item()
+        
+        avg_val_loss = epoch_val_loss / len(val_dataset)
+        val_losses.append(avg_val_loss)
+        print(f"   📊 Средняя val loss: {avg_val_loss:.4f}")
+        
+        hf_model.train()
+    
+    return {
+        'train_losses': train_losses,
+        'val_losses': val_losses,
+        'final_train_loss': train_losses[-1],
+        'final_val_loss': val_losses[-1]
+    }
+
+
+def test_generation_after_training(hf_model, hf_tokenizer, test_prompts):
+    """
+    Тестирует генерацию после обучения.
+    
+    Args:
+        hf_model: Обученная модель
+        hf_tokenizer: Токенизатор
+        test_prompts: Тестовые промпты
+    """
+    print("\n🧪 Тестирование генерации после обучения...")
+    hf_model.eval()
+    
+    for prompt in test_prompts[:3]:
+        print(f"\n🔤 Промпт: '{prompt}'")
+        
+        try:
+            inputs = hf_tokenizer(prompt, return_tensors="pt")
+            
+            with torch.no_grad():
+                generated = hf_model.generate(
+                    input_ids=inputs['input_ids'],
+                    max_new_tokens=20,
+                    do_sample=True,
+                    temperature=0.8
+                )
+            
+            generated_text = hf_tokenizer.decode(generated[0], skip_special_tokens=True)
+            print(f"🎯 Результат: '{generated_text}'")
+            
+        except Exception as e:
+            print(f"❌ Ошибка генерации: {e}")
+
+
+def main():
+    """Основная функция эксперимента."""
+    print("=" * 60)
+    print("🚀 УПРОЩЕННОЕ ОБУЧЕНИЕ GPT С HF-PROXY")
+    print("=" * 60)
+    
+    try:
+        # === Подготовка данных ===
+        print("🔧 Подготовка данных...")
+        train_texts = TRAIN_TEXTS[:10]  # Используем меньше данных для быстрого тестирования
+        val_texts = TRAIN_TEXTS[10:12]
+        
+        print(f"📊 Данные: {len(train_texts)} train, {len(val_texts)} validation")
+        
+        # === Подготовка токенизатора ===
+        print("🔧 Подготовка токенизатора...")
+        llm_tokenizer = BPETokenizer()
+        llm_tokenizer.train(
+            texts=train_texts,
+            vocab_size=BPE_CONFIG["vocab_size"],
+            special_tokens=BPE_CONFIG["special_tokens"]
+        )
+        
+        hf_tokenizer = HFTokenizerAdapter(llm_tokenizer)
+        print(f"✅ Токенизатор создан (vocab_size={hf_tokenizer.vocab_size})")
+        
+        # === Подготовка модели ===
+        print("🔧 Подготовка модели...")
+        model_config = BASE_GPT_CONFIG.copy()
+        model_config["vocab_size"] = hf_tokenizer.vocab_size
+        
+        llm_model = GPT(model_config)
+        hf_model = HFAdapter.from_llm_model(llm_model)
+        print(f"✅ Модель создана")
+        
+        # === Тестирование до обучения ===
+        print("\n🧪 Тестирование до обучения...")
+        test_generation_after_training(hf_model, hf_tokenizer, TEST_PROMPTS)
+        
+        # === Обучение ===
+        print(f"\n🎯 Обучение модели...")
+        training_config = {
+            "learning_rate": TRAINING_CONFIG["learning_rate"],
+            "num_epochs": 2,  # Меньше эпох для быстрого тестирования
+            "batch_size": TRAINING_CONFIG["batch_size"]
+        }
+        
+        results = manual_training_loop(
+            hf_model, hf_tokenizer, train_texts, val_texts, training_config
+        )
+        
+        print(f"\n📊 Результаты обучения:")
+        print(f"   Final train loss: {results['final_train_loss']:.4f}")
+        print(f"   Final val loss: {results['final_val_loss']:.4f}")
+        
+        # === Тестирование после обучения ===
+        print("\n🧪 Тестирование после обучения...")
+        test_generation_after_training(hf_model, hf_tokenizer, TEST_PROMPTS)
+        
+        # === Сохранение модели ===
+        print(f"\n💾 Сохранение модели...")
+        
+        # Создаем директории
+        os.makedirs("checkpoints/hf_simple_trained", exist_ok=True)
+        os.makedirs("checkpoints/hf_simple_tokenizer", exist_ok=True)
+        
+        # Сохраняем токенизатор
+        hf_tokenizer.save_pretrained("checkpoints/hf_simple_tokenizer")
+        print("✅ Токенизатор сохранен")
+        
+        # Сохраняем модель
+        HFAdapter.save_pretrained(
+            hf_model, 
+            "checkpoints/hf_simple_trained", 
+            tokenizer=hf_tokenizer
+        )
+        print("✅ Модель сохранена")
+        
+        # Сохраняем результаты
+        results_path = "checkpoints/simple_training_results.json"
+        with open(results_path, 'w', encoding='utf-8') as f:
+            json.dump({
+                'training_config': training_config,
+                'model_config': model_config,
+                'results': results
+            }, f, indent=2, ensure_ascii=False)
+        print(f"✅ Результаты сохранены в {results_path}")
+        
+        print(f"\n🎉 Упрощенное обучение завершено успешно!")
+        print(f"\n💡 Для использования обученной модели:")
+        print(f"   uv run python experiments/hf_integration/generate_with_hf_tools.py")
+        
+    except Exception as e:
+        print(f"❌ Ошибка в эксперименте: {e}")
+        import traceback
+        traceback.print_exc()
+
+
+if __name__ == "__main__":
+    main()
--- a/experiments/hf_integration/test_hf_proxy.py
+++ b/experiments/hf_integration/test_hf_proxy.py
@@ -0,0 +1,206 @@
+#!/usr/bin/env python3
+"""
+Test: test_hf_proxy.py
+Description: Тестирование базовой функциональности hf-proxy без сложных зависимостей.
+"""
+
+import torch
+import os
+import sys
+
+# Добавляем путь к shared модулям
+sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+
+from llm.models.gpt import GPT
+from llm.tokenizers import BPETokenizer
+from hf_proxy import HFAdapter, HFTokenizerAdapter
+
+from shared.configs import (
+    TRAIN_TEXTS, BASE_GPT_CONFIG, BPE_CONFIG, 
+    TEST_PROMPTS, GENERATION_CONFIG
+)
+
+
+def test_basic_hf_integration():
+    """Тестирует базовую интеграцию hf-proxy."""
+    print("🧪 Тестирование базовой интеграции hf-proxy...")
+    
+    # === Подготовка токенизатора ===
+    print("1. Подготовка токенизатора...")
+    llm_tokenizer = BPETokenizer()
+    llm_tokenizer.train(
+        texts=TRAIN_TEXTS,
+        vocab_size=BPE_CONFIG["vocab_size"],
+        special_tokens=BPE_CONFIG["special_tokens"]
+    )
+    
+    hf_tokenizer = HFTokenizerAdapter(llm_tokenizer)
+    print(f"   ✅ Токенизатор создан (vocab_size={hf_tokenizer.vocab_size})")
+    
+    # === Подготовка модели ===
+    print("2. Подготовка модели...")
+    model_config = BASE_GPT_CONFIG.copy()
+    model_config["vocab_size"] = hf_tokenizer.vocab_size
+    
+    llm_model = GPT(model_config)
+    hf_model = HFAdapter.from_llm_model(llm_model)
+    print(f"   ✅ Модель создана")
+    
+    # === Тестирование токенизации ===
+    print("3. Тестирование токенизации...")
+    test_texts = ["Искусственный интеллект", "Нейронные сети"]
+    
+    for text in test_texts:
+        print(f"   📝 Текст: '{text}'")
+        
+        # Оригинальный токенизатор
+        original_tokens = llm_tokenizer.encode(text)
+        print(f"      Оригинальный: {len(original_tokens)} токенов")
+        
+        # HF адаптер
+        hf_inputs = hf_tokenizer(text, return_tensors="pt")
+        print(f"      HF адаптер: {hf_inputs['input_ids'].shape}")
+        
+        # Декодирование
+        decoded = hf_tokenizer.decode(hf_inputs['input_ids'][0])
+        print(f"      Декодированный: '{decoded}'")
+    
+    # === Тестирование forward pass ===
+    print("4. Тестирование forward pass...")
+    for text in test_texts:
+        hf_inputs = hf_tokenizer(text, return_tensors="pt")
+        
+        with torch.no_grad():
+            outputs = hf_model(**hf_inputs)
+        
+        print(f"   📝 '{text}' -> logits: {outputs.logits.shape}")
+    
+    # === Тестирование генерации ===
+    print("5. Тестирование генерации...")
+    hf_model.eval()
+    
+    for prompt in TEST_PROMPTS[:3]:
+        print(f"   🔤 Промпт: '{prompt}'")
+        
+        try:
+            inputs = hf_tokenizer(prompt, return_tensors="pt")
+            
+            with torch.no_grad():
+                generated = hf_model.generate(
+                    input_ids=inputs['input_ids'],
+                    max_new_tokens=10,
+                    do_sample=True,
+                    temperature=0.8
+                )
+            
+            generated_text = hf_tokenizer.decode(generated[0], skip_special_tokens=True)
+            print(f"      🎯 Результат: '{generated_text}'")
+            
+        except Exception as e:
+            print(f"      ❌ Ошибка: {e}")
+    
+    # === Тестирование сохранения/загрузки ===
+    print("6. Тестирование сохранения/загрузки...")
+    try:
+        # Сохраняем токенизатор
+        hf_tokenizer.save_pretrained("test_save/tokenizer")
+        print("   ✅ Токенизатор сохранен")
+        
+        # Сохраняем модель
+        HFAdapter.save_pretrained(hf_model, "test_save/model", tokenizer=hf_tokenizer)
+        print("   ✅ Модель сохранена")
+        
+        # Загружаем токенизатор
+        loaded_tokenizer = HFTokenizerAdapter.from_pretrained("test_save/tokenizer")
+        print(f"   ✅ Токенизатор загружен (vocab_size={loaded_tokenizer.vocab_size})")
+        
+        # Загружаем модель
+        model_path = os.path.join("test_save/model", "pytorch_model.bin")
+        loaded_model = HFAdapter.from_pretrained(model_path)
+        print("   ✅ Модель загружена")
+        
+        # Проверяем работоспособность загруженной модели
+        test_input = hf_tokenizer("Тест", return_tensors="pt")
+        with torch.no_grad():
+            loaded_outputs = loaded_model(**test_input)
+        print(f"   ✅ Загруженная модель работает (logits: {loaded_outputs.logits.shape})")
+        
+    except Exception as e:
+        print(f"   ❌ Ошибка сохранения/загрузки: {e}")
+    
+    print("\n🎉 Базовое тестирование hf-proxy завершено!")
+
+
+def test_hf_tokenizer_methods():
+    """Тестирует различные методы HF токенизатора."""
+    print("\n🧪 Тестирование методов HF токенизатора...")
+    
+    # Создаем токенизатор
+    llm_tokenizer = BPETokenizer()
+    llm_tokenizer.train(
+        texts=TRAIN_TEXTS[:5],
+        vocab_size=500,
+        special_tokens=BPE_CONFIG["special_tokens"]
+    )
+    
+    hf_tokenizer = HFTokenizerAdapter(llm_tokenizer)
+    
+    test_text = "Искусственный интеллект и машинное обучение"
+    
+    # Тестируем разные методы
+    print("1. Метод __call__:")
+    result = hf_tokenizer(test_text, return_tensors="pt")
+    print(f"   Результат: {result}")
+    
+    print("2. Метод encode:")
+    encoded = hf_tokenizer.encode(test_text)
+    print(f"   Закодировано: {encoded}")
+    
+    print("3. Метод decode:")
+    decoded = hf_tokenizer.decode(encoded)
+    print(f"   Декодировано: '{decoded}'")
+    
+    print("4. Метод tokenize:")
+    tokens = hf_tokenizer.tokenize(test_text)
+    print(f"   Токены: {tokens}")
+    
+    print("5. Метод get_vocab:")
+    vocab = hf_tokenizer.get_vocab()
+    print(f"   Размер словаря: {len(vocab)}")
+    
+    print("✅ Все методы токенизатора работают!")
+
+
+def main():
+    """Основная функция тестирования."""
+    print("=" * 60)
+    print("🧪 ТЕСТИРОВАНИЕ HF-PROXY")
+    print("=" * 60)
+    
+    try:
+        # Тестируем базовую интеграцию
+        test_basic_hf_integration()
+        
+        # Тестируем методы токенизатора
+        test_hf_tokenizer_methods()
+        
+        print("\n" + "=" * 60)
+        print("🎉 ВСЕ ТЕСТЫ ПРОЙДЕНЫ УСПЕШНО!")
+        print("=" * 60)
+        print("\n📚 Проверенные функции:")
+        print("   ✅ Создание HF адаптера для токенизатора")
+        print("   ✅ Создание HF адаптера для модели")
+        print("   ✅ Токенизация и декодирование")
+        print("   ✅ Forward pass через адаптированную модель")
+        print("   ✅ Генерация текста")
+        print("   ✅ Сохранение и загрузка моделей")
+        print("   ✅ Все методы HF токенизатора")
+        
+    except Exception as e:
+        print(f"\n❌ Ошибка в тестировании: {e}")
+        import traceback
+        traceback.print_exc()
+
+
+if __name__ == "__main__":
+    main()
--- a/experiments/hf_integration/train_with_hf_trainer.py
+++ b/experiments/hf_integration/train_with_hf_trainer.py
@@ -0,0 +1,298 @@
+#!/usr/bin/env python3
+"""
+Experiment: train_with_hf_trainer.py
+Description: Обучение GPT модели через HuggingFace Trainer с использованием hf-proxy.
+Интегрирует кастомную модель llm с инструментами HuggingFace.
+"""
+
+import torch
+import os
+import sys
+
+# Добавляем путь к shared модулям
+sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+
+from llm.models.gpt import GPT
+from llm.tokenizers import BPETokenizer
+from hf_proxy import HFAdapter, HFTokenizerAdapter
+
+from shared.configs import (
+    TRAIN_TEXTS, BASE_GPT_CONFIG, BPE_CONFIG, 
+    TRAINING_CONFIG, PATHS, TEST_PROMPTS
+)
+from shared.data import (
+    load_training_data, ensure_directories, 
+    print_experiment_info, ExperimentLogger
+)
+
+
+def setup_hf_training():
+    """
+    Настраивает окружение для обучения через HuggingFace Trainer.
+    
+    Returns:
+        tuple: (hf_model, hf_tokenizer, llm_tokenizer, model_config)
+    """
+    print("🔧 Настройка HuggingFace обучения...")
+    
+    # === Подготовка данных ===
+    train_texts, val_texts = load_training_data()
+    print(f"📊 Данные: {len(train_texts)} train, {len(val_texts)} validation")
+    
+    # === Обучение/загрузка токенизатора ===
+    if os.path.exists(PATHS["bpe_tokenizer"]):
+        print("📝 Загрузка BPE токенизатора...")
+        llm_tokenizer = BPETokenizer.load(PATHS["bpe_tokenizer"])
+        print(f"✅ Токенизатор загружен (vocab_size={llm_tokenizer.get_vocab_size()})")
+    else:
+        print("📝 Обучение BPE токенизатора...")
+        llm_tokenizer = BPETokenizer()
+        llm_tokenizer.train(
+            texts=TRAIN_TEXTS,
+            vocab_size=BPE_CONFIG["vocab_size"],
+            special_tokens=BPE_CONFIG["special_tokens"]
+        )
+        llm_tokenizer.save(PATHS["bpe_tokenizer"])
+        print(f"✅ Токенизатор обучен и сохранен")
+    
+    # === Создание адаптера токенизатора ===
+    print("🔧 Создание адаптера HuggingFace для токенизатора...")
+    hf_tokenizer = HFTokenizerAdapter(llm_tokenizer)
+    print(f"✅ Адаптер токенизатора создан")
+    
+    # === Инициализация модели ===
+    model_config = BASE_GPT_CONFIG.copy()
+    model_config["vocab_size"] = llm_tokenizer.get_vocab_size()
+    
+    print("🔧 Создание GPT модели...")
+    llm_model = GPT(model_config)
+    
+    # === Создание адаптера модели ===
+    print("🔧 Создание адаптера HuggingFace для модели...")
+    hf_model = HFAdapter.from_llm_model(llm_model)
+    print(f"✅ Адаптер модели создан")
+    
+    return hf_model, hf_tokenizer, llm_tokenizer, model_config, train_texts, val_texts
+
+
+def test_hf_integration(hf_model, hf_tokenizer, llm_tokenizer):
+    """
+    Тестирует интеграцию с HuggingFace инструментами.
+    
+    Args:
+        hf_model: Адаптированная модель
+        hf_tokenizer: Адаптированный токенизатор
+        llm_tokenizer: Оригинальный токенизатор
+    """
+    print("\n🧪 Тестирование интеграции с HuggingFace...")
+    
+    test_texts = ["Искусственный интеллект", "Нейронные сети"]
+    
+    for text in test_texts:
+        print(f"\n🔤 Текст: '{text}'")
+        
+        # Тестируем адаптированный токенизатор
+        hf_inputs = hf_tokenizer(text, return_tensors="pt")
+        print(f"   HF токенизатор: {hf_inputs['input_ids'].shape}")
+        
+        # Тестируем оригинальный токенизатор для сравнения
+        original_tokens = llm_tokenizer.encode(text)
+        print(f"   Оригинальный токенизатор: {len(original_tokens)} токенов")
+        
+        # Тестируем forward pass через адаптированную модель
+        try:
+            with torch.no_grad():
+                outputs = hf_model(**hf_inputs)
+            print(f"   HF forward pass: успешно (logits: {outputs.logits.shape})")
+        except Exception as e:
+            print(f"   ❌ HF forward pass: {e}")
+
+
+def main():
+    """Основная функция эксперимента."""
+    # === Настройка эксперимента ===
+    experiment_name = "Обучение GPT через HF Trainer (с hf-proxy)"
+    experiment_config = {
+        "model": "GPT через HFAdapter",
+        "tokenizer": "BPE через HFTokenizerAdapter", 
+        "trainer": "HuggingFace Trainer",
+        "vocab_size": BPE_CONFIG["vocab_size"],
+        "training_epochs": TRAINING_CONFIG["num_epochs"]
+    }
+    
+    print_experiment_info(experiment_name, experiment_config)
+    ensure_directories()
+    logger = ExperimentLogger(experiment_name)
+    
+    try:
+        # Настраиваем обучение
+        hf_model, hf_tokenizer, llm_tokenizer, model_config, train_texts, val_texts = setup_hf_training()
+        
+        # Тестируем интеграцию
+        test_hf_integration(hf_model, hf_tokenizer, llm_tokenizer)
+        
+        # === Подготовка датасетов HuggingFace ===
+        print(f"\n📊 Подготовка датасетов HuggingFace...")
+        
+        from datasets import Dataset
+        
+        def tokenize_function(examples):
+            """Функция токенизации для HF datasets."""
+            # Используем адаптированный токенизатор
+            tokenized = hf_tokenizer(
+                examples["text"],
+                truncation=True,
+                padding=False,
+                max_length=model_config["max_position_embeddings"],
+            )
+            tokenized["labels"] = tokenized["input_ids"].copy()
+            return tokenized
+        
+        # Создаем датасеты
+        train_dataset = Dataset.from_dict({"text": train_texts})
+        val_dataset = Dataset.from_dict({"text": val_texts})
+        
+        # Токенизируем
+        train_dataset = train_dataset.map(
+            tokenize_function,
+            batched=True,
+            remove_columns=train_dataset.column_names,
+        )
+        val_dataset = val_dataset.map(
+            tokenize_function,
+            batched=True,
+            remove_columns=val_dataset.column_names,
+        )
+        
+        print(f"   Train датасет: {len(train_dataset)} примеров")
+        print(f"   Validation датасет: {len(val_dataset)} примеров")
+        
+        # === Настройка HuggingFace Trainer ===
+        print(f"\n🔧 Настройка HuggingFace Trainer...")
+        
+        from transformers import (
+            Trainer, 
+            TrainingArguments,
+            DataCollatorForLanguageModeling
+        )
+        
+        # Data collator для языкового моделирования
+        data_collator = DataCollatorForLanguageModeling(
+            tokenizer=hf_tokenizer,
+            mlm=False,
+            pad_to_multiple_of=8,
+        )
+        
+        # Аргументы обучения
+        training_args = TrainingArguments(
+            output_dir=PATHS["hf_model"],
+            overwrite_output_dir=True,
+            num_train_epochs=TRAINING_CONFIG["num_epochs"],
+            per_device_train_batch_size=TRAINING_CONFIG["batch_size"],
+            per_device_eval_batch_size=TRAINING_CONFIG["batch_size"],
+            learning_rate=TRAINING_CONFIG["learning_rate"],
+            warmup_steps=TRAINING_CONFIG["warmup_steps"],
+            logging_dir="./logs",
+            logging_steps=10,
+            eval_steps=50,
+            save_steps=100,
+            eval_strategy="steps",
+            save_strategy="steps",
+            load_best_model_at_end=True,
+            metric_for_best_model="loss",
+            greater_is_better=False,
+            dataloader_pin_memory=False,
+            report_to=None,
+        )
+        
+        # Создаем Trainer
+        trainer = Trainer(
+            model=hf_model,
+            args=training_args,
+            train_dataset=train_dataset,
+            eval_dataset=val_dataset,
+            data_collator=data_collator,
+        )
+        
+        print("✅ HuggingFace Trainer настроен")
+        
+        # === Запуск обучения ===
+        print(f"\n🎯 Запуск обучения через HuggingFace Trainer...")
+        
+        train_result = trainer.train()
+        
+        # Сохраняем лучшую модель
+        trainer.save_model()
+        hf_tokenizer.save_pretrained(PATHS["hf_model"])
+        
+        print("✅ Обучение завершено успешно!")
+        print(f"📊 Final train loss: {train_result.metrics['train_loss']:.4f}")
+        
+        if "eval_loss" in train_result.metrics:
+            print(f"📊 Final eval loss: {train_result.metrics['eval_loss']:.4f}")
+        
+        # === Сохранение через hf-proxy ===
+        print(f"\n💾 Сохранение через hf-proxy...")
+        
+        from hf_proxy import convert_to_hf_format
+        
+        # Сохраняем токенизатор в HF формате
+        hf_tokenizer_dir = PATHS["hf_tokenizer"]
+        hf_tokenizer.save_pretrained(hf_tokenizer_dir)
+        
+        # Сохраняем модель через hf-proxy
+        hf_proxy_dir = PATHS["hf_proxy_model"]
+        HFAdapter.save_pretrained(hf_model, hf_proxy_dir, tokenizer=hf_tokenizer)
+        
+        print(f"✅ Модель сохранена в HF формате:")
+        print(f"   - {PATHS['hf_model']}: стандартный HF формат")
+        print(f"   - {hf_proxy_dir}: через hf-proxy")
+        print(f"   - {hf_tokenizer_dir}: токенизатор в HF формате")
+        
+        # === Тестирование генерации ===
+        print(f"\n🧪 Тестирование генерации после обучения...")
+        hf_model.eval()
+        
+        for prompt in TEST_PROMPTS[:3]:
+            print(f"\n🔤 Промпт: '{prompt}'")
+            
+            try:
+                inputs = hf_tokenizer(prompt, return_tensors="pt")
+                
+                with torch.no_grad():
+                    generated = hf_model.generate(
+                        input_ids=inputs['input_ids'],
+                        max_new_tokens=20,
+                        do_sample=True,
+                        temperature=0.8
+                    )
+                
+                generated_text = hf_tokenizer.decode(generated[0], skip_special_tokens=True)
+                print(f"🎯 Результат: '{generated_text}'")
+                
+            except Exception as e:
+                print(f"❌ Ошибка генерации: {e}")
+        
+        # === Сохранение результатов ===
+        results = {
+            "experiment": experiment_name,
+            "model_config": model_config,
+            "training_config": TRAINING_CONFIG,
+            "final_loss": train_result.metrics.get('train_loss', 'N/A'),
+            "eval_loss": train_result.metrics.get('eval_loss', 'N/A')
+        }
+        
+        logger.save_logs("checkpoints/hf_integration_training_logs.json")
+        
+        print(f"\n🎉 Эксперимент с HF интеграцией завершен успешно!")
+        print(f"\n💡 Для использования обученной модели:")
+        print(f"   uv run python experiments/hf_integration/generate_with_hf_tools.py")
+        
+    except Exception as e:
+        print(f"❌ Ошибка в эксперименте: {e}")
+        import traceback
+        traceback.print_exc()
+
+
+if __name__ == "__main__":
+    main()
--- a/experiments/llm_only/generate_gpt_bpe.py
+++ b/experiments/llm_only/generate_gpt_bpe.py
@@ -0,0 +1,313 @@
+#!/usr/bin/env python3
+"""
+Experiment: generate_gpt_bpe.py
+Description: Генерация текста обученной GPT моделью с BPE токенизатором.
+Использует только библиотеку llm без зависимостей от HuggingFace.
+"""
+
+import torch
+import os
+import sys
+
+# Добавляем путь к shared модулям
+sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+
+from llm.models.gpt import GPT
+from llm.tokenizers import BPETokenizer
+
+from shared.configs import (
+    BASE_GPT_CONFIG, TEST_PROMPTS, GENERATION_CONFIG, PATHS
+)
+from shared.data import (
+    print_experiment_info, ensure_directories, ExperimentLogger
+)
+
+
+def load_model_and_tokenizer() -> tuple:
+    """
+    Загружает обученную модель и токенизатор.
+    
+    Returns:
+        tuple: (модель, токенизатор, конфигурация)
+    """
+    # Проверяем существование файлов
+    if not os.path.exists(PATHS["gpt_bpe_model"]):
+        raise FileNotFoundError(
+            f"Модель не найдена: {PATHS['gpt_bpe_model']}\n"
+            f"Сначала обучите модель: uv run python experiments/llm_only/train_gpt_bpe.py"
+        )
+    
+    if not os.path.exists(PATHS["bpe_tokenizer"]):
+        raise FileNotFoundError(
+            f"Токенизатор не найден: {PATHS['bpe_tokenizer']}"
+        )
+    
+    # Загружаем конфигурацию модели
+    import json
+    with open(PATHS["gpt_bpe_config"], 'r', encoding='utf-8') as f:
+        model_config = json.load(f)
+    
+    # Загружаем токенизатор
+    print("🔧 Загрузка BPE токенизатора...")
+    tokenizer = BPETokenizer.load(PATHS["bpe_tokenizer"])
+    print(f"✅ Токенизатор загружен (vocab_size={tokenizer.get_vocab_size()})")
+    
+    # Загружаем модель
+    print("🔧 Загрузка GPT модели...")
+    model = GPT(model_config)
+    model.load_state_dict(torch.load(PATHS["gpt_bpe_model"], map_location='cpu'))
+    model.eval()
+    print("✅ Модель загружена")
+    
+    return model, tokenizer, model_config
+
+
+def generate_text(
+    model: GPT, 
+    tokenizer: BPETokenizer, 
+    prompt: str, 
+    config: dict
+) -> str:
+    """
+    Генерирует текст на основе промпта.
+    
+    Args:
+        model: Обученная GPT модель
+        tokenizer: BPE токенизатор
+        prompt: Входной текст
+        config: Конфигурация генерации
+        
+    Returns:
+        str: Сгенерированный текст
+    """
+    print(f"🔤 Промпт: '{prompt}'")
+    print(f"📊 Параметры: max_tokens={config['max_new_tokens']}, "
+          f"temp={config['temperature']}, sample={config['do_sample']}")
+    
+    # Кодируем промпт
+    input_ids = tokenizer.encode(prompt, add_special_tokens=False)
+    input_tensor = torch.tensor([input_ids], dtype=torch.long)
+    
+    print(f"🎯 Токены промпта: {input_ids}")
+    print(f"🎯 Токены (текст): {tokenizer.tokenize(prompt)}")
+    print("🔄 Генерация...")
+    
+    # Генерируем текст
+    with torch.no_grad():
+        generated_ids = model.generate(
+            x=input_tensor,
+            max_new_tokens=config["max_new_tokens"],
+            do_sample=config["do_sample"],
+            temperature=config["temperature"],
+            top_k=config["top_k"],
+            top_p=config["top_p"]
+        )
+    
+    # Декодируем результат
+    generated_text = tokenizer.decode(generated_ids[0].tolist())
+    
+    return generated_text
+
+
+def test_different_strategies(model: GPT, tokenizer: BPETokenizer, prompt: str):
+    """
+    Тестирует разные стратегии генерации на одном промпте.
+    
+    Args:
+        model: Обученная модель
+        tokenizer: BPE токенизатор
+        prompt: Тестовый промпт
+    """
+    print(f"\n🎭 Сравнение стратегий генерации для промпта: '{prompt}'")
+    print("=" * 60)
+    
+    strategies = [
+        {"name": "🎯 Жадный поиск", "do_sample": False, "temperature": 1.0},
+        {"name": "🎲 Вероятностная (temp=0.7)", "do_sample": True, "temperature": 0.7},
+        {"name": "🔥 Случайная (temp=1.2)", "do_sample": True, "temperature": 1.2},
+        {"name": "❄️  Детерминированная (temp=0.3)", "do_sample": True, "temperature": 0.3},
+    ]
+    
+    for strategy in strategies:
+        print(f"\n{strategy['name']}:")
+        try:
+            config = GENERATION_CONFIG.copy()
+            config.update({
+                "do_sample": strategy["do_sample"],
+                "temperature": strategy["temperature"],
+                "max_new_tokens": 20
+            })
+            
+            generated = generate_text(model, tokenizer, prompt, config)
+            
+            # Выделяем сгенерированную часть
+            generated_part = generated[len(prompt):]
+            print(f"   📤 Промпт: '{prompt}'")
+            print(f"   🎯 Сгенерировано: '{generated_part}'")
+            print(f"   📄 Полный текст: '{generated}'")
+            
+        except Exception as e:
+            print(f"   ❌ Ошибка: {e}")
+
+
+def analyze_tokenization(tokenizer: BPETokenizer, texts: list):
+    """
+    Анализирует токенизацию различных текстов.
+    
+    Args:
+        tokenizer: BPE токенизатор
+        texts: Список текстов для анализа
+    """
+    print(f"\n🔍 Анализ токенизации BPE:")
+    print("=" * 50)
+    
+    for i, text in enumerate(texts):
+        print(f"\nТекст {i+1}: '{text}'")
+        
+        # Токенизация
+        tokens = tokenizer.encode(text, add_special_tokens=False)
+        token_strings = tokenizer.tokenize(text)
+        
+        print(f"   Токены (ID): {tokens}")
+        print(f"   Токены (текст): {token_strings}")
+        print(f"   Количество токенов: {len(tokens)}")
+        print(f"   Эффективность: {len(text)} символов → {len(tokens)} токенов")
+        
+        # Декодирование обратно
+        decoded = tokenizer.decode(tokens)
+        if text == decoded:
+            print(f"   ✅ Декодирование корректно")
+        else:
+            print(f"   ⚠️  Расхождения: '{decoded}'")
+
+
+def interactive_generation(model: GPT, tokenizer: BPETokenizer):
+    """
+    Режим интерактивной генерации.
+    
+    Args:
+        model: Обученная модель
+        tokenizer: BPE токенизатор
+    """
+    print(f"\n💬 Интерактивная генерация (для выхода введите 'exit')")
+    print("-" * 50)
+    
+    while True:
+        try:
+            user_input = input("\n🔤 Введите промпт: ").strip()
+            
+            if user_input.lower() in ['exit', 'quit', 'выход']:
+                break
+                
+            if not user_input:
+                continue
+            
+            # Запрашиваем параметры
+            try:
+                max_tokens = int(input("📏 Макс. токенов [50]: ") or "50")
+                temperature = float(input("🌡️  Температура [0.7]: ") or "0.7")
+                do_sample_input = input("🎲 Сэмплирование (y/n) [y]: ").lower()
+                do_sample = do_sample_input != 'n'
+            except:
+                max_tokens = 50
+                temperature = 0.7
+                do_sample = True
+                print("⚠️  Использую параметры по умолчанию")
+            
+            config = GENERATION_CONFIG.copy()
+            config.update({
+                "max_new_tokens": max_tokens,
+                "temperature": temperature,
+                "do_sample": do_sample
+            })
+            
+            generated = generate_text(model, tokenizer, user_input, config)
+            
+            generated_part = generated[len(user_input):]
+            print(f"\n🎯 Результат:")
+            print(f"   📤 Промпт: '{user_input}'")
+            print(f"   🎯 Сгенерировано: '{generated_part}'")
+            print(f"   📄 Полный текст: '{generated}'")
+            
+        except KeyboardInterrupt:
+            print("\n👋 Завершение работы...")
+            break
+        except Exception as e:
+            print(f"❌ Ошибка: {e}")
+
+
+def main():
+    """Основная функция эксперимента."""
+    # === Настройка эксперимента ===
+    experiment_name = "Генерация текста GPT + BPE (только llm)"
+    experiment_config = {
+        "model": "GPT с BPE токенизатором",
+        "стратегия": "автономная генерация",
+        "вход": "промпты",
+        "выход": "сгенерированный текст"
+    }
+    
+    print_experiment_info(experiment_name, experiment_config)
+    ensure_directories()
+    logger = ExperimentLogger(experiment_name)
+    
+    try:
+        # Загружаем модель и токенизатор
+        model, tokenizer, model_config = load_model_and_tokenizer()
+        
+        # === Анализ токенизации ===
+        analysis_texts = [
+            "Искусственный интеллект",
+            "Нейронные сети",
+            "Машинное обучение", 
+        ]
+        analyze_tokenization(tokenizer, analysis_texts)
+        
+        # === Генерация с разными промптами ===
+        print(f"\n🎯 Генерация текста с разными промптами")
+        print("=" * 60)
+        
+        for i, prompt in enumerate(TEST_PROMPTS):
+            print(f"\n📝 Пример {i+1}/{len(TEST_PROMPTS)}")
+            print("-" * 40)
+            
+            try:
+                generated = generate_text(model, tokenizer, prompt, GENERATION_CONFIG)
+                
+                # Выделяем сгенерированную часть
+                generated_part = generated[len(prompt):]
+                
+                print(f"📤 Промпт: '{prompt}'")
+                print(f"🎯 Сгенерировано: '{generated_part}'")
+                print(f"📄 Полный текст: '{generated}'")
+                print(f"📏 Длина: {len(generated)} символов")
+                
+                # Логируем успешную генерацию
+                logger.log_metric(f"generation_length_{i}", len(generated))
+                
+            except Exception as e:
+                print(f"❌ Ошибка при генерации: {e}")
+                continue
+        
+        # === Сравнение стратегий генерации ===
+        test_prompt = "Искусственный"
+        test_different_strategies(model, tokenizer, test_prompt)
+        
+        # === Интерактивная генерация ===
+        interactive_generation(model, tokenizer)
+        
+        # === Сохранение результатов ===
+        logger.save_logs("checkpoints/llm_only_generation_logs.json")
+        
+        print(f"\n🎉 Эксперимент генерации завершен успешно!")
+        
+    except FileNotFoundError as e:
+        print(f"❌ {e}")
+    except Exception as e:
+        print(f"❌ Ошибка в эксперименте: {e}")
+        import traceback
+        traceback.print_exc()
+
+
+if __name__ == "__main__":
+    main()
--- a/experiments/llm_only/train_gpt_bpe.py
+++ b/experiments/llm_only/train_gpt_bpe.py
@@ -0,0 +1,231 @@
+#!/usr/bin/env python3
+"""
+Experiment: train_gpt_bpe.py
+Description: Обучение GPT модели с собственным BPE токенизатором.
+Использует только библиотеку llm без зависимостей от HuggingFace.
+"""
+
+import torch
+import os
+import sys
+
+# Добавляем путь к shared модулям
+sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+
+from llm.models.gpt import GPT
+from llm.tokenizers import BPETokenizer
+from llm.training.dataset import TextDataset
+from llm.training.trainer import Trainer
+
+from shared.configs import (
+    TRAIN_TEXTS, BASE_GPT_CONFIG, BPE_CONFIG, 
+    TRAINING_CONFIG, PATHS, TEST_PROMPTS
+)
+from shared.data import (
+    load_training_data, ensure_directories, 
+    print_experiment_info, ExperimentLogger
+)
+
+
+def train_bpe_tokenizer(texts: list, config: dict) -> BPETokenizer:
+    """
+    Обучает BPE токенизатор на текстах.
+    
+    Args:
+        texts: Список текстов для обучения
+        config: Конфигурация токенизатора
+        
+    Returns:
+        BPETokenizer: Обученный токенизатор
+    """
+    print("🔧 Обучение BPE токенизатора...")
+    
+    tokenizer = BPETokenizer()
+    tokenizer.train(
+        texts=texts,
+        vocab_size=config["vocab_size"],
+        special_tokens=config["special_tokens"]
+    )
+    
+    # Сохраняем токенизатор
+    os.makedirs(os.path.dirname(PATHS["bpe_tokenizer"]), exist_ok=True)
+    tokenizer.save(PATHS["bpe_tokenizer"])
+    
+    print(f"✅ BPE токенизатор обучен и сохранен: {PATHS['bpe_tokenizer']}")
+    print(f"📊 Размер словаря: {tokenizer.get_vocab_size()}")
+    
+    return tokenizer
+
+
+def test_tokenizer(tokenizer: BPETokenizer, texts: list):
+    """
+    Тестирует токенизатор на примерах.
+    
+    Args:
+        tokenizer: Обученный токенизатор
+        texts: Список тестовых текстов
+    """
+    print("\n🧪 Тестирование токенизатора:")
+    
+    for i, text in enumerate(texts[:3]):
+        print(f"\nПример {i+1}:")
+        print(f"   Исходный текст: '{text}'")
+        
+        # Кодирование
+        tokens = tokenizer.encode(text)
+        token_strings = tokenizer.tokenize(text)
+        
+        print(f"   Токены (ID): {tokens}")
+        print(f"   Токены (текст): {token_strings}")
+        print(f"   Количество токенов: {len(tokens)}")
+        
+        # Декодирование
+        decoded = tokenizer.decode(tokens)
+        print(f"   Декодированный: '{decoded}'")
+        
+        if text == decoded:
+            print("   ✅ Кодирование/декодирование корректно")
+        else:
+            print("   ⚠️  Небольшие расхождения")
+
+
+def main():
+    """Основная функция эксперимента."""
+    # === Настройка эксперимента ===
+    experiment_name = "Обучение GPT с BPE токенизатором (только llm)"
+    experiment_config = {
+        "model": "GPT",
+        "tokenizer": "BPE", 
+        "vocab_size": BPE_CONFIG["vocab_size"],
+        "training_epochs": TRAINING_CONFIG["num_epochs"],
+        "batch_size": TRAINING_CONFIG["batch_size"],
+        "learning_rate": TRAINING_CONFIG["learning_rate"]
+    }
+    
+    print_experiment_info(experiment_name, experiment_config)
+    ensure_directories()
+    logger = ExperimentLogger(experiment_name)
+    
+    try:
+        # === Подготовка данных ===
+        train_texts, val_texts = load_training_data()
+        print(f"📊 Данные: {len(train_texts)} train, {len(val_texts)} validation")
+        
+        # === Обучение токенизатора ===
+        if os.path.exists(PATHS["bpe_tokenizer"]):
+            print("📝 Загрузка предварительно обученного токенизатора...")
+            tokenizer = BPETokenizer.load(PATHS["bpe_tokenizer"])
+            print(f"✅ Токенизатор загружен (vocab_size={tokenizer.get_vocab_size()})")
+        else:
+            tokenizer = train_bpe_tokenizer(TRAIN_TEXTS, BPE_CONFIG)
+        
+        # Тестируем токенизатор
+        test_tokenizer(tokenizer, TEST_PROMPTS[:3])
+        
+        # === Инициализация модели ===
+        model_config = BASE_GPT_CONFIG.copy()
+        model_config["vocab_size"] = tokenizer.get_vocab_size()
+        
+        print(f"\n🔧 Инициализация GPT модели...")
+        print(f"   Размер словаря: {model_config['vocab_size']}")
+        print(f"   Размер эмбеддингов: {model_config['embed_dim']}")
+        print(f"   Количество слоев: {model_config['num_layers']}")
+        print(f"   Количество голов внимания: {model_config['num_heads']}")
+        
+        model = GPT(model_config)
+        
+        # === Подготовка датасета ===
+        print(f"\n📊 Подготовка датасета...")
+        train_dataset = TextDataset(
+            train_texts, 
+            tokenizer, 
+            block_size=model_config["max_position_embeddings"]
+        )
+        print(f"   Размер train датасета: {len(train_dataset)} примеров")
+        
+        # === Обучение модели ===
+        print(f"\n🎯 Начало обучения GPT модели...")
+        
+        trainer = Trainer(
+            model=model,
+            train_dataset=train_dataset,
+            lr=TRAINING_CONFIG["learning_rate"],
+            batch_size=TRAINING_CONFIG["batch_size"],
+            num_epochs=TRAINING_CONFIG["num_epochs"],
+            warmup_steps=TRAINING_CONFIG["warmup_steps"]
+        )
+        
+        # Запускаем обучение
+        trainer.train()
+        
+        # === Сохранение модели ===
+        print(f"\n💾 Сохранение модели...")
+        os.makedirs(os.path.dirname(PATHS["gpt_bpe_model"]), exist_ok=True)
+        
+        # Сохраняем модель
+        torch.save(model.state_dict(), PATHS["gpt_bpe_model"])
+        
+        # Сохраняем конфигурацию
+        import json
+        with open(PATHS["gpt_bpe_config"], 'w', encoding='utf-8') as f:
+            json.dump(model_config, f, indent=2, ensure_ascii=False)
+        
+        print(f"✅ Модель сохранена:")
+        print(f"   - {PATHS['gpt_bpe_model']}: веса модели")
+        print(f"   - {PATHS['gpt_bpe_config']}: конфигурация модели")
+        print(f"   - {PATHS['bpe_tokenizer']}: токенизатор")
+        
+        # === Тестирование генерации ===
+        print(f"\n🧪 Тестирование генерации текста...")
+        model.eval()
+        
+        for prompt in TEST_PROMPTS[:3]:
+            print(f"\n🔤 Промпт: '{prompt}'")
+            
+            try:
+                # Кодируем промпт
+                input_ids = tokenizer.encode(prompt, add_special_tokens=False)
+                input_tensor = torch.tensor([input_ids], dtype=torch.long)
+                
+                # Генерируем текст
+                with torch.no_grad():
+                    generated_ids = model.generate(
+                        x=input_tensor,
+                        max_new_tokens=20,
+                        do_sample=True,
+                        temperature=0.8
+                    )
+                
+                # Декодируем результат
+                generated_text = tokenizer.decode(generated_ids[0].tolist())
+                generated_part = generated_text[len(prompt):]
+                
+                print(f"🎯 Сгенерировано: '{generated_part}'")
+                print(f"📄 Полный текст: '{generated_text}'")
+                
+            except Exception as e:
+                print(f"❌ Ошибка генерации: {e}")
+        
+        # === Сохранение результатов ===
+        results = {
+            "experiment": experiment_name,
+            "model_config": model_config,
+            "training_config": TRAINING_CONFIG,
+            "tokenizer_vocab_size": tokenizer.get_vocab_size(),
+            "final_loss": "см. логи обучения"  # В реальном эксперименте можно сохранить final loss
+        }
+        
+        logger.save_logs("checkpoints/llm_only_training_logs.json")
+        
+        print(f"\n🎉 Эксперимент завершен успешно!")
+        print(f"\n💡 Для использования обученной модели:")
+        print(f"   uv run python experiments/llm_only/generate_gpt_bpe.py")
+        
+    except Exception as e:
+        print(f"❌ Ошибка в эксперименте: {e}")
+        import traceback
+        traceback.print_exc()
+
+
+if __name__ == "__main__":
+    main()
--- a/experiments/shared/configs.py
+++ b/experiments/shared/configs.py
@@ -0,0 +1,100 @@
+"""
+Общие конфигурации для экспериментов.
+"""
+
+# === Данные для обучения ===
+TRAIN_TEXTS = [
+    "Мир программирования прекрасен и удивителен.",
+    "GPT модели учатся предсказывать следующий токен в последовательности.",
+    "Трансформеры революционно изменили обработку естественного языка.",
+    "Обучение больших языковых моделей требует значительных вычислительных ресурсов и больших объемов данных.",
+    "Искусственный интеллект продолжает развиваться стремительными темпами.",
+    "Глубокое обучение позволяет решать сложные задачи компьютерного зрения.",
+    "Нейронные сети имитируют работу человеческого мозга.",
+    "Машинное обучение находит применение в различных областях науки и техники.",
+    "Python является одним из самых популярных языков программирования для анализа данных.",
+    "Обработка естественного языка позволяет компьютерам понимать человеческую речь.",
+    "Рекуррентные нейронные сети хорошо подходят для работы с последовательностями.",
+    "Сверточные нейронные сети эффективны для обработки изображений.",
+    "Обучение с подкреплением используется для создания игровых ИИ.",
+    "Генеративные состязательные сети могут создавать реалистичные изображения.",
+    "Автоэнкодеры используются для сжатия данных и обучения представлений.",
+]
+
+# === Конфигурации моделей ===
+
+# Базовая конфигурация GPT
+BASE_GPT_CONFIG = {
+    "vocab_size": None,  # Будет установлен динамически
+    "embed_dim": 256,
+    "num_heads": 4,
+    "num_layers": 4,
+    "max_position_embeddings": 128,
+    "dropout": 0.1
+}
+
+# Конфигурация для маленькой модели (быстрое тестирование)
+SMALL_GPT_CONFIG = {
+    "vocab_size": None,
+    "embed_dim": 128,
+    "num_heads": 2,
+    "num_layers": 2,
+    "max_position_embeddings": 64,
+    "dropout": 0.1
+}
+
+# Конфигурация для большой модели (качественное обучение)
+LARGE_GPT_CONFIG = {
+    "vocab_size": None,
+    "embed_dim": 512,
+    "num_heads": 8,
+    "num_layers": 6,
+    "max_position_embeddings": 256,
+    "dropout": 0.1
+}
+
+# === Конфигурации токенизатора ===
+BPE_CONFIG = {
+    "vocab_size": 1000,
+    "special_tokens": ["<pad>", "<unk>", "<bos>", "<eos>"]
+}
+
+# === Конфигурации обучения ===
+TRAINING_CONFIG = {
+    "learning_rate": 3e-4,
+    "batch_size": 2,
+    "num_epochs": 3,
+    "warmup_steps": 50,
+    "gradient_clip": 1.0
+}
+
+# === Конфигурации генерации ===
+GENERATION_CONFIG = {
+    "max_new_tokens": 50,
+    "temperature": 0.7,
+    "do_sample": True,
+    "top_k": None,
+    "top_p": None
+}
+
+# === Пути для сохранения ===
+PATHS = {
+    "bpe_tokenizer": "checkpoints/bpe_tokenizer.json",
+    "gpt_bpe_model": "checkpoints/gpt-bpe/model.pt",
+    "gpt_bpe_config": "checkpoints/gpt-bpe/config.json",
+    "hf_tokenizer": "checkpoints/hf-bpe-tokenizer",
+    "hf_model": "checkpoints/hf-trained",
+    "hf_proxy_model": "checkpoints/hf-trained-proxy"
+}
+
+# === Тестовые промпты ===
+TEST_PROMPTS = [
+    "Искусственный",
+    "Нейронные",
+    "Машинное",
+    "Глубокое",
+    "Python",
+    "Трансформеры",
+    "Обучение",
+    "Программирование",
+]
--- a/experiments/shared/data.py
+++ b/experiments/shared/data.py
@@ -0,0 +1,162 @@
+"""
+Общие утилиты для работы с данными в экспериментах.
+"""
+
+import os
+from typing import List, Tuple
+from .configs import TRAIN_TEXTS, PATHS
+
+
+def load_training_data(split_ratio: float = 0.8) -> Tuple[List[str], List[str]]:
+    """
+    Загружает данные для обучения и разделяет на train/validation.
+    
+    Args:
+        split_ratio: Доля данных для обучения
+        
+    Returns:
+        Tuple: (train_texts, val_texts)
+    """
+    train_size = int(len(TRAIN_TEXTS) * split_ratio)
+    train_data = TRAIN_TEXTS[:train_size]
+    val_data = TRAIN_TEXTS[train_size:]
+    
+    return train_data, val_data
+
+
+def ensure_directories():
+    """Создает необходимые директории если они не существуют."""
+    directories = [
+        "checkpoints",
+        "checkpoints/gpt-bpe", 
+        "checkpoints/hf-bpe-tokenizer",
+        "checkpoints/hf-trained",
+        "checkpoints/hf-trained-proxy",
+        "logs"
+    ]
+    
+    for directory in directories:
+        os.makedirs(directory, exist_ok=True)
+
+
+def get_model_paths(experiment_type: str = "llm_only") -> dict:
+    """
+    Возвращает пути для конкретного типа эксперимента.
+    
+    Args:
+        experiment_type: Тип эксперимента ('llm_only' или 'hf_integration')
+        
+    Returns:
+        dict: Словарь с путями
+    """
+    base_paths = PATHS.copy()
+    
+    if experiment_type == "hf_integration":
+        base_paths.update({
+            "model": base_paths["hf_model"],
+            "tokenizer": base_paths["hf_tokenizer"]
+        })
+    else:  # llm_only
+        base_paths.update({
+            "model": base_paths["gpt_bpe_model"],
+            "tokenizer": base_paths["bpe_tokenizer"]
+        })
+    
+    return base_paths
+
+
+def print_experiment_info(experiment_name: str, config: dict):
+    """
+    Выводит информацию о запускаемом эксперименте.
+    
+    Args:
+        experiment_name: Название эксперимента
+        config: Конфигурация эксперимента
+    """
+    print("=" * 70)
+    print(f"🚀 Эксперимент: {experiment_name}")
+    print("=" * 70)
+    print("📊 Конфигурация:")
+    for key, value in config.items():
+        print(f"   {key}: {value}")
+    print()
+
+
+def save_experiment_results(results: dict, filepath: str):
+    """
+    Сохраняет результаты эксперимента в файл.
+    
+    Args:
+        results: Словарь с результатами
+        filepath: Путь для сохранения
+    """
+    import json
+    
+    with open(filepath, 'w', encoding='utf-8') as f:
+        json.dump(results, f, ensure_ascii=False, indent=2)
+    
+    print(f"✅ Результаты эксперимента сохранены: {filepath}")
+
+
+def load_experiment_results(filepath: str) -> dict:
+    """
+    Загружает результаты эксперимента из файла.
+    
+    Args:
+        filepath: Путь к файлу с результатами
+        
+    Returns:
+        dict: Загруженные результаты
+    """
+    import json
+    
+    if not os.path.exists(filepath):
+        return {}
+    
+    with open(filepath, 'r', encoding='utf-8') as f:
+        return json.load(f)
+
+
+class ExperimentLogger:
+    """
+    Логгер для экспериментов.
+    """
+    
+    def __init__(self, experiment_name: str):
+        self.experiment_name = experiment_name
+        self.metrics = {}
+    
+    def log_metric(self, name: str, value: float):
+        """Логирует метрику."""
+        if name not in self.metrics:
+            self.metrics[name] = []
+        self.metrics[name].append(value)
+        print(f"📈 {name}: {value:.4f}")
+    
+    def log_step(self, step: int, loss: float, **kwargs):
+        """Логирует шаг обучения."""
+        print(f"📊 Step {step}: loss={loss:.4f}", end="")
+        for key, value in kwargs.items():
+            print(f", {key}={value:.4f}", end="")
+        print()
+    
+    def log_epoch(self, epoch: int, train_loss: float, val_loss: float = None):
+        """Логирует завершение эпохи."""
+        print(f"🎯 Epoch {epoch}: train_loss={train_loss:.4f}", end="")
+        if val_loss is not None:
+            print(f", val_loss={val_loss:.4f}", end="")
+        print()
+    
+    def save_logs(self, filepath: str):
+        """Сохраняет логи эксперимента."""
+        import json
+        
+        logs = {
+            "experiment_name": self.experiment_name,
+            "metrics": self.metrics
+        }
+        
+        with open(filepath, 'w', encoding='utf-8') as f:
+            json.dump(logs, f, ensure_ascii=False, indent=2)
+        
+        print(f"✅ Логи эксперимента сохранены: {filepath}")
--- a/hf-proxy/.gitignore
+++ b/hf-proxy/.gitignore
@@ -0,0 +1,10 @@
+# Python-generated files
+__pycache__/
+*.py[oc]
+build/
+dist/
+wheels/
+*.egg-info
+
+# Virtual environments
+.venv
--- a/hf-proxy/.python-version
+++ b/hf-proxy/.python-version
@@ -0,0 +1 @@
+3.10
--- a/hf-proxy/README.md
+++ b/hf-proxy/README.md
--- a/hf-proxy/pyproject.toml
+++ b/hf-proxy/pyproject.toml
@@ -0,0 +1,18 @@
+[project]
+name = "hf-proxy"
+version = "0.1.0"
+description = "HuggingFace adapter for custom LLM models"
+readme = "README.md"
+authors = [
+    { name = "Sergey Penkovsky", email = "sergey.penkovsky@gmail.com" }
+]
+requires-python = ">=3.10"
+dependencies = [
+    "torch>=2.3.0",
+    "transformers>=4.44.0",
+    "datasets>=2.20.0",
+]
+
+[build-system]
+requires = ["uv_build>=0.8.22,<0.9.0"]
+build-backend = "uv_build"
--- a/hf-proxy/src/hf_proxy/init.py
+++ b/hf-proxy/src/hf_proxy/init.py
@@ -0,0 +1,44 @@
+"""
+HF-Proxy: Адаптер для интеграции моделей llm с HuggingFace Transformers.
+
+Этот пакет предоставляет инструменты для:
+- Конвертации кастомных LLM моделей в формат HuggingFace
+- Использования моделей через стандартные интерфейсы Transformers
+- Загрузки моделей в HuggingFace Hub
+- Создания pipelines для генерации текста
+
+Основные классы:
+- HFAdapter: Главный адаптер для преобразования моделей
+- HFGPTAdapter: Адаптер для GPT моделей
+- HFUtils: Утилиты для работы с адаптером
+- HFTokenizerAdapter: Адаптер для кастомных токенизаторов
+"""
+
+from .hf_adapter import HFAdapter, HFGPTAdapter
+from .hf_config import HFAdapterConfig, HFPretrainedConfig
+from .hf_utils import HFUtils, TokenizerWrapper, create_hf_pipeline
+from .hf_tokenizer import HFTokenizerAdapter, create_hf_tokenizer, convert_to_hf_format
+
+__version__ = "0.2.0"
+__author__ = "Sergey Penkovsky"
+__email__ = "sergey.penkovsky@gmail.com"
+
+__all__ = [
+    # Основные классы адаптера
+    "HFAdapter",
+    "HFGPTAdapter",
+    
+    # Конфигурации
+    "HFAdapterConfig", 
+    "HFPretrainedConfig",
+    
+    # Адаптеры токенизаторов
+    "HFTokenizerAdapter",
+    "create_hf_tokenizer", 
+    "convert_to_hf_format",
+    
+    # Утилиты
+    "HFUtils",
+    "TokenizerWrapper",
+    "create_hf_pipeline",
+]
--- a/hf-proxy/src/hf_proxy/hf_adapter.py
+++ b/hf-proxy/src/hf_proxy/hf_adapter.py
@@ -0,0 +1,299 @@
+"""
+Адаптер для интеграции моделей llm с HuggingFace Transformers.
+"""
+
+import torch
+import torch.nn as nn
+from typing import Optional, Tuple, Union, List
+from transformers import (
+    PreTrainedModel, 
+    GPT2LMHeadModel,
+    GPT2Config,
+    GenerationConfig,
+    LogitsProcessorList,
+    StoppingCriteriaList
+)
+from transformers.modeling_outputs import CausalLMOutputWithCrossAttentions
+
+from .hf_config import HFAdapterConfig, HFPretrainedConfig
+from llm.models.gpt import GPT
+
+
+class HFGPTAdapter(PreTrainedModel):
+    """
+    Адаптер для модели GPT из библиотеки llm.
+    Позволяет использовать кастомные GPT модели с HuggingFace Transformers.
+    """
+    config_class = HFPretrainedConfig
+    
+    def __init__(self, config: HFPretrainedConfig, llm_model: Optional[GPT] = None):
+        """
+        Инициализация адаптера.
+        
+        Args:
+            config: Конфигурация HuggingFace
+            llm_model: Опционально, предварительно созданная модель llm
+        """
+        super().__init__(config)
+        
+        # Преобразуем HF конфигурацию в формат llm
+        llm_config = self._hf_to_llm_config(config)
+        
+        # Создаем или используем переданную модель
+        if llm_model is None:
+            self.llm_model = GPT(llm_config)
+        else:
+            self.llm_model = llm_model
+        
+        # Устанавливаем веса если они есть в конфигурации
+        if hasattr(config, 'state_dict') and config.state_dict is not None:
+            self.llm_model.load_state_dict(config.state_dict)
+    
+    def _hf_to_llm_config(self, hf_config: HFPretrainedConfig) -> dict:
+        """
+        Преобразует конфигурацию HF в формат llm.
+        
+        Args:
+            hf_config: Конфигурация HuggingFace
+            
+        Returns:
+            dict: Конфигурация для llm модели
+        """
+        return {
+            "vocab_size": hf_config.vocab_size,
+            "embed_dim": hf_config.hidden_size,
+            "num_heads": hf_config.num_attention_heads,
+            "num_layers": hf_config.num_hidden_layers,
+            "max_position_embeddings": hf_config.max_position_embeddings,
+            "dropout": hf_config.hidden_dropout_prob,
+        }
+    
+    def forward(
+        self,
+        input_ids: Optional[torch.Tensor] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        labels: Optional[torch.Tensor] = None,
+        past_key_values: Optional[Tuple[Tuple[torch.Tensor]]] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        **kwargs
+    ) -> Union[Tuple, CausalLMOutputWithCrossAttentions]:
+        """
+        Прямой проход модели.
+        
+        Args:
+            input_ids: Входные токены [batch_size, seq_len]
+            attention_mask: Маска внимания [batch_size, seq_len]
+            labels: Метки для вычисления loss [batch_size, seq_len]
+            past_key_values: Кешированные ключи и значения
+            use_cache: Использовать кеширование
+            output_attentions: Возвращать веса внимания
+            output_hidden_states: Возвращать скрытые состояния
+            return_dict: Возвращать словарь вместо кортежа
+            
+        Returns:
+            CausalLMOutputWithCrossAttentions или кортеж
+        """
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        
+        # Основной forward pass
+        logits = self.llm_model(input_ids)
+        
+        loss = None
+        if labels is not None:
+            # Сдвигаем логиты и метки для языкового моделирования
+            shift_logits = logits[..., :-1, :].contiguous()
+            shift_labels = labels[..., 1:].contiguous()
+            
+            # Вычисляем cross-entropy loss
+            loss_fct = nn.CrossEntropyLoss()
+            loss = loss_fct(
+                shift_logits.view(-1, shift_logits.size(-1)),
+                shift_labels.view(-1)
+            )
+        
+        if not return_dict:
+            output = (logits,)
+            if loss is not None:
+                output = (loss,) + output
+            return output
+        
+        return CausalLMOutputWithCrossAttentions(
+            loss=loss,
+            logits=logits,
+            past_key_values=None,  # Наша модель пока не поддерживает кеширование
+            hidden_states=None,
+            attentions=None,
+            cross_attentions=None,
+        )
+    
+    def prepare_inputs_for_generation(
+        self, 
+        input_ids: torch.Tensor, 
+        past_key_values: Optional[Tuple] = None,
+        **kwargs
+    ) -> dict:
+        """
+        Подготавливает входные данные для генерации.
+        
+        Args:
+            input_ids: Входные токены
+            past_key_values: Кешированные ключи и значения
+            
+        Returns:
+            dict: Подготовленные входные данные
+        """
+        # Наша простая реализация пока не поддерживает past_key_values
+        return {"input_ids": input_ids}
+    
+    def can_generate(self) -> bool:
+        """Проверяет, может ли модель генерировать текст."""
+        return True
+    
+    def generate(
+        self,
+        input_ids: Optional[torch.Tensor] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        generation_config: Optional[GenerationConfig] = None,
+        logits_processor: Optional[LogitsProcessorList] = None,
+        stopping_criteria: Optional[StoppingCriteriaList] = None,
+        **kwargs
+    ) -> torch.Tensor:
+        """
+        Генерация текста с поддержкой HuggingFace интерфейса.
+        
+        Args:
+            input_ids: Входные токены
+            attention_mask: Маска внимания
+            generation_config: Конфигурация генерации
+            logits_processor: Процессоры логитов
+            stopping_criteria: Критерии остановки
+            
+        Returns:
+            torch.Tensor: Сгенерированные токены
+        """
+        # Извлекаем обязательные параметры из kwargs или используем значения по умолчанию
+        max_new_tokens = kwargs.pop('max_new_tokens', 50)
+        do_sample = kwargs.pop('do_sample', True)
+        
+        # Используем встроенную генерацию llm модели
+        return self.llm_model.generate(
+            x=input_ids,
+            max_new_tokens=max_new_tokens,
+            do_sample=do_sample,
+            attention_mask=attention_mask,
+            **kwargs
+        )
+
+
+class HFAdapter:
+    """
+    Основной класс адаптера для преобразования моделей llm в формат HuggingFace.
+    """
+    
+    @staticmethod
+    def from_llm_model(
+        llm_model: GPT, 
+        hf_config: Optional[HFAdapterConfig] = None
+    ) -> HFGPTAdapter:
+        """
+        Создает адаптер из существующей llm модели.
+        
+        Args:
+            llm_model: Обученная модель из библиотеки llm
+            hf_config: Конфигурация для HuggingFace
+            
+        Returns:
+            HFGPTAdapter: Адаптированная модель
+        """
+        if hf_config is None:
+            # Создаем конфигурацию из модели llm
+            hf_config = HFAdapterConfig.from_llm_config(llm_model.config)
+        
+        # Преобразуем в PretrainedConfig
+        pretrained_config = HFPretrainedConfig(**hf_config.to_dict())
+        
+        return HFGPTAdapter(pretrained_config, llm_model)
+    
+    @staticmethod
+    def from_pretrained(
+        model_path: str,
+        hf_config: Optional[HFAdapterConfig] = None
+    ) -> HFGPTAdapter:
+        """
+        Загружает модель из чекпоинта и создает адаптер.
+        
+        Args:
+            model_path: Путь к сохраненной модели
+            hf_config: Конфигурация для HuggingFace
+            
+        Returns:
+            HFGPTAdapter: Адаптированная модель
+        """
+        # Загружаем состояние модели
+        state_dict = torch.load(model_path, map_location='cpu')
+        
+        # Определяем конфигурацию из состояния модели или используем переданную
+        if hf_config is None:
+            # Пытаемся определить конфигурацию из состояния модели
+            # Это упрощенный подход - в реальности нужно сохранять конфигурацию отдельно
+            vocab_size = state_dict.get('_token_embeddings._embedding.weight', torch.zeros(50257, 768)).shape[0]
+            embed_dim = state_dict.get('_token_embeddings._embedding.weight', torch.zeros(50257, 768)).shape[1]
+            
+            hf_config = HFAdapterConfig(
+                vocab_size=vocab_size,
+                hidden_size=embed_dim,
+                # Остальные параметры можно установить по умолчанию
+            )
+        
+        pretrained_config = HFPretrainedConfig(**hf_config.to_dict())
+        
+        # Создаем модель llm и загружаем веса
+        llm_config = {
+            "vocab_size": hf_config.vocab_size,
+            "embed_dim": hf_config.hidden_size,
+            "num_heads": hf_config.num_attention_heads,
+            "num_layers": hf_config.num_hidden_layers,
+            "max_position_embeddings": hf_config.max_position_embeddings,
+            "dropout": hf_config.hidden_dropout_prob,
+        }
+        
+        llm_model = GPT(llm_config)
+        llm_model.load_state_dict(state_dict)
+        
+        return HFGPTAdapter(pretrained_config, llm_model)
+    
+    @staticmethod
+    def save_pretrained(
+        model: HFGPTAdapter,
+        save_directory: str,
+        **kwargs
+    ):
+        """
+        Сохраняет адаптированную модель в формате HuggingFace.
+        
+        Args:
+            model: Адаптированная модель
+            save_directory: Директория для сохранения
+            **kwargs: Дополнительные параметры
+        """
+        import os
+        import json
+        
+        # Создаем директорию если не существует
+        os.makedirs(save_directory, exist_ok=True)
+        
+        # Сохраняем конфигурацию
+        config_path = os.path.join(save_directory, "config.json")
+        with open(config_path, 'w', encoding='utf-8') as f:
+            json.dump(model.config.to_dict(), f, indent=2, ensure_ascii=False)
+        
+        # Сохраняем веса модели
+        model_path = os.path.join(save_directory, "pytorch_model.bin")
+        torch.save(model.llm_model.state_dict(), model_path)
+        
+        # Сохраняем токенизатор если передан
+        if hasattr(kwargs, 'tokenizer') and kwargs['tokenizer'] is not None:
+            kwargs['tokenizer'].save_pretrained(save_directory)
--- a/hf-proxy/src/hf_proxy/hf_config.py
+++ b/hf-proxy/src/hf_proxy/hf_config.py
@@ -0,0 +1,134 @@
+"""
+Конфигурационные классы для адаптации моделей llm к HuggingFace.
+"""
+
+from dataclasses import dataclass, field
+from typing import Dict, Any, Optional
+from transformers import PretrainedConfig
+
+@dataclass
+class HFAdapterConfig:
+    """
+    Конфигурация для адаптера HuggingFace.
+    
+    Параметры:
+        model_type: Тип модели (gpt, llama, etc.)
+        vocab_size: Размер словаря
+        hidden_size: Размер скрытого слоя
+        num_hidden_layers: Количество слоев
+        num_attention_heads: Количество голов внимания
+        max_position_embeddings: Максимальная длина последовательности
+        intermediate_size: Размер промежуточного слоя FFN
+        hidden_dropout_prob: Вероятность dropout
+        attention_probs_dropout_prob: Вероятность dropout в внимании
+        initializer_range: Диапазон инициализации весов
+        layer_norm_eps: Эпсилон для LayerNorm
+        use_cache: Использовать кеширование
+        pad_token_id: ID токена паддинга
+        eos_token_id: ID токена конца строки
+        bos_token_id: ID токена начала строки
+    """
+    model_type: str = "gpt"
+    vocab_size: int = 50257
+    hidden_size: int = 768
+    num_hidden_layers: int = 12
+    num_attention_heads: int = 12
+    max_position_embeddings: int = 1024
+    intermediate_size: int = 3072
+    hidden_dropout_prob: float = 0.1
+    attention_probs_dropout_prob: float = 0.1
+    initializer_range: float = 0.02
+    layer_norm_eps: float = 1e-5
+    use_cache: bool = True
+    pad_token_id: int = 50256
+    eos_token_id: int = 50256
+    bos_token_id: int = 50256
+    
+    # Дополнительные параметры для совместимости
+    architectures: list = field(default_factory=lambda: ["GPT2LMHeadModel"])
+    torch_dtype: str = "float32"
+    transformers_version: str = "4.44.0"
+    
+    def to_dict(self) -> Dict[str, Any]:
+        """Преобразует конфигурацию в словарь."""
+        return {
+            k: v for k, v in self.__dict__.items() 
+            if not k.startswith('_') and not callable(v)
+        }
+    
+    @classmethod
+    def from_llm_config(cls, llm_config: Dict[str, Any]) -> "HFAdapterConfig":
+        """
+        Создает конфигурацию HF из конфигурации llm.
+        
+        Args:
+            llm_config: Конфигурация модели из библиотеки llm
+            
+        Returns:
+            HFAdapterConfig: Конфигурация для HuggingFace
+        """
+        # Маппинг параметров из llm в HF формат
+        mapping = {
+            "embed_dim": "hidden_size",
+            "num_layers": "num_hidden_layers", 
+            "num_heads": "num_attention_heads",
+            "max_position_embeddings": "max_position_embeddings",
+            "dropout": "hidden_dropout_prob",
+            "vocab_size": "vocab_size"
+        }
+        
+        hf_config_dict = {}
+        for llm_key, hf_key in mapping.items():
+            if llm_key in llm_config:
+                hf_config_dict[hf_key] = llm_config[llm_key]
+        
+        # Устанавливаем промежуточный размер (обычно 4x hidden_size)
+        if "hidden_size" in hf_config_dict:
+            hf_config_dict["intermediate_size"] = hf_config_dict["hidden_size"] * 4
+        
+        return cls(**hf_config_dict)
+
+
+class HFPretrainedConfig(PretrainedConfig):
+    """
+    Конфигурация для предобученных моделей HuggingFace.
+    Наследуется от PretrainedConfig для полной совместимости.
+    """
+    model_type = "gpt"
+    
+    def __init__(
+        self,
+        vocab_size=50257,
+        hidden_size=768,
+        num_hidden_layers=12,
+        num_attention_heads=12,
+        max_position_embeddings=1024,
+        intermediate_size=3072,
+        hidden_dropout_prob=0.1,
+        attention_probs_dropout_prob=0.1,
+        initializer_range=0.02,
+        layer_norm_eps=1e-5,
+        use_cache=True,
+        pad_token_id=50256,
+        eos_token_id=50256,
+        bos_token_id=50256,
+        **kwargs
+    ):
+        super().__init__(
+            pad_token_id=pad_token_id,
+            eos_token_id=eos_token_id,
+            bos_token_id=bos_token_id,
+            **kwargs
+        )
+        
+        self.vocab_size = vocab_size
+        self.hidden_size = hidden_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.max_position_embeddings = max_position_embeddings
+        self.intermediate_size = intermediate_size
+        self.hidden_dropout_prob = hidden_dropout_prob
+        self.attention_probs_dropout_prob = attention_probs_dropout_prob
+        self.initializer_range = initializer_range
+        self.layer_norm_eps = layer_norm_eps
+        self.use_cache = use_cache
--- a/hf-proxy/src/hf_proxy/hf_tokenizer.py
+++ b/hf-proxy/src/hf_proxy/hf_tokenizer.py
@@ -0,0 +1,418 @@
+"""
+Адаптер для интеграции кастомных токенизаторов llm с HuggingFace.
+"""
+
+import json
+from typing import Dict, List, Optional, Union
+from llm.tokenizers import BPETokenizer, BaseTokenizer
+
+
+class HFTokenizerAdapter:
+    """
+    Упрощенный адаптер для кастомных токенизаторов llm.
+    Предоставляет совместимый с HuggingFace интерфейс.
+    """
+    
+    def __init__(self, llm_tokenizer: BaseTokenizer):
+        """
+        Инициализация адаптера.
+        
+        Args:
+            llm_tokenizer: Кастомный токенизатор из llm
+        """
+        self.llm_tokenizer = llm_tokenizer
+        
+        # Получаем словарь и размер
+        self._vocab = llm_tokenizer.get_vocab()
+        self.vocab_size = llm_tokenizer.get_vocab_size()
+        
+        # Устанавливаем специальные токены
+        self.pad_token = getattr(llm_tokenizer, 'pad_token', '<pad>')
+        self.unk_token = getattr(llm_tokenizer, 'unk_token', '<unk>') 
+        self.bos_token = getattr(llm_tokenizer, 'bos_token', '<bos>')
+        self.eos_token = getattr(llm_tokenizer, 'eos_token', '<eos>')
+        
+        # Сохраняем ID специальных токенов
+        self.pad_token_id = getattr(llm_tokenizer, 'pad_token_id', 0)
+        self.unk_token_id = getattr(llm_tokenizer, 'unk_token_id', 1)
+        self.bos_token_id = getattr(llm_tokenizer, 'bos_token_id', 2)
+        self.eos_token_id = getattr(llm_tokenizer, 'eos_token_id', 3)
+    
+    def __call__(self, text: str, **kwargs):
+        """
+        Вызов токенизатора с параметрами как у HuggingFace.
+        
+        Args:
+            text: Входной текст
+            **kwargs: Параметры токенизации
+            
+        Returns:
+            dict: Словарь с токенами
+        """
+        return_tensors = kwargs.get('return_tensors', None)
+        padding = kwargs.get('padding', False)
+        truncation = kwargs.get('truncation', False)
+        max_length = kwargs.get('max_length', None)
+        add_special_tokens = kwargs.get('add_special_tokens', True)
+        
+        # Кодируем текст
+        input_ids = self.llm_tokenizer.encode(
+            text, 
+            add_special_tokens=add_special_tokens
+        )
+        
+        # Применяем truncation
+        if truncation and max_length is not None and len(input_ids) > max_length:
+            input_ids = input_ids[:max_length]
+        
+        # Применяем padding
+        if padding and max_length is not None and len(input_ids) < max_length:
+            input_ids = input_ids + [self.pad_token_id] * (max_length - len(input_ids))
+        
+        # Конвертируем в тензоры если нужно
+        if return_tensors == "pt":
+            import torch
+            input_ids = torch.tensor([input_ids])
+        
+        return {"input_ids": input_ids}
+    
+    def encode(
+        self,
+        text: str,
+        text_pair: Optional[str] = None,
+        add_special_tokens: bool = True,
+        padding: bool = False,
+        truncation: bool = False,
+        max_length: Optional[int] = None,
+        return_tensors: Optional[str] = None,
+        **kwargs
+    ) -> Union[List[int], List[List[int]]]:
+        """
+        Кодирует текст в последовательность токенов.
+        
+        Args:
+            text: Входной текст
+            text_pair: Второй текст (для парных задач)
+            add_special_tokens: Добавлять специальные токены
+            padding: Добавлять паддинг
+            truncation: Обрезать последовательность
+            max_length: Максимальная длина
+            return_tensors: Возвращать тензоры
+            
+        Returns:
+            Список токенов или список списков токенов
+        """
+        # Кодируем основной текст
+        token_ids = self.llm_tokenizer.encode(
+            text, 
+            add_special_tokens=add_special_tokens
+        )
+        
+        # Обрабатываем text_pair если есть
+        if text_pair is not None:
+            pair_ids = self.llm_tokenizer.encode(
+                text_pair,
+                add_special_tokens=False
+            )
+            token_ids.extend(pair_ids)
+        
+        # Применяем truncation
+        if truncation and max_length is not None and len(token_ids) > max_length:
+            token_ids = token_ids[:max_length]
+        
+        # Применяем padding
+        if padding and max_length is not None and len(token_ids) < max_length:
+            token_ids = token_ids + [self.pad_token_id] * (max_length - len(token_ids))
+        
+        # Конвертируем в тензоры если нужно
+        if return_tensors == "pt":
+            import torch
+            return torch.tensor([token_ids])
+        elif return_tensors == "np":
+            import numpy as np
+            return np.array([token_ids])
+        
+        return token_ids
+    
+    def decode(
+        self,
+        token_ids: Union[int, List[int], List[List[int]]],
+        skip_special_tokens: bool = True,
+        **kwargs
+    ) -> str:
+        """
+        Декодирует последовательность токенов в текст.
+        
+        Args:
+            token_ids: ID токенов
+            skip_special_tokens: Пропускать специальные токены
+            
+        Returns:
+            str: Декодированный текст
+        """
+        # Обрабатываем разные форматы входных данных
+        if isinstance(token_ids, int):
+            token_ids = [token_ids]
+        elif isinstance(token_ids, list) and len(token_ids) > 0 and isinstance(token_ids[0], list):
+            # Список списков - берем первый элемент
+            token_ids = token_ids[0]
+        
+        # Фильтруем специальные токены если нужно
+        if skip_special_tokens:
+            special_ids = {self.pad_token_id, self.unk_token_id, self.bos_token_id, self.eos_token_id}
+            token_ids = [tid for tid in token_ids if tid not in special_ids]
+        
+        return self.llm_tokenizer.decode(token_ids)
+    
+    def tokenize(self, text: str, **kwargs) -> List[str]:
+        """
+        Токенизирует текст в список строковых токенов.
+        
+        Args:
+            text: Входной текст
+            
+        Returns:
+            List[str]: Список токенов
+        """
+        return self.llm_tokenizer.tokenize(text)
+    
+    def pad(
+        self,
+        encoded_inputs,
+        padding=True,
+        max_length=None,
+        pad_to_multiple_of=None,
+        return_attention_mask=None,
+        return_tensors=None,
+        verbose=True,
+    ):
+        """
+        Pad a list of encoded inputs.
+        
+        Args:
+            encoded_inputs: List of encoded inputs
+            padding: Padding strategy
+            max_length: Maximum length
+            pad_to_multiple_of: Pad to multiple of
+            return_attention_mask: Return attention mask
+            return_tensors: Return tensors
+            verbose: Verbose mode
+            
+        Returns:
+            Padded inputs
+        """
+        # Простая реализация padding для совместимости
+        if isinstance(encoded_inputs, (list, tuple)) and len(encoded_inputs) > 0:
+            # Находим максимальную длину
+            max_len = 0
+            for item in encoded_inputs:
+                input_ids = item["input_ids"]
+                # Обрабатываем разные типы данных
+                if isinstance(input_ids, int):
+                    seq_len = 1
+                elif hasattr(input_ids, 'shape'):
+                    seq_len = input_ids.shape[-1] if len(input_ids.shape) > 1 else len(input_ids)
+                else:
+                    seq_len = len(input_ids)
+                max_len = max(max_len, seq_len)
+            
+            if max_length is not None:
+                max_len = min(max_len, max_length)
+            
+            # Применяем padding
+            for item in encoded_inputs:
+                input_ids = item["input_ids"]
+                
+                # Получаем текущую длину
+                if isinstance(input_ids, int):
+                    current_len = 1
+                elif hasattr(input_ids, 'shape'):
+                    current_len = input_ids.shape[-1] if len(input_ids.shape) > 1 else len(input_ids)
+                else:
+                    current_len = len(input_ids)
+                
+                if current_len < max_len:
+                    # Дополняем pad_token_id
+                    padding_length = max_len - current_len
+                    
+                    # Обрабатываем разные типы данных
+                    if isinstance(input_ids, int):
+                        item["input_ids"] = [input_ids] + [self.pad_token_id] * padding_length
+                    elif hasattr(input_ids, 'shape'):
+                        import torch
+                        padding_tensor = torch.full((padding_length,), self.pad_token_id, dtype=input_ids.dtype)
+                        item["input_ids"] = torch.cat([input_ids, padding_tensor])
+                    else:
+                        item["input_ids"] = input_ids + [self.pad_token_id] * padding_length
+                    
+                    # Добавляем attention_mask если требуется
+                    if "attention_mask" in item:
+                        mask = item["attention_mask"]
+                        if isinstance(mask, int):
+                            item["attention_mask"] = [mask] + [0] * padding_length
+                        elif hasattr(mask, 'shape'):
+                            padding_mask = torch.zeros(padding_length, dtype=mask.dtype)
+                            item["attention_mask"] = torch.cat([mask, padding_mask])
+                        else:
+                            item["attention_mask"] = mask + [0] * padding_length
+                    elif return_attention_mask:
+                        if isinstance(input_ids, int):
+                            item["attention_mask"] = [1] + [0] * padding_length
+                        elif hasattr(input_ids, 'shape'):
+                            attention_mask = torch.ones(current_len, dtype=torch.long)
+                            padding_mask = torch.zeros(padding_length, dtype=torch.long)
+                            item["attention_mask"] = torch.cat([attention_mask, padding_mask])
+                        else:
+                            item["attention_mask"] = [1] * current_len + [0] * padding_length
+        
+        # Конвертируем в тензоры если требуется
+        if return_tensors == "pt":
+            import torch
+            for key in list(encoded_inputs[0].keys()):
+                if isinstance(encoded_inputs[0][key], list):
+                    for i in range(len(encoded_inputs)):
+                        encoded_inputs[i][key] = torch.tensor(encoded_inputs[i][key])
+        
+        return encoded_inputs
+    
+    def get_vocab(self) -> Dict[str, int]:
+        """Возвращает словарь токенизатора."""
+        return self._vocab
+    
+    def __len__(self) -> int:
+        """Возвращает размер словаря."""
+        return self.vocab_size
+    
+    def save_pretrained(self, save_directory: str, **kwargs):
+        """
+        Сохраняет токенизатор в формате HuggingFace.
+        
+        Args:
+            save_directory: Директория для сохранения
+            **kwargs: Дополнительные параметры
+        """
+        import os
+        
+        # Создаем директорию если не существует
+        os.makedirs(save_directory, exist_ok=True)
+        
+        # Сохраняем конфигурацию токенизатора
+        tokenizer_config = {
+            "tokenizer_class": self.__class__.__name__,
+            "llm_tokenizer_type": self.llm_tokenizer.__class__.__name__,
+            "vocab_size": self.vocab_size,
+            "pad_token": self.pad_token,
+            "unk_token": self.unk_token,
+            "bos_token": self.bos_token,
+            "eos_token": self.eos_token,
+            "pad_token_id": self.pad_token_id,
+            "unk_token_id": self.unk_token_id,
+            "bos_token_id": self.bos_token_id,
+            "eos_token_id": self.eos_token_id,
+        }
+        
+        config_path = os.path.join(save_directory, "tokenizer_config.json")
+        with open(config_path, 'w', encoding='utf-8') as f:
+            json.dump(tokenizer_config, f, ensure_ascii=False, indent=2)
+        
+        # Сохраняем словарь
+        vocab_path = os.path.join(save_directory, "vocab.json")
+        with open(vocab_path, 'w', encoding='utf-8') as f:
+            json.dump(self._vocab, f, ensure_ascii=False, indent=2)
+        
+        print(f"✅ Токенизатор сохранен в {save_directory}")
+    
+    @classmethod
+    def from_pretrained(cls, pretrained_model_name_or_path: str, **kwargs):
+        """
+        Загружает адаптированный токенизатор.
+        
+        Args:
+            pretrained_model_name_or_path: Путь к сохраненному токенизатору
+            **kwargs: Дополнительные параметры
+            
+        Returns:
+            HFTokenizerAdapter: Загруженный адаптер
+        """
+        import os
+        
+        # Проверяем, является ли путь директорией с файлами токенизатора
+        if os.path.isdir(pretrained_model_name_or_path):
+            # Загружаем из директории
+            config_path = os.path.join(pretrained_model_name_or_path, "tokenizer_config.json")
+            vocab_path = os.path.join(pretrained_model_name_or_path, "vocab.json")
+            
+            if not os.path.exists(config_path) or not os.path.exists(vocab_path):
+                raise FileNotFoundError(
+                    f"Файлы токенизатора не найдены в {pretrained_model_name_or_path}"
+                )
+            
+            # Загружаем конфигурацию
+            with open(config_path, 'r', encoding='utf-8') as f:
+                config = json.load(f)
+            
+            # Определяем тип токенизатора llm
+            llm_tokenizer_type = config.get("llm_tokenizer_type", "BPETokenizer")
+            
+            if llm_tokenizer_type == "BPETokenizer":
+                # Создаем BPETokenizer и загружаем словарь
+                llm_tokenizer = BPETokenizer()
+                
+                # Загружаем словарь
+                with open(vocab_path, 'r', encoding='utf-8') as f:
+                    vocab = json.load(f)
+                
+                llm_tokenizer.vocab = vocab
+                llm_tokenizer.inverse_vocab = {v: k for k, v in vocab.items()}
+                llm_tokenizer.vocab_size = len(vocab)
+                
+                # Устанавливаем специальные токены
+                llm_tokenizer.pad_token = config.get("pad_token", "<pad>")
+                llm_tokenizer.unk_token = config.get("unk_token", "<unk>")
+                llm_tokenizer.bos_token = config.get("bos_token", "<bos>")
+                llm_tokenizer.eos_token = config.get("eos_token", "<eos>")
+                
+                llm_tokenizer.pad_token_id = config.get("pad_token_id", 0)
+                llm_tokenizer.unk_token_id = config.get("unk_token_id", 1)
+                llm_tokenizer.bos_token_id = config.get("bos_token_id", 2)
+                llm_tokenizer.eos_token_id = config.get("eos_token_id", 3)
+                
+                return cls(llm_tokenizer, **kwargs)
+            else:
+                raise ValueError(f"Неподдерживаемый тип токенизатора: {llm_tokenizer_type}")
+        
+        else:
+            # Пытаемся загрузить как файл llm токенизатора
+            try:
+                llm_tokenizer = BPETokenizer.load(pretrained_model_name_or_path)
+                return cls(llm_tokenizer, **kwargs)
+            except:
+                raise ValueError(
+                    f"Не удалось загрузить токенизатор из {pretrained_model_name_or_path}"
+                )
+
+
+def create_hf_tokenizer(llm_tokenizer: BaseTokenizer) -> HFTokenizerAdapter:
+    """
+    Создает адаптер HuggingFace для кастомного токенизатора.
+    
+    Args:
+        llm_tokenizer: Токенизатор из библиотеки llm
+        
+    Returns:
+        HFTokenizerAdapter: Адаптированный токенизатор
+    """
+    return HFTokenizerAdapter(llm_tokenizer)
+
+
+def convert_to_hf_format(llm_tokenizer: BaseTokenizer, save_directory: str):
+    """
+    Конвертирует кастомный токенизатор в формат HuggingFace.
+    
+    Args:
+        llm_tokenizer: Токенизатор из llm
+        save_directory: Директория для сохранения
+    """
+    adapter = create_hf_tokenizer(llm_tokenizer)
+    adapter.save_pretrained(save_directory)
+    return adapter
--- a/hf-proxy/src/hf_proxy/hf_utils.py
+++ b/hf-proxy/src/hf_proxy/hf_utils.py
@@ -0,0 +1,325 @@
+"""
+Утилиты для работы с адаптером HuggingFace.
+"""
+
+import torch
+import json
+from typing import Dict, Any, Optional, List
+from transformers import AutoTokenizer, AutoConfig
+from .hf_config import HFAdapterConfig, HFPretrainedConfig
+from .hf_adapter import HFAdapter, HFGPTAdapter
+
+
+class HFUtils:
+    """
+    Утилиты для работы с HuggingFace адаптером.
+    """
+    
+    @staticmethod
+    def create_hf_config_from_llm(llm_config: Dict[str, Any]) -> HFPretrainedConfig:
+        """
+        Создает конфигурацию HuggingFace из конфигурации llm.
+        
+        Args:
+            llm_config: Конфигурация модели из библиотеки llm
+            
+        Returns:
+            HFPretrainedConfig: Конфигурация для HuggingFace
+        """
+        adapter_config = HFAdapterConfig.from_llm_config(llm_config)
+        return HFPretrainedConfig(**adapter_config.to_dict())
+    
+    @staticmethod
+    def convert_to_hf_format(
+        llm_model,
+        tokenizer = None,
+        model_name: str = "custom-gpt"
+    ) -> tuple:
+        """
+        Конвертирует llm модель в формат HuggingFace.
+        
+        Args:
+            llm_model: Модель из библиотеки llm
+            tokenizer: Токенизатор (HF или кастомный)
+            model_name: Имя модели для сохранения
+            
+        Returns:
+            tuple: (адаптированная модель, токенизатор)
+        """
+        # Создаем адаптер
+        hf_model = HFAdapter.from_llm_model(llm_model)
+        
+        # Если токенизатор не передан, создаем стандартный
+        if tokenizer is None:
+            from transformers import AutoTokenizer
+            tokenizer = AutoTokenizer.from_pretrained("gpt2")
+            # Устанавливаем специальные токены
+            if tokenizer.pad_token is None:
+                tokenizer.pad_token = tokenizer.eos_token
+        elif hasattr(tokenizer, '__class__') and 'BPETokenizer' in str(tokenizer.__class__):
+            # Если передан наш кастомный токенизатор, создаем адаптер
+            from .hf_tokenizer import create_hf_tokenizer
+            tokenizer = create_hf_tokenizer(tokenizer)
+        
+        return hf_model, tokenizer
+    
+    @staticmethod
+    def push_to_hub(
+        model: HFGPTAdapter,
+        tokenizer,
+        repo_name: str,
+        organization: Optional[str] = None,
+        private: bool = False,
+        **kwargs
+    ):
+        """
+        Загружает модель в HuggingFace Hub.
+        
+        Args:
+            model: Адаптированная модель
+            tokenizer: Токенизатор
+            repo_name: Имя репозитория
+            organization: Организация (опционально)
+            private: Приватный репозиторий
+            **kwargs: Дополнительные параметры
+        """
+        try:
+            from huggingface_hub import HfApi, ModelCard, create_repo
+            
+            # Создаем репозиторий
+            if organization:
+                repo_id = f"{organization}/{repo_name}"
+            else:
+                repo_id = repo_name
+            
+            create_repo(repo_id, private=private, exist_ok=True)
+            
+            # Сохраняем модель локально
+            import tempfile
+            import os
+            
+            with tempfile.TemporaryDirectory() as tmp_dir:
+                # Сохраняем модель
+                HFAdapter.save_pretrained(model, tmp_dir, tokenizer=tokenizer)
+                
+                # Создаем Model Card
+                card = ModelCard.from_template(
+                    model_name=repo_name,
+                    language="ru",
+                    license="apache-2.0",
+                    tags=["llm", "gpt", "custom"],
+                )
+                card.save(os.path.join(tmp_dir, "README.md"))
+                
+                # Загружаем в Hub
+                api = HfApi()
+                api.upload_folder(
+                    folder_path=tmp_dir,
+                    repo_id=repo_id,
+                    commit_message="Initial commit with custom GPT model"
+                )
+                
+            print(f"✅ Модель успешно загружена в HuggingFace Hub: {repo_id}")
+            
+        except ImportError:
+            raise ImportError(
+                "Для загрузки в HuggingFace Hub установите huggingface_hub: "
+                "pip install huggingface_hub"
+            )
+    
+    @staticmethod
+    def load_from_hub(
+        repo_id: str,
+        **kwargs
+    ) -> tuple:
+        """
+        Загружает модель из HuggingFace Hub.
+        
+        Args:
+            repo_id: ID репозитория
+            **kwargs: Дополнительные параметры
+            
+        Returns:
+            tuple: (модель, токенизатор)
+        """
+        from transformers import AutoTokenizer
+        
+        # Загружаем токенизатор
+        tokenizer = AutoTokenizer.from_pretrained(repo_id, **kwargs)
+        
+        # Загружаем конфигурацию
+        config = AutoConfig.from_pretrained(repo_id, **kwargs)
+        
+        # Создаем модель llm на основе конфигурации
+        llm_config = {
+            "vocab_size": config.vocab_size,
+            "embed_dim": config.hidden_size,
+            "num_heads": config.num_attention_heads,
+            "num_layers": config.num_hidden_layers,
+            "max_position_embeddings": config.max_position_embeddings,
+            "dropout": config.hidden_dropout_prob,
+        }
+        
+        # Загружаем модель через адаптер
+        model = HFAdapter.from_pretrained(
+            f"{repo_id}/pytorch_model.bin",
+            HFAdapterConfig.from_llm_config(llm_config)
+        )
+        
+        return model, tokenizer
+    
+    @staticmethod
+    def compare_with_hf_model(
+        llm_model,
+        hf_model_name: str = "gpt2",
+        test_input: str = "Hello world"
+    ) -> Dict[str, Any]:
+        """
+        Сравнивает llm модель с эталонной моделью из HuggingFace.
+        
+        Args:
+            llm_model: Модель из библиотеки llm
+            hf_model_name: Имя модели HuggingFace для сравнения
+            test_input: Тестовый вход
+            
+        Returns:
+            Dict: Результаты сравнения
+        """
+        from transformers import AutoModelForCausalLM, AutoTokenizer
+        
+        # Загружаем эталонную модель
+        hf_tokenizer = AutoTokenizer.from_pretrained(hf_model_name)
+        hf_model = AutoModelForCausalLM.from_pretrained(hf_model_name)
+        
+        # Подготавливаем входные данные
+        inputs = hf_tokenizer(test_input, return_tensors="pt")
+        
+        # Получаем логиты от обеих моделей
+        with torch.no_grad():
+            hf_logits = hf_model(**inputs).logits
+            llm_logits = llm_model(inputs['input_ids'])
+        
+        # Сравниваем результаты
+        hf_probs = torch.softmax(hf_logits[0, -1], dim=-1)
+        llm_probs = torch.softmax(llm_logits[0, -1], dim=-1)
+        
+        # Вычисляем метрики
+        kl_divergence = torch.nn.functional.kl_div(
+            torch.log(llm_probs + 1e-8),
+            hf_probs,
+            reduction='batchmean'
+        )
+        
+        cosine_similarity = torch.nn.functional.cosine_similarity(
+            hf_logits.flatten(),
+            llm_logits.flatten(),
+            dim=0
+        )
+        
+        return {
+            "kl_divergence": kl_divergence.item(),
+            "cosine_similarity": cosine_similarity.item(),
+            "hf_top_tokens": torch.topk(hf_probs, 5).indices.tolist(),
+            "llm_top_tokens": torch.topk(llm_probs, 5).indices.tolist(),
+        }
+
+
+class TokenizerWrapper:
+    """
+    Обертка для токенизатора с дополнительными утилитами.
+    """
+    
+    def __init__(self, tokenizer):
+        self.tokenizer = tokenizer
+    
+    def encode_batch(self, texts: List[str], **kwargs) -> Dict[str, torch.Tensor]:
+        """
+        Кодирует батч текстов.
+        
+        Args:
+            texts: Список текстов
+            **kwargs: Дополнительные параметры токенизации
+            
+        Returns:
+            Dict: Токенизированные данные
+        """
+        return self.tokenizer(
+            texts,
+            padding=True,
+            truncation=True,
+            return_tensors="pt",
+            **kwargs
+        )
+    
+    def decode_batch(self, token_ids: torch.Tensor, **kwargs) -> List[str]:
+        """
+        Декодирует батч токенов.
+        
+        Args:
+            token_ids: Тензор с токенами
+            **kwargs: Дополнительные параметры декодирования
+            
+        Returns:
+            List[str]: Декодированные тексты
+        """
+        if token_ids.dim() == 1:
+            token_ids = token_ids.unsqueeze(0)
+        
+        texts = []
+        for i in range(token_ids.size(0)):
+            text = self.tokenizer.decode(
+                token_ids[i],
+                skip_special_tokens=True,
+                **kwargs
+            )
+            texts.append(text)
+        
+        return texts
+    
+    def get_vocab_size(self) -> int:
+        """Возвращает размер словаря."""
+        return len(self.tokenizer)
+    
+    def get_special_tokens(self) -> Dict[str, int]:
+        """Возвращает специальные токены."""
+        return {
+            "pad_token": self.tokenizer.pad_token_id,
+            "eos_token": self.tokenizer.eos_token_id,
+            "bos_token": self.tokenizer.bos_token_id,
+            "unk_token": self.tokenizer.unk_token_id,
+        }
+
+
+def create_hf_pipeline(
+    llm_model,
+    tokenizer=None,
+    device: str = "auto",
+    **kwargs
+):
+    """
+    Создает HuggingFace pipeline из llm модели.
+    
+    Args:
+        llm_model: Модель из библиотеки llm
+        tokenizer: Токенизатор
+        device: Устройство для вычислений
+        **kwargs: Дополнительные параметры pipeline
+        
+    Returns:
+        transformers.Pipeline: Готовый pipeline
+    """
+    from transformers import pipeline
+    
+    # Конвертируем модель в HF формат
+    hf_model, tokenizer = HFUtils.convert_to_hf_format(llm_model, tokenizer)
+    
+    # Создаем pipeline
+    pipe = pipeline(
+        "text-generation",
+        model=hf_model,
+        tokenizer=tokenizer,
+        device=device,
+        **kwargs
+    )
+    
+    return pipe
--- a/hf-proxy/src/hf_proxy/py.typed
+++ b/hf-proxy/src/hf_proxy/py.typed
--- a/llm/.gitignore
+++ b/llm/.gitignore
@@ -0,0 +1,10 @@
+# Python-generated files
+__pycache__/
+*.py[oc]
+build/
+dist/
+wheels/
+*.egg-info
+
+# Virtual environments
+.venv
--- a/llm/.python-version
+++ b/llm/.python-version
@@ -0,0 +1 @@
+3.10
--- a/llm/README.md
+++ b/llm/README.md
--- a/llm/pyproject.toml
+++ b/llm/pyproject.toml
@@ -0,0 +1,17 @@
+[project]
+name = "llm"
+version = "0.1.0"
+description = "Research library for LLM architectures"
+readme = "README.md"
+authors = [
+    { name = "Sergey Penkovsky", email = "sergey.penkovsky@gmail.com" }
+]
+requires-python = ">=3.10"
+dependencies = [
+    "torch>=2.3.0",
+    "numpy>=1.24.0",
+]
+
+[build-system]
+requires = ["uv_build>=0.8.22,<0.9.0"]
+build-backend = "uv_build"
--- a/llm/src/llm/init.py
+++ b/llm/src/llm/init.py
@@ -0,0 +1,2 @@
+def hello() -> str:
+    return "Hello from llm!"
--- a/llm/src/llm/configs/gpt.yaml
+++ b/llm/src/llm/configs/gpt.yaml
--- a/llm/src/llm/core/init.py
+++ b/llm/src/llm/core/init.py
@@ -0,0 +1,2 @@
+def hello() -> str:
+    return "Hello from llm!"
--- a/llm/src/llm/core/base_model.py
+++ b/llm/src/llm/core/base_model.py
@@ -0,0 +1,20 @@
+# llm/core/base_model.py
+import torch.nn as nn
+from abc import ABC, abstractmethod
+
+class BaseModel(nn.Module, ABC):
+    """Базовый класс для всех LLM."""
+
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+
+    @abstractmethod
+    def forward(self, input_ids, attention_mask=None):
+        """Прямой проход модели."""
+        pass
+
+    @abstractmethod
+    def generate(self, input_ids, max_length=50):
+        """Генерация текста (greedy или sampling)."""
+        pass
--- a/llm/src/llm/core/decoder.py
+++ b/llm/src/llm/core/decoder.py
@@ -0,0 +1,96 @@
+from torch import nn
+import torch
+from .feed_forward import FeedForward
+from .multi_head_attention import MultiHeadAttention
+
+class Decoder(nn.Module):
+    """
+    Декодер трансформера - ключевой компонент архитектуры Transformer.
+    
+    Предназначен для:
+    - Обработки последовательностей с учетом контекста (самовнимание)
+    - Постепенного генерирования выходной последовательности
+    - Учета масок для предотвращения "заглядывания в будущее"
+
+    Алгоритм работы:
+    1. Входной тензор (batch_size, seq_len, emb_size)
+    2. Многоголовое внимание с residual connection и LayerNorm
+    3. FeedForward сеть с residual connection и LayerNorm
+    4. Выходной тензор (batch_size, seq_len, emb_size)
+
+    Основные характеристики:
+    - Поддержка масок внимания
+    - Residual connections для стабилизации градиентов
+    - Layer Normalization после каждого sub-layer
+    - Конфигурируемые параметры внимания
+
+    Примеры использования:
+
+    1. Базовый случай:
+    >>> decoder = Decoder(num_heads=8, emb_size=512, head_size=64, max_seq_len=1024)
+    >>> x = torch.randn(1, 10, 512)  # [batch, seq_len, emb_size]
+    >>> output = decoder(x)
+    >>> print(output.shape)
+    torch.Size([1, 10, 512])
+
+    2. С маской внимания:
+    >>> mask = torch.tril(torch.ones(10, 10))  # Нижнетреугольная маска
+    >>> output = decoder(x, mask)
+
+    3. Инкрементальное декодирование:
+    >>> for i in range(10):
+    >>>     output = decoder(x[:, :i+1, :], mask[:i+1, :i+1])
+    """
+    def __init__(self, 
+        num_heads: int,
+        emb_size: int,
+        head_size: int,
+        max_seq_len: int,
+        dropout: float = 0.1
+    ):
+        """
+        Инициализация декодера.
+
+        Параметры:
+            num_heads: int - количество голов внимания
+            emb_size: int - размерность эмбеддингов
+            head_size: int - размерность каждой головы внимания
+            max_seq_len: int - максимальная длина последовательности
+            dropout: float (default=0.1) - вероятность dropout
+        """
+        super().__init__()
+        self._heads = MultiHeadAttention(
+            num_heads=num_heads, 
+            emb_size=emb_size, 
+            head_size=head_size, 
+            max_seq_len=max_seq_len, 
+            dropout=dropout
+        )
+        self._ff = FeedForward(emb_size=emb_size, dropout=dropout)
+        self._norm1 = nn.LayerNorm(emb_size)
+        self._norm2 = nn.LayerNorm(emb_size)
+
+    def forward(self, x: torch.Tensor, mask: torch.Tensor = None) -> torch.Tensor:
+        """
+        Прямой проход через декодер.
+
+        Вход:
+            x: torch.Tensor - входной тензор [batch_size, seq_len, emb_size]
+            mask: torch.Tensor (optional) - маска внимания [seq_len, seq_len]
+
+        Возвращает:
+            torch.Tensor - выходной тензор [batch_size, seq_len, emb_size]
+
+        Алгоритм forward:
+        1. Применяем MultiHeadAttention к входу
+        2. Добавляем residual connection и LayerNorm
+        3. Применяем FeedForward сеть
+        4. Добавляем residual connection и LayerNorm
+        """
+        # Self-Attention блок
+        attention = self._heads(x, mask)
+        out = self._norm1(attention + x)
+        
+        # FeedForward блок
+        ffn_out = self._ff(out)
+        return self._norm2(ffn_out + out)
--- a/llm/src/llm/core/feed_forward.py
+++ b/llm/src/llm/core/feed_forward.py
@@ -0,0 +1,80 @@
+from torch import nn
+import torch
+
+class FeedForward(nn.Module):
+    """
+    Слой прямой связи (Feed Forward Network) для архитектуры трансформеров.
+    
+    Этот слой состоит из двух линейных преобразований с расширением внутренней размерности
+    в 4 раза и механизмом dropout для регуляризации. Между линейными слоями применяется
+    активация ReLU.
+
+    Алгоритм работы:
+    1. Входной тензор x (размерность: [batch_size, seq_len, emb_size])
+    2. Линейное преобразование: emb_size -> 4*emb_size
+    3. Активация ReLU
+    4. Линейное преобразование: 4*emb_size -> emb_size
+    5. Применение dropout
+    6. Возврат результата (размерность: [batch_size, seq_len, emb_size])
+
+    Предназначение:
+    - Добавляет нелинейность в архитектуру трансформера
+    - Обеспечивает взаимодействие между различными размерностями эмбеддингов
+    - Работает независимо для каждого токена в последовательности
+
+    Примеры использования:
+    
+    >>> # Инициализация слоя
+    >>> ff = FeedForward(emb_size=512, dropout=0.1)
+    >>>
+    >>> # Прямой проход
+    >>> x = torch.randn(32, 10, 512)  # [batch_size, seq_len, emb_size]
+    >>> output = ff(x)
+    >>> print(output.shape)  # torch.Size([32, 10, 512])
+    >>>
+    >>> # Работа с разными типами данных
+    >>> x_double = torch.randn(32, 10, 512, dtype=torch.float64)
+    >>> output_double = ff(x_double)
+    >>> print(output_double.dtype)  # torch.float64
+    """
+    def __init__(self, emb_size: int, dropout: float = 0.1):
+        """
+        Инициализация слоя Feed Forward Network.
+        
+        Args:
+            emb_size: Размерность входных эмбеддингов
+            dropout: Вероятность dropout для регуляризации (по умолчанию: 0.1)
+        """
+        super().__init__()
+        # Первый линейный слой (расширение размерности)
+        self._layer1 = nn.Linear(emb_size, emb_size * 4)
+        # ReLU активация
+        self._relu = nn.ReLU()
+        # Второй линейный слой (сжатие обратно)
+        self._layer2 = nn.Linear(emb_size * 4, emb_size)
+        # Dropout
+        self._dropout = nn.Dropout(dropout)
+
+    def forward(self, x: torch.Tensor):
+        """
+        Прямой проход через слой Feed Forward Network.
+        
+        Args:
+            x: Входной тензор размерности [batch_size, seq_len, emb_size]
+            
+        Returns:
+            Тензор той же размерности, что и входной
+        """
+        # Сохраняем dtype входных данных
+        input_dtype = x.dtype
+        
+        # Приводим веса к нужному типу если необходимо
+        if input_dtype != self._layer1.weight.dtype:
+            self._layer1 = self._layer1.to(dtype=input_dtype)
+            self._layer2 = self._layer2.to(dtype=input_dtype)
+            
+        # Пропустим тензор x по очереди через все созданные слои
+        x = self._layer1(x)
+        x = self._relu(x)
+        x = self._layer2(x)
+        return self._dropout(x)
--- a/llm/src/llm/core/head_attention.py
+++ b/llm/src/llm/core/head_attention.py
@@ -0,0 +1,84 @@
+import torch
+from torch import nn
+import torch.nn.functional as F
+from math import sqrt
+
+class HeadAttention(nn.Module):
+    """
+    Реализация одного головного механизма внимания из архитектуры Transformer.
+    Выполняет scaled dot-product attention с маскированием будущих позиций (causal attention).
+    
+    Основной алгоритм:
+    1. Линейные преобразования входных данных в Q (query), K (key), V (value)
+    2. Вычисление scores = Q·K^T / sqrt(d_k)
+    3. Применение causal маски (заполнение -inf будущих позиций)
+    4. Softmax для получения весов внимания
+    5. Умножение весов на значения V
+    
+    Пример использования:
+    >>> attention = HeadAttention(emb_size=64, head_size=32, max_seq_len=128)
+    >>> x = torch.randn(1, 10, 64)  # [batch_size, seq_len, emb_size]
+    >>> output = attention(x)  # [1, 10, 32]
+    
+    Параметры:
+        emb_size (int): Размер входного эмбеддинга
+        head_size (int): Размерность выхода головы внимания
+        max_seq_len (int): Максимальная длина последовательности
+    
+    Примечания:
+    - Использует нижнетреугольную маску для предотвращения "заглядывания в будущее"
+    - Автоматически адаптируется к разным версиям PyTorch
+    - Поддерживает batch-обработку входных данных
+    """
+    def __init__(self, emb_size: int, head_size: int, max_seq_len: int):
+        super().__init__()
+        self._emb_size = emb_size
+        self._head_size = head_size
+        self._max_seq_len = max_seq_len
+
+        # Линейные преобразования для Q, K, V
+        self._k = nn.Linear(emb_size, head_size)
+        self._q = nn.Linear(emb_size, head_size)
+        self._v = nn.Linear(emb_size, head_size)
+
+        # Создание causal маски
+        mask = torch.tril(torch.ones(max_seq_len, max_seq_len))
+        self.register_buffer('_tril_mask', mask.bool() if hasattr(torch, 'bool') else mask.byte())
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        """
+        Прямой проход через слой внимания.
+        
+        Аргументы:
+            x (torch.Tensor): Входной тензор формы [batch_size, seq_len, emb_size]
+            
+        Возвращает:
+            torch.Tensor: Выходной тензор формы [batch_size, seq_len, head_size]
+            
+        Исключения:
+            ValueError: Если длина последовательности превышает max_seq_len
+            
+        Пример внутренних преобразований:
+        Для входа x.shape = [2, 5, 64]:
+        1. Q/K/V преобразования -> [2, 5, 32]
+        2. Scores = Q·K^T -> [2, 5, 5]
+        3. После маски и softmax -> [2, 5, 5]
+        4. Умножение на V -> [2, 5, 32]
+        """
+        seq_len = x.shape[1]
+        if seq_len > self._max_seq_len:
+            raise ValueError(f"Длина последовательности {seq_len} превышает максимум {self._max_seq_len}")
+
+        # 1. Линейные преобразования
+        k = self._k(x)  # [B, T, hs]
+        q = self._q(x)  # [B, T, hs]
+        
+        # 2. Вычисление scores
+        scores = q @ k.transpose(-2, -1) / sqrt(self._head_size)
+        
+        # 3. Применение causal маски
+        scores = scores.masked_fill(~self._tril_mask[:seq_len, :seq_len], float('-inf'))
+        
+        # 4. Softmax и умножение на V
+        weights = F.softmax(scores, dim=-1)
+        return weights @ self._v(x)
--- a/llm/src/llm/core/multi_head_attention.py
+++ b/llm/src/llm/core/multi_head_attention.py
@@ -0,0 +1,104 @@
+from torch import nn
+import torch
+from .head_attention import HeadAttention
+
+class MultiHeadAttention(nn.Module):
+    """
+    Реализация механизма многоголового внимания (Multi-Head Attention) из архитектуры Transformer.
+
+    Основные характеристики:
+    - Параллельная обработка входных данных несколькими головами внимания
+    - Поддержка маскирования (causal mask и пользовательские маски)
+    - Финальная проекция с dropout регуляризацией
+
+    Математическое описание:
+    MultiHead(Q, K, V) = Concat(head_1, ..., head_h)W^O
+    где head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)
+
+    Примеры использования:
+
+    1. Базовый пример:
+    >>> mha = MultiHeadAttention(num_heads=8, emb_size=512, head_size=64, max_seq_len=1024)
+    >>> x = torch.randn(2, 50, 512)  # [batch_size, seq_len, emb_size]
+    >>> output = mha(x)  # [2, 50, 512]
+
+    2. С использованием маски:
+    >>> mask = torch.tril(torch.ones(50, 50))  # Causal mask
+    >>> output = mha(x, mask)
+
+    3. Интеграция в Transformer:
+    >>> # В составе Transformer слоя
+    >>> self.attention = MultiHeadAttention(...)
+    >>> x = self.attention(x, mask)
+    """
+    def __init__(self, num_heads: int, emb_size: int, head_size: int, max_seq_len: int, dropout: float = 0.1):
+        """
+        Инициализация многоголового внимания.
+
+        Параметры:
+            num_heads (int): Количество голов внимания. Типичные значения: 4-16
+            emb_size (int): Размерность входных и выходных эмбеддингов
+            head_size (int): Размерность каждой головы внимания (обычно emb_size // num_heads)
+            max_seq_len (int): Максимальная длина последовательности
+            dropout (float): Вероятность dropout (по умолчанию 0.1)
+
+        Контрольные значения:
+            - num_heads * head_size должно равняться emb_size
+            - head_size обычно выбирают 32-128
+            - max_seq_len зависит от задачи (512 для BERT, 2048 для GPT-3)
+        """
+        super().__init__()
+        self._heads = nn.ModuleList([
+            HeadAttention(
+                emb_size=emb_size, 
+                head_size=head_size, 
+                max_seq_len=max_seq_len
+            ) for _ in range(num_heads)
+        ])
+        self._layer = nn.Linear(head_size * num_heads, emb_size)
+        self._dropout = nn.Dropout(dropout)
+
+    def forward(self, x: torch.Tensor, mask: torch.Tensor = None):
+        """
+        Прямой проход через слой многоголового внимания.
+
+        Подробное описание преобразований тензоров:
+        1. Входной тензор [batch_size, seq_len, emb_size] разделяется на N голов:
+           - Каждая голова получает тензор [batch_size, seq_len, head_size]
+        2. Каждая голова вычисляет attention:
+           - Вход: [batch_size, seq_len, head_size]
+           - Выход: [batch_size, seq_len, head_size]
+        3. Конкатенация результатов:
+           - Объединенный выход: [batch_size, seq_len, num_heads * head_size]
+        4. Линейная проекция:
+           - Выход: [batch_size, seq_len, emb_size]
+        5. Применение dropout
+
+        Аргументы:
+            x (torch.Tensor): Входной тензор формы [batch_size, seq_len, emb_size]
+            mask (torch.Tensor, optional): Маска внимания формы [seq_len, seq_len]
+
+        Возвращает:
+            torch.Tensor: Выходной тензор формы [batch_size, seq_len, emb_size]
+
+        Пример преобразований для emb_size=512, num_heads=8:
+        Вход: [4, 100, 512]
+        -> Каждая голова: [4, 100, 64]
+        -> После внимания: 8 x [4, 100, 64] 
+        -> Конкатенация: [4, 100, 512]
+        -> Проекция: [4, 100, 512]
+        -> Dropout: [4, 100, 512]
+        """
+        # 1. Вычисляем attention для каждой головы
+        attention_outputs = [head(x) for head in self._heads]
+        
+        # 2. Объединяем результаты всех голов
+        concatenated_attention = torch.cat(attention_outputs, dim=-1)
+        
+        # 3. Проецируем в пространство эмбеддингов
+        projected_output = self._layer(concatenated_attention)
+        
+        # 4. Применяем dropout для регуляризации
+        final_output = self._dropout(projected_output)
+        
+        return final_output
--- a/llm/src/llm/core/positional_embeddings.py
+++ b/llm/src/llm/core/positional_embeddings.py
@@ -0,0 +1,90 @@
+import torch
+from torch import nn, Tensor
+
+class PositionalEmbeddings(nn.Module):
+    """
+    Класс для создания позиционных эмбеддингов через nn.Embedding.
+    
+    Позиционные эмбеддинги используются в нейросетях для передачи информации 
+    о позиции элементов в последовательности (например, в Transformer).
+    
+    Особенности:
+    - Создаёт обучаемые позиционные эмбеддинги фиксированной длины
+    - Поддерживает обработку последовательностей переменной длины
+    - Автоматически размещает вычисления на том же устройстве, что и параметры
+    
+    Args:
+        max_seq_len (int): Максимальная длина последовательности
+        emb_size (int): Размерность векторного представления позиций
+    
+    Пример использования:
+        >>> pos_encoder = PositionalEmbeddings(max_seq_len=100, emb_size=256)
+        >>> # Получить эмбеддинги для последовательности из 10 элементов
+        >>> embeddings = pos_encoder(10)  # Tensor shape: [10, 256]
+        >>> # Использование в модели
+        >>> class MyModel(nn.Module):
+        ...     def __init__(self):
+        ...         super().__init__()
+        ...         self.pos_emb = PositionalEmbeddings(100, 256)
+        ...     def forward(self, x):
+        ...         pos = self.pos_emb(x.size(1))
+        ...         return x + pos  # Добавляем позиционную информацию
+    """
+
+    def __init__(self, max_seq_len: int, emb_size: int):
+        super().__init__()
+        self.max_seq_len = max_seq_len
+        self.emb_size = emb_size
+        self.embedding = nn.Embedding(
+            num_embeddings=max_seq_len,
+            embedding_dim=emb_size
+        )
+
+    def forward(self, seq_len: int) -> Tensor:
+        """
+        Возвращает позиционные эмбеддинги для заданной длины последовательности.
+        
+        Args:
+            seq_len (int): Длина последовательности (1 <= seq_len <= max_seq_len)
+            
+        Returns:
+            Tensor: Тензор позиционных эмбеддингов формы [seq_len, emb_size]
+            
+        Raises:
+            IndexError: Если seq_len выходит за допустимые границы
+            
+        Пример:
+            >>> pos_encoder = PositionalEmbeddings(100, 64)
+            >>> emb = pos_encoder(10)  # Тензор 10x64
+        """
+        if seq_len < 1 or seq_len > self.max_seq_len:
+            raise IndexError(f"Длина {seq_len} должна быть от 1 до {self.max_seq_len}")
+        positions = torch.arange(seq_len, device=self.embedding.weight.device)
+        return self.embedding(positions)
+
+if __name__ == "__main__":
+    # Демонстрация работы
+    print("Пример использования PositionalEmbeddings:")
+    pos_emb = PositionalEmbeddings(max_seq_len=50, emb_size=128)
+    
+    # Пример 1: Базовое использование
+    print("\n1. Базовый пример:")
+    emb = pos_emb(10)
+    print(f"Форма выходного тензора: {emb.shape}")
+    print(f"Среднее значение: {emb.mean().item():.4f}")
+    
+    # Пример 2: Интеграция с моделью
+    print("\n2. Пример интеграции с моделью:")
+    class DemoModel(nn.Module):
+        def __init__(self):
+            super().__init__()
+            self.pos_emb = PositionalEmbeddings(50, 128)
+            
+        def forward(self, x):
+            pos = self.pos_emb(x.size(1))
+            return x + pos  # Добавляем позиционную информацию
+            
+    model = DemoModel()
+    input_tensor = torch.randn(2, 10, 128)  # [batch, seq, features]
+    output = model(input_tensor)
+    print(f"Вход: {input_tensor.shape}, Выход: {output.shape}")
--- a/llm/src/llm/core/token_embeddings.py
+++ b/llm/src/llm/core/token_embeddings.py
@@ -0,0 +1,68 @@
+import torch
+from torch import nn
+from torch import Tensor
+
+class TokenEmbeddings(nn.Module):
+    """
+    Модуль PyTorch для преобразования индексов токенов в векторные представления (эмбеддинги).
+    
+    Преобразует целочисленные индексы токенов в обучаемые векторные представления фиксированного размера.
+    Обычно используется как первый слой в нейронных сетях для задач NLP.
+    
+    Аргументы:
+        vocab_size (int): Размер словаря (количество уникальных токенов)
+        emb_size (int): Размерность векторных представлений
+        
+    Форматы данных:
+        - Вход: тензор (batch_size, seq_len) индексов токенов
+        - Выход: тензор (batch_size, seq_len, emb_size) векторных представлений
+        
+    Примеры использования:
+        >>> embedding_layer = TokenEmbeddings(vocab_size=10000, emb_size=256)
+        >>> tokens = torch.tensor([[1, 2, 3], [4, 5, 6]])  # batch_size=2, seq_len=3
+        >>> embeddings = embedding_layer(tokens)
+        >>> embeddings.shape
+        torch.Size([2, 3, 256])
+        
+    Примечание:
+        - Индексы должны быть в диапазоне [0, vocab_size-1]
+        - Эмбеддинги инициализируются случайно и обучаются в процессе тренировки модели
+    """
+    def __init__(self, vocab_size: int, emb_size: int):
+        super().__init__()
+        self._embedding = nn.Embedding(
+            num_embeddings=vocab_size,
+            embedding_dim=emb_size
+        )
+
+    def forward(self, x: Tensor) -> Tensor:
+        return self._embedding(x)
+
+    @property
+    def num_embeddings(self) -> int:
+        """Возвращает размер словаря"""
+        return self._embedding.num_embeddings
+
+    @property
+    def embedding_dim(self) -> int:
+        """Возвращает размерность эмбеддингов"""
+        return self._embedding.embedding_dim
+
+
+if __name__ == "__main__":
+    # Пример использования
+    embedding = TokenEmbeddings(vocab_size=100, emb_size=128)
+
+    # Создаем тензор с индексами в пределах vocab_size (0-99)
+    tensor = torch.tensor([
+        [11, 45, 76, 34],
+        [34, 67, 45, 54]
+    ])
+
+    # Проверяем индексы
+    if (tensor >= 100).any():
+        raise ValueError("Some indices are out of vocabulary range (vocab_size=100)")
+
+    output = embedding(tensor)
+    print("Embeddings shape:", output.shape)
+    print(f"{output.shape} | {output.mean().item():.11f}")  # Формат как в ТЗ
--- a/llm/src/llm/evaluation/init.py
+++ b/llm/src/llm/evaluation/init.py
@@ -0,0 +1,2 @@
+def hello() -> str:
+    return "Hello from llm!"
--- a/llm/src/llm/evaluation/benchmark.py
+++ b/llm/src/llm/evaluation/benchmark.py
--- a/llm/src/llm/evaluation/perplexity.py
+++ b/llm/src/llm/evaluation/perplexity.py
--- a/llm/src/llm/evaluation/utils.py
+++ b/llm/src/llm/evaluation/utils.py
--- a/llm/src/llm/models/gpt/init.py
+++ b/llm/src/llm/models/gpt/init.py
@@ -0,0 +1,3 @@
+from .gpt import GPT
+
+__all__ = ["GPT"]
--- a/llm/src/llm/models/gpt/gpt.py
+++ b/llm/src/llm/models/gpt/gpt.py
@@ -0,0 +1,264 @@
+# llm/models/gpt/gpt2.py
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from llm.core.base_model import BaseModel
+from llm.core.decoder import Decoder
+from llm.core.token_embeddings import TokenEmbeddings
+from llm.core.positional_embeddings import PositionalEmbeddings
+
+class GPT(BaseModel):
+    """GPT-like трансформер для генерации текста
+    
+    Args:
+        vocab_size: Размер словаря
+        max_seq_len: Макс. длина последовательности
+        emb_size: Размерность эмбеддингов
+        num_heads: Количество голов внимания
+        head_size: Размерность голов внимания
+        num_layers: Количество слоёв декодера
+        dropout: Вероятность dropout (default=0.1)
+        device: Устройство (default='cpu')
+    """
+    def __init__(self, config):
+        super().__init__(config)
+
+        # Инициализация слоев
+        self._max_seq_len = config["max_position_embeddings"]
+        self._token_embeddings = TokenEmbeddings(
+            vocab_size=config["vocab_size"], 
+            emb_size=config["embed_dim"]
+        )
+        self._position_embeddings = PositionalEmbeddings(
+            max_seq_len=config["max_position_embeddings"], 
+            emb_size=config["embed_dim"]
+        )
+        self._dropout = nn.Dropout(config["dropout"])
+        # head_size = emb_size // num_heads
+        self._decoders = nn.ModuleList([Decoder(
+            num_heads=config["num_heads"],
+            emb_size=config["embed_dim"],
+            head_size=config["embed_dim"] // config["num_heads"],
+            max_seq_len=config["max_position_embeddings"],
+            dropout=config["dropout"] 
+        ) for _ in range(config["num_layers"])])
+        self._linear = nn.Linear(config["embed_dim"], config["vocab_size"])
+    
+    @property
+    def max_seq_len(self):
+        """Возвращает максимальную длину последовательности."""
+        return self._max_seq_len
+
+    def forward(self, x: torch.Tensor, attention_mask=None) -> torch.Tensor:
+        """Прямой проход через GPT
+        
+        Args:
+            x: Входной тензор [batch_size, seq_len]
+            
+        Returns:
+            Тензор логитов [batch_size, seq_len, vocab_size]
+        """
+        # Проверка длины последовательности
+        if x.size(1) > self._max_seq_len:
+            raise ValueError(f"Длина последовательности {x.size(1)} превышает максимальную {self._max_seq_len}")
+        
+        # Эмбеддинги токенов и позиций
+        tok_out = self._token_embeddings(x)  # [batch, seq_len, emb_size]
+        pos_out = self._position_embeddings(x.size(1))  # [seq_len, emb_size]
+        
+        # Комбинирование
+        out = self._dropout(tok_out + pos_out.unsqueeze(0))  # [batch, seq_len, emb_size]
+        
+        # Стек декодеров
+        for decoder in self._decoders:
+            out = decoder(out)
+            
+        return self._linear(out)  # [batch, seq_len, vocab_size]
+
+
+#    def forward(self, input_ids, attention_mask=None):
+#        B, T = input_ids.size()
+#        pos = torch.arange(0, T, device=input_ids.device).unsqueeze(0)
+#
+#        x = self.token_emb(input_ids) + self.pos_emb(pos)
+#
+#        for block in self.blocks:
+#            x = block(x, attention_mask)
+#
+#        x = self.ln_f(x)
+#        logits = self.head(x)
+#        return logits
+
+
+    def generate(self,
+        x: torch.Tensor, 
+        max_new_tokens: int, 
+        do_sample: bool,
+        temperature: float = 1.0,
+        top_k: int = None,
+        top_p: float = None,
+        attention_mask: torch.Tensor = None,  # Добавляем для совместимости с HF
+        **kwargs  # Игнорируем остальные параметры
+    ) -> torch.Tensor:
+        """Авторегрессивная генерация текста.
+        
+        Параметры:
+            x: Входной тензор с индексами токенов формы [batch_size, seq_len],
+               где batch_size - размер батча, seq_len - длина последовательности.
+            max_new_tokens: Максимальное количество новых токенов для генерации.
+            do_sample: Флаг выбора режима генерации:
+                - True: вероятностное сэмплирование
+                - False: жадный поиск (argmax)
+            temperature: Параметр температуры для сэмплирования:
+                - >1.0 - более случайные результаты
+                - 1.0 - нейтральное значение
+                - <1.0 - более предсказуемые результаты
+                Должна быть > 0 (по умолчанию: 1.0)
+            top_k: Если задан (и do_sample=True), используется top-k сэмплирование:
+                - Выбираются только top_k самых вероятных токенов
+                - Остальным токенам устанавливается вероятность 0
+                - None: отключено (по умолчанию)
+            top_p: Если задан (и do_sample=True), используется nucleus (top-p) сэмплирование:
+                - Выбираются токены с кумулятивной вероятностью ≤ top_p
+                - Гарантируется, что хотя бы один токен остаётся (даже если его вероятность > top_p)
+                - None: отключено (по умолчанию)
+                - Должен быть в диапазоне (0, 1]
+        
+        Возвращает:
+            torch.Tensor: Тензор с расширенной последовательностью токенов формы 
+                          [batch_size, seq_len + max_new_tokens]
+
+        Исключения:
+            ValueError: Если входная последовательность длиннее max_seq_len
+            ValueError: Если temperature <= 0
+            ValueError: Если одновременно заданы top_k и top_p
+            ValueError: Если top_k задан и ≤ 0
+            ValueError: Если top_p задан и не в диапазоне (0, 1]
+
+        Примеры:
+            >>> # Жадная генерация
+            >>> output = model.generate(input_ids, max_new_tokens=10, do_sample=False)
+            >>> 
+            >>> # Вероятностная генерация с top-k
+            >>> output = model.generate(input_ids, max_new_tokens=10, do_sample=True, top_k=50)
+            >>>
+            >>> # Nucleus sampling (top-p)
+            >>> output = model.generate(input_ids, max_new_tokens=10, do_sample=True, top_p=0.9)
+            >>>
+            >>> # Комбинация температуры и top-k
+            >>> output = model.generate(input_ids, max_new_tokens=10, do_sample=True, 
+            ...                        temperature=0.7, top_k=50)
+
+        Примечания:
+            1. Для детерминированных результатов в режиме сэмплирования 
+               зафиксируйте random seed (torch.manual_seed).
+            2. Температура влияет только на режим сэмплирования (do_sample=True).
+            3. Одновременное использование top_k и top_p запрещено.
+            4. При do_sample=False параметры top_k, top_p и temperature игнорируются.
+
+        Args:
+            x (torch.Tensor): Входной тензор с индексами токенов формы [batch_size, seq_len],
+                              где batch_size - размер батча, seq_len - длина последовательности.
+            max_new_tokens (int): Максимальное количество новых токенов для генерации.
+            do_sample (bool): Флаг выбора режима генерации:
+                              - True: вероятностное сэмплирование
+                              - False: жадный поиск (argmax)
+            temperature (float): Параметр температуры для сэмплирования:
+                              - >1.0 - более случайные результаты
+                              - 1.0 - нейтральное значение
+                              - <1.0 - более предсказуемые результаты
+                              Должна быть > 0 (по умолчанию: 1.0)
+
+        Returns:
+            torch.Tensor: Тензор с расширенной последовательностью токенов формы 
+                          [batch_size, seq_len + max_new_tokens]
+
+        Raises:
+            ValueError: Если входная последовательность длиннее max_seq_len
+            ValueError: Если temperature <= 0
+
+        Examples:
+            >>> # Жадная генерация
+            >>> output = model.generate(input_ids, max_new_tokens=10, do_sample=False)
+            >>>
+            >>> # Вероятностная генерация с температурой
+            >>> output = model.generate(input_ids, max_new_tokens=10, do_sample=True, temperature=0.7)
+            >>>
+            >>> # Более случайная генерация
+            >>> output = model.generate(input_ids, max_new_tokens=10, do_sample=True, temperature=1.5)
+
+        Note:
+            Для детерминированных результатов в режиме сэмплирования 
+            зафиксируйте random seed (torch.manual_seed).
+            Температура влияет только на режим сэмплирования (do_sample=True).
+        """
+        for _ in range(max_new_tokens):
+            # 1. Обрезаем вход, если последовательность слишком длинная
+            x_cond = x[:, -self._max_seq_len:]
+
+            # 2. Передаем последовательность в метод forward класса GPT и полуаем логиты.
+            logits = self.forward(x_cond)
+
+            # 3. Берем логиты для последнего токена
+            last_logits = logits[:, -1, :]  # [batch_size, vocab_size]
+
+            # Масштабируем логиты температурой
+            if temperature > 0:
+                logits_scaled = last_logits / temperature
+            else:
+                logits_scaled = last_logits
+
+            if do_sample == True and top_k != None:
+                _, topk_indices = torch.topk(logits_scaled, top_k, dim=-1)
+
+                # # Заменим все НЕ top-k логиты на -inf
+                masked_logits = logits_scaled.clone()
+                vocab_size = logits_scaled.size(-1)
+
+                # создаём маску: 1, если токен НЕ в topk_indices
+                mask = torch.ones_like(logits_scaled, dtype=torch.uint8)
+                mask.scatter_(1, topk_indices, 0)  # 0 там, где top-k индексы
+                masked_logits[mask.byte()] = float('-inf')
+
+                logits_scaled = masked_logits
+
+            if do_sample == True and top_p != None:
+                # 1. Применим softmax, чтобы получить вероятности:
+                probs = F.softmax(logits_scaled, dim=-1)  # [B, vocab_size]
+                # 2. Отсортируем токены по убыванию вероятностей:
+                sorted_probs, sorted_indices = torch.sort(probs, descending=True, dim=-1)
+                # 3. Посчитаем кумулятивную сумму вероятностей:
+                cum_probs = torch.cumsum(sorted_probs, dim=-1)  # [B, vocab_size]
+                # 4. Определим маску: оставить токены, пока сумма < top_p
+                sorted_mask = (cum_probs <= top_p).byte()  # [B, vocab_size]
+                # Гарантируем, что хотя бы первый токен останется
+                sorted_mask[:, 0] = 1
+                # 5. Преобразуем маску обратно в оригинальный порядок:
+                # Создаём полную маску из 0
+                mask = torch.zeros_like(probs, dtype=torch.uint8)
+                # Устанавливаем 1 в местах нужных токенов
+                mask.scatter_(dim=1, index=sorted_indices, src=sorted_mask)
+                # 6. Зануляем логиты токенов вне топ-p:
+                logits_scaled[~mask] = float('-inf')
+
+            # 4. Применяем Softmax
+            probs = F.softmax(logits_scaled, dim=-1)  # [batch_size, vocab_size]
+
+
+            if do_sample == True:
+                # 5. Если do_sample равен True, то отбираем токен случайно с помощью torch.multinomial
+                next_token = torch.multinomial(probs, num_samples=1)  # [batch_size, 1]
+            else:
+                # 5. Если do_sample равен False, то выбираем токен с максимальной вероятностью
+                next_token = torch.argmax(probs, dim=-1, keepdim=True)  # [batch_size, 1]
+            
+            # 6. Добавляем его к последовательности
+            x = torch.cat([x, next_token], dim=1)  # [batch_size, seq_len+1]
+        return x
+
+#    def generate(self, input_ids, max_length=50):
+#        for _ in range(max_length):
+#            logits = self.forward(input_ids)
+#            next_token = torch.argmax(logits[:, -1, :], dim=-1, keepdim=True)
+#            input_ids = torch.cat([input_ids, next_token], dim=1)
+#        return input_ids
--- a/llm/src/llm/py.typed
+++ b/llm/src/llm/py.typed
--- a/llm/src/llm/tokenizers/init.py
+++ b/llm/src/llm/tokenizers/init.py
@@ -0,0 +1,19 @@
+"""
+Модуль токенизаторов для библиотеки llm.
+
+Предоставляет различные реализации токенизаторов:
+- BPE (Byte Pair Encoding) токенизатор
+- Базовый интерфейс для создания собственных токенизаторов
+
+Примеры использования:
+    >>> from llm.tokenizers import BPETokenizer, SimpleBPETokenizer
+    >>> tokenizer = BPETokenizer()
+    >>> tokenizer.train(["текст для обучения", "еще текст"])
+    >>> tokens = tokenizer.encode("привет мир")
+    >>> text = tokenizer.decode(tokens)
+"""
+
+from .base_tokenizer import BaseTokenizer
+from .bpe_tokenizer import BPETokenizer, SimpleBPETokenizer
+
+__all__ = ["BaseTokenizer", "BPETokenizer", "SimpleBPETokenizer"]
--- a/llm/src/llm/tokenizers/base_tokenizer.py
+++ b/llm/src/llm/tokenizers/base_tokenizer.py
@@ -0,0 +1,174 @@
+"""
+Базовый класс для токенизаторов.
+"""
+
+from abc import ABC, abstractmethod
+from typing import List, Dict, Any, Optional
+import json
+
+
+class BaseTokenizer(ABC):
+    """
+    Абстрактный базовый класс для всех токенизаторов.
+    
+    Определяет общий интерфейс для токенизации текста.
+    """
+    
+    def __init__(self):
+        self.vocab: Dict[str, int] = {}
+        self.inverse_vocab: Dict[int, str] = {}
+        self.vocab_size: int = 0
+        
+        # Специальные токены
+        self.pad_token = "<pad>"
+        self.unk_token = "<unk>"
+        self.bos_token = "<bos>"
+        self.eos_token = "<eos>"
+        
+        self.pad_token_id: Optional[int] = None
+        self.unk_token_id: Optional[int] = None
+        self.bos_token_id: Optional[int] = None
+        self.eos_token_id: Optional[int] = None
+    
+    @abstractmethod
+    def train(self, texts: List[str], vocab_size: int = 1000, **kwargs):
+        """
+        Обучение токенизатора на текстах.
+        
+        Args:
+            texts: Список текстов для обучения
+            vocab_size: Желаемый размер словаря
+            **kwargs: Дополнительные параметры обучения
+        """
+        pass
+    
+    @abstractmethod
+    def encode(self, text: str, **kwargs) -> List[int]:
+        """
+        Кодирование текста в последовательность токенов.
+        
+        Args:
+            text: Входной текст
+            **kwargs: Дополнительные параметры кодирования
+            
+        Returns:
+            List[int]: Список идентификаторов токенов
+        """
+        pass
+    
+    @abstractmethod
+    def decode(self, tokens: List[int], **kwargs) -> str:
+        """
+        Декодирование последовательности токенов в текст.
+        
+        Args:
+            tokens: Список идентификаторов токенов
+            **kwargs: Дополнительные параметры декодирования
+            
+        Returns:
+            str: Декодированный текст
+        """
+        pass
+    
+    def tokenize(self, text: str, **kwargs) -> List[str]:
+        """
+        Токенизация текста в список строковых токенов.
+        
+        Args:
+            text: Входной текст
+            **kwargs: Дополнительные параметры
+            
+        Returns:
+            List[str]: Список токенов
+        """
+        token_ids = self.encode(text, **kwargs)
+        return [self.inverse_vocab.get(token_id, self.unk_token) for token_id in token_ids]
+    
+    def get_vocab(self) -> Dict[str, int]:
+        """Возвращает словарь токенизатора."""
+        return self.vocab.copy()
+    
+    def get_vocab_size(self) -> int:
+        """Возвращает размер словаря."""
+        return self.vocab_size
+    
+    def add_special_tokens(self, special_tokens: List[str]):
+        """
+        Добавляет специальные токены в словарь.
+        
+        Args:
+            special_tokens: Список специальных токенов
+        """
+        for token in special_tokens:
+            if token not in self.vocab:
+                token_id = len(self.vocab)
+                self.vocab[token] = token_id
+                self.inverse_vocab[token_id] = token
+                self.vocab_size += 1
+        
+        # Обновляем ID специальных токенов
+        self.pad_token_id = self.vocab.get(self.pad_token)
+        self.unk_token_id = self.vocab.get(self.unk_token)
+        self.bos_token_id = self.vocab.get(self.bos_token)
+        self.eos_token_id = self.vocab.get(self.eos_token)
+    
+    def save(self, filepath: str):
+        """
+        Сохраняет токенизатор в файл.
+        
+        Args:
+            filepath: Путь для сохранения
+        """
+        config = {
+            'vocab': self.vocab,
+            'vocab_size': self.vocab_size,
+            'pad_token': self.pad_token,
+            'unk_token': self.unk_token,
+            'bos_token': self.bos_token,
+            'eos_token': self.eos_token,
+            'tokenizer_type': self.__class__.__name__
+        }
+        
+        with open(filepath, 'w', encoding='utf-8') as f:
+            json.dump(config, f, ensure_ascii=False, indent=2)
+    
+    @classmethod
+    def load(cls, filepath: str):
+        """
+        Загружает токенизатор из файла.
+        
+        Args:
+            filepath: Путь к файлу
+            
+        Returns:
+            BaseTokenizer: Загруженный токенизатор
+        """
+        with open(filepath, 'r', encoding='utf-8') as f:
+            config = json.load(f)
+        
+        # Создаем экземпляр токенизатора
+        tokenizer = cls()
+        tokenizer.vocab = config['vocab']
+        tokenizer.vocab_size = config['vocab_size']
+        tokenizer.pad_token = config['pad_token']
+        tokenizer.unk_token = config['unk_token']
+        tokenizer.bos_token = config['bos_token']
+        tokenizer.eos_token = config['eos_token']
+        
+        # Создаем обратный словарь
+        tokenizer.inverse_vocab = {v: k for k, v in tokenizer.vocab.items()}
+        
+        # Обновляем ID специальных токенов
+        tokenizer.pad_token_id = tokenizer.vocab.get(tokenizer.pad_token)
+        tokenizer.unk_token_id = tokenizer.vocab.get(tokenizer.unk_token)
+        tokenizer.bos_token_id = tokenizer.vocab.get(tokenizer.bos_token)
+        tokenizer.eos_token_id = tokenizer.vocab.get(tokenizer.eos_token)
+        
+        return tokenizer
+    
+    def __len__(self) -> int:
+        """Возвращает размер словаря."""
+        return self.vocab_size
+    
+    def __repr__(self) -> str:
+        return f"{self.__class__.__name__}(vocab_size={self.vocab_size})"
--- a/llm/src/llm/tokenizers/bpe_tokenizer
+++ b/llm/src/llm/tokenizers/bpe_tokenizer
@@ -0,0 +1,428 @@
+"""
+BPE (Byte Pair Encoding) токенизатор.
+
+Реализация алгоритма BPE для токенизации текста.
+"""
+
+import re
+from collections import defaultdict, Counter
+from typing import List, Dict, Tuple, Optional
+from .base_tokenizer import BaseTokenizer
+
+
+class BPETokenizer(BaseTokenizer):
+    """
+    BPE токенизатор для обработки текста.
+    
+    Реализует алгоритм Byte Pair Encoding для создания субсловных токенов.
+    
+    Примеры использования:
+        >>> tokenizer = BPETokenizer()
+        >>> tokenizer.train(["пример текста для обучения"], vocab_size=1000)
+        >>> tokens = tokenizer.encode("новый текст")
+        >>> text = tokenizer.decode(tokens)
+    """
+    
+    def __init__(self):
+        super().__init__()
+        self.merges: Dict[Tuple[str, str], int] = {}
+        self.pattern = r"""'s|'t|'re|'ve|'m|'ll|'d| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+"""
+        self.compiled_pattern = re.compile(self.pattern, re.UNICODE)
+    
+    def train(self, texts: List[str], vocab_size: int = 1000, **kwargs):
+        """
+        Обучение BPE токенизатора на текстах.
+        
+        Args:
+            texts: Список текстов для обучения
+            vocab_size: Желаемый размер словаря
+            **kwargs: Дополнительные параметры
+                - min_frequency: Минимальная частота для мерджа
+                - special_tokens: Список специальных токенов
+        """
+        # Инициализация базового словаря
+        self._initialize_vocab()
+        
+        # Добавляем специальные токены если указаны
+        special_tokens = kwargs.get('special_tokens', [self.pad_token, self.unk_token, self.bos_token, self.eos_token])
+        self.add_special_tokens(special_tokens)
+        
+        # Предобработка текстов
+        words = self._preprocess_texts(texts)
+        
+        # Получаем начальные токены
+        vocab = self._get_initial_vocab(words)
+        
+        # Выполняем BPE мерджи
+        self._perform_merges(vocab, vocab_size, kwargs.get('min_frequency', 2))
+        
+        # Строим финальный словарь
+        self._build_final_vocab()
+    
+    def _initialize_vocab(self):
+        """Инициализирует базовый словарь."""
+        self.vocab.clear()
+        self.inverse_vocab.clear()
+        self.merges.clear()
+        self.vocab_size = 0
+    
+    def _preprocess_texts(self, texts: List[str]) -> List[List[str]]:
+        """
+        Предобработка текстов для обучения.
+        
+        Args:
+            texts: Список текстов
+            
+        Returns:
+            List[List[str]]: Предобработанные слова
+        """
+        words = []
+        for text in texts:
+            # Базовая нормализация
+            text = text.lower().strip()
+            # Токенизация на слова
+            tokens = self.compiled_pattern.findall(text)
+            words.append(tokens)
+        return words
+    
+    def _get_initial_vocab(self, words: List[List[str]]) -> Dict[str, int]:
+        """
+        Создает начальный словарь из символов.
+        
+        Args:
+            words: Список токенизированных текстов
+            
+        Returns:
+            Dict[str, int]: Начальный словарь частот
+        """
+        vocab = Counter()
+        for word_list in words:
+            for word in word_list:
+                # Разбиваем слово на символы и добавляем специальный символ конца слова
+                chars = list(word) + ['</w>']
+                vocab.update([''.join(chars[i:i+1]) for i in range(len(chars))])
+        return vocab
+    
+    def _perform_merges(self, vocab: Dict[str, int], target_vocab_size: int, min_frequency: int):
+        """
+        Выполняет BPE мерджи до достижения целевого размера словаря.
+        
+        Args:
+            vocab: Начальный словарь
+            target_vocab_size: Целевой размер словаря
+            min_frequency: Минимальная частота для мерджа
+        """
+        current_vocab_size = len(vocab) + len(self.vocab)
+        
+        while current_vocab_size < target_vocab_size:
+            # Находим наиболее частую пару
+            pairs = self._get_stats(vocab)
+            if not pairs:
+                break
+                
+            best_pair = max(pairs, key=pairs.get)
+            if pairs[best_pair] < min_frequency:
+                break
+                
+            # Выполняем мердж
+            vocab = self._merge_vocab(vocab, best_pair)
+            self.merges[best_pair] = len(self.merges)
+            current_vocab_size += 1
+    
+    def _get_stats(self, vocab: Dict[str, int]) -> Dict[Tuple[str, str], int]:
+        """
+        Собирает статистику по парам символов.
+        
+        Args:
+            vocab: Словарь токенов
+            
+        Returns:
+            Dict[Tuple[str, str], int]: Частоты пар
+        """
+        pairs = defaultdict(int)
+        for word, freq in vocab.items():
+            symbols = word.split()
+            for i in range(len(symbols) - 1):
+                pairs[symbols[i], symbols[i + 1]] += freq
+        return pairs
+    
+    def _merge_vocab(self, vocab: Dict[str, int], pair: Tuple[str, str]) -> Dict[str, int]:
+        """
+        Объединяет пару символов в словаре.
+        
+        Args:
+            vocab: Исходный словарь
+            pair: Пара для объединения
+            
+        Returns:
+            Dict[str, int]: Обновленный словарь
+        """
+        new_vocab = {}
+        bigram = re.compile(r'(?<!\\S)' + re.escape(pair[0]) + r' ' + re.escape(pair[1]) + r'(?!\\S)')
+        replacement = pair[0] + pair[1]
+        
+        for word in vocab:
+            new_word = bigram.sub(replacement, word)
+            new_vocab[new_word] = vocab[word]
+        
+        return new_vocab
+    
+    def _build_final_vocab(self):
+        """Строит финальный словарь токенизатора."""
+        # Собираем все уникальные токены из мерджей
+        all_tokens = set()
+        
+        # Добавляем специальные токены
+        all_tokens.update([self.pad_token, self.unk_token, self.bos_token, self.eos_token])
+        
+        # Добавляем токены из мерджей
+        for pair in self.merges:
+            all_tokens.update(pair)
+        
+        # Создаем словарь
+        for i, token in enumerate(sorted(all_tokens)):
+            self.vocab[token] = i
+        
+        self.inverse_vocab = {v: k for k, v in self.vocab.items()}
+        self.vocab_size = len(self.vocab)
+        
+        # Обновляем ID специальных токенов
+        self.pad_token_id = self.vocab.get(self.pad_token)
+        self.unk_token_id = self.vocab.get(self.unk_token)
+        self.bos_token_id = self.vocab.get(self.bos_token)
+        self.eos_token_id = self.vocab.get(self.eos_token)
+    
+    def encode(self, text: str, **kwargs) -> List[int]:
+        """
+        Кодирует текст в последовательность токенов.
+        
+        Args:
+            text: Входной текст
+            **kwargs: Дополнительные параметры
+                - add_special_tokens: Добавлять специальные токены
+                
+        Returns:
+            List[int]: Список идентификаторов токенов
+        """
+        add_special_tokens = kwargs.get('add_special_tokens', False)
+        
+        # Токенизация текста
+        tokens = self.compiled_pattern.findall(text)
+        
+        # Применяем BPE к каждому токену
+        bpe_tokens = []
+        for token in tokens:
+            # Преобразуем токен в BPE представление
+            bpe_token = self._apply_bpe(token)
+            bpe_tokens.extend(bpe_token)
+        
+        # Конвертируем в ID
+        token_ids = []
+        for token in bpe_tokens:
+            token_id = self.vocab.get(token, self.unk_token_id)
+            if token_id is not None:
+                token_ids.append(token_id)
+        
+        # Добавляем специальные токены если нужно
+        if add_special_tokens:
+            if self.bos_token_id is not None:
+                token_ids.insert(0, self.bos_token_id)
+            if self.eos_token_id is not None:
+                token_ids.append(self.eos_token_id)
+        
+        return token_ids
+    
+    def _apply_bpe(self, token: str) -> List[str]:
+        """
+        Применяет BPE к одному токену.
+        
+        Args:
+            token: Входной токен
+            
+        Returns:
+            List[str]: Список BPE токенов
+        """
+        # Простая реализация - в реальной реализации нужно применять обученные мерджи
+        word = token + '</w>'
+        tokens = [word[i:i+1] for i in range(len(word))]
+        
+        # Применяем мерджи (упрощенная версия)
+        # В полной реализации нужно применять все обученные мерджи
+        for pair in self.merges:
+            i = 0
+            while i < len(tokens) - 1:
+                if tokens[i] == pair[0] and tokens[i + 1] == pair[1]:
+                    tokens[i] = tokens[i] + tokens[i + 1]
+                    del tokens[i + 1]
+                else:
+                    i += 1
+        
+        return tokens
+    
+    def decode(self, tokens: List[int], **kwargs) -> str:
+        """
+        Декодирует последовательность токенов в текст.
+        
+        Args:
+            tokens: Список идентификаторов токенов
+            **kwargs: Дополнительные параметры
+                - skip_special_tokens: Пропускать специальные токены
+                
+        Returns:
+            str: Декодированный текст
+        """
+        skip_special_tokens = kwargs.get('skip_special_tokens', True)
+        
+        # Конвертируем ID в токены
+        token_strings = []
+        for token_id in tokens:
+            token = self.inverse_vocab.get(token_id, self.unk_token)
+            
+            # Пропускаем специальные токены если нужно
+            if skip_special_tokens and token in [self.pad_token, self.unk_token, self.bos_token, self.eos_token]:
+                continue
+                
+            token_strings.append(token)
+        
+        # Объединяем токены в текст
+        text = ''.join(token_strings)
+        
+        # Убираем маркер конца слова
+        text = text.replace('</w>', ' ')
+        
+        return text.strip()
+    
+    def save(self, filepath: str):
+        """
+        Сохраняет BPE токенизатор в файл.
+        
+        Args:
+            filepath: Путь для сохранения
+        """
+        import json
+        
+        config = {
+            'vocab': self.vocab,
+            'merges': {f"{k[0]} {k[1]}": v for k, v in self.merges.items()},
+            'vocab_size': self.vocab_size,
+            'pad_token': self.pad_token,
+            'unk_token': self.unk_token,
+            'bos_token': self.bos_token,
+            'eos_token': self.eos_token,
+            'pattern': self.pattern,
+            'tokenizer_type': self.__class__.__name__
+        }
+        
+        with open(filepath, 'w', encoding='utf-8') as f:
+            json.dump(config, f, ensure_ascii=False, indent=2)
+    
+    @classmethod
+    def load(cls, filepath: str):
+        """
+        Загружает BPE токенизатор из файла.
+        
+        Args:
+            filepath: Путь к файлу
+            
+        Returns:
+            BPETokenizer: Загруженный токенизатор
+        """
+        import json
+        
+        with open(filepath, 'r', encoding='utf-8') as f:
+            config = json.load(f)
+        
+        tokenizer = cls()
+        tokenizer.vocab = config['vocab']
+        tokenizer.vocab_size = config['vocab_size']
+        tokenizer.pad_token = config['pad_token']
+        tokenizer.unk_token = config['unk_token']
+        tokenizer.bos_token = config['bos_token']
+        tokenizer.eos_token = config['eos_token']
+        tokenizer.pattern = config.get('pattern', tokenizer.pattern)
+        tokenizer.compiled_pattern = re.compile(tokenizer.pattern, re.UNICODE)
+        
+        # Восстанавливаем мерджи
+        merges = config.get('merges', {})
+        tokenizer.merges = {}
+        for k, v in merges.items():
+            parts = k.split()
+            if len(parts) == 2:
+                tokenizer.merges[(parts[0], parts[1])] = v
+        
+        # Создаем обратный словарь
+        tokenizer.inverse_vocab = {v: k for k, v in tokenizer.vocab.items()}
+        
+        # Обновляем ID специальных токенов
+        tokenizer.pad_token_id = tokenizer.vocab.get(tokenizer.pad_token)
+        tokenizer.unk_token_id = tokenizer.vocab.get(tokenizer.unk_token)
+        tokenizer.bos_token_id = tokenizer.vocab.get(tokenizer.bos_token)
+        tokenizer.eos_token_id = tokenizer.vocab.get(tokenizer.eos_token)
+        
+        return tokenizer
+
+
+# Упрощенная версия для быстрого старта
+class SimpleBPETokenizer(BPETokenizer):
+    """
+    Упрощенная версия BPE токенизатора для демонстрации.
+    """
+    
+    def train(self, texts: List[str], vocab_size: int = 1000, **kwargs):
+        """Упрощенное обучение для демонстрации."""
+        # Инициализация базового словаря
+        self._initialize_vocab()
+        
+        # Добавляем базовые токены
+        special_tokens = [self.pad_token, self.unk_token, self.bos_token, self.eos_token]
+        self.add_special_tokens(special_tokens)
+        
+        # Простая реализация - собираем все символы
+        all_chars = set()
+        for text in texts:
+            all_chars.update(text)
+        
+        # Добавляем символы в словарь
+        for char in sorted(all_chars):
+            if char not in self.vocab:
+                self.vocab[char] = len(self.vocab)
+        
+        self.inverse_vocab = {v: k for k, v in self.vocab.items()}
+        self.vocab_size = len(self.vocab)
+        
+        # Обновляем ID специальных токенов
+        self.pad_token_id = self.vocab.get(self.pad_token)
+        self.unk_token_id = self.vocab.get(self.unk_token)
+        self.bos_token_id = self.vocab.get(self.bos_token)
+        self.eos_token_id = self.vocab.get(self.eos_token)
+    
+    def encode(self, text: str, **kwargs) -> List[int]:
+        """Упрощенное кодирование - разбиваем на символы."""
+        add_special_tokens = kwargs.get('add_special_tokens', False)
+        
+        token_ids = []
+        for char in text:
+            token_id = self.vocab.get(char, self.unk_token_id)
+            if token_id is not None:
+                token_ids.append(token_id)
+        
+        if add_special_tokens:
+            if self.bos_token_id is not None:
+                token_ids.insert(0, self.bos_token_id)
+            if self.eos_token_id is not None:
+                token_ids.append(self.eos_token_id)
+        
+        return token_ids
+    
+    def decode(self, tokens: List[int], **kwargs) -> str:
+        """Упрощенное декодирование."""
+        skip_special_tokens = kwargs.get('skip_special_tokens', True)
+        
+        chars = []
+        for token_id in tokens:
+            char = self.inverse_vocab.get(token_id, self.unk_token)
+            if skip_special_tokens and char in [self.pad_token, self.unk_token, self.bos_token, self.eos_token]:
+                continue
+            chars.append(char)
+        
+        return ''.join(chars)
--- a/llm/src/llm/tokenizers/bpe_tokenizer.py
+++ b/llm/src/llm/tokenizers/bpe_tokenizer.py
@@ -0,0 +1,207 @@
+"""
+BPE (Byte Pair Encoding) токенизатор.
+
+Реализация алгоритма BPE для токенизации текста.
+"""
+
+from typing import List, Dict, Tuple, Optional
+from .base_tokenizer import BaseTokenizer
+
+
+class BPETokenizer(BaseTokenizer):
+    """
+    BPE токенизатор для обработки текста.
+    
+    Реализует алгоритм Byte Pair Encoding для создания субсловных токенов.
+    Использует вашу реализацию BPE.
+    
+    Примеры использования:
+        >>> tokenizer = BPETokenizer()
+        >>> tokenizer.train(["пример текста для обучения"], vocab_size=1000)
+        >>> tokens = tokenizer.encode("новый текст")
+        >>> text = tokenizer.decode(tokens)
+    """
+    
+    def __init__(self):
+        super().__init__()
+        self.merges: Dict[Tuple[str, str], int] = {}
+        self.vocab_list: List[str] = []
+    
+    def train(self, texts: List[str], vocab_size: int = 1000, **kwargs):
+        """
+        Обучение BPE токенизатора на текстах.
+        
+        Args:
+            texts: Список текстов для обучения
+            vocab_size: Желаемый размер словаря
+            **kwargs: Дополнительные параметры
+                - special_tokens: Список специальных токенов
+        """
+        # Объединяем все тексты в одну строку для обучения
+        combined_text = " ".join(texts)
+        
+        # 1. Получаем уникальные токены (символы)
+        unique_tokens = sorted(set(combined_text))
+        tokens = unique_tokens.copy()
+
+        # 2. Разбиваем текст на токены-символы
+        sequence = list(combined_text)
+
+        # 3. Объединяем токены до достижения нужного размера словаря
+        while len(tokens) < vocab_size:
+            # Считаем частоты пар
+            pair_freq = {}
+            for i in range(len(sequence) - 1):
+                pair = (sequence[i], sequence[i + 1])
+                if pair not in pair_freq:
+                    pair_freq[pair] = 0
+                pair_freq[pair] += 1
+
+            if not pair_freq:
+                break  # нет пар — выходим
+
+            # Находим самую частую пару (в случае равенства — та, что встретилась первой)
+            most_frequent_pair = max(pair_freq.items(), key=lambda x: (x[1], -self._pair_first_index(sequence, x[0])))[0]
+
+            # Создаем новый токен
+            new_token = most_frequent_pair[0] + most_frequent_pair[1]
+            tokens.append(new_token)
+
+            i = 0
+            new_sequence = []
+
+            while i < len(sequence):
+                if i < len(sequence) - 1 and (sequence[i], sequence[i + 1]) == most_frequent_pair:
+                    new_sequence.append(new_token)
+                    i += 2  # пропускаем два символа — заменённую пару
+                else:
+                    new_sequence.append(sequence[i])
+                    i += 1
+            sequence = new_sequence
+        
+        # 4. Создаем словари
+        self.vocab_list = tokens.copy()
+        self.vocab = dict(zip(tokens, range(vocab_size)))
+        self.inverse_vocab = dict(zip(range(vocab_size), tokens))
+        self.vocab_size = len(self.vocab)
+        
+        # Добавляем специальные токены если указаны
+        special_tokens = kwargs.get('special_tokens', [self.pad_token, self.unk_token, self.bos_token, self.eos_token])
+        self.add_special_tokens(special_tokens)
+    
+    def _pair_first_index(self, sequence, pair):
+        """Находит первый индекс пары в последовательности."""
+        for i in range(len(sequence) - 1):
+            if (sequence[i], sequence[i + 1]) == pair:
+                return i
+        return float('inf')  # если пара не найдена (в теории не должно случиться)
+
+    def encode(self, text: str, **kwargs) -> List[int]:
+        """
+        Кодирует текст в последовательность токенов.
+        
+        Args:
+            text: Входной текст
+            **kwargs: Дополнительные параметры
+                - add_special_tokens: Добавлять специальные токены
+                
+        Returns:
+            List[int]: Список идентификаторов токенов
+        """
+        add_special_tokens = kwargs.get('add_special_tokens', False)
+        
+        # 1. Разбиваем текст на токены-символы
+        sequence = list(text)
+        # 2. Инициализация пустого списка токенов
+        tokens = []
+        # 3. Установить i = 0
+        i = 0
+        while i < len(text):
+            # 3.1 Найти все токены в словаре, начинающиеся с text[i]
+            start_char = text[i]
+            result = [token for token in self.vocab_list if token.startswith(start_char)]
+            # 3.2 Выбрать самый длинный подходящий токен
+            find_token = self._find_max_matching_token(text[i:], result)
+            if find_token is None:
+                # Обработка неизвестного символа
+                tokens.append(text[i])  # Добавляем сам символ как токен
+                i += 1
+            else:
+                # 3.3 Добавить токен в результат
+                tokens.append(find_token)
+                # 3.4 Увеличить i на длину токена
+                i += len(find_token)
+
+        # 4. Заменить токены на их ID
+        token_ids = self._tokens_to_ids(tokens)
+        
+        # Заменяем -1 на unk_token_id
+        token_ids = [tid if tid != -1 else self.unk_token_id for tid in token_ids]
+        
+        # Добавляем специальные токены если нужно
+        if add_special_tokens:
+            if self.bos_token_id is not None:
+                token_ids.insert(0, self.bos_token_id)
+            if self.eos_token_id is not None:
+                token_ids.append(self.eos_token_id)
+        
+        return token_ids
+    
+    def _find_max_matching_token(self, text: str, tokens: list) -> Optional[str]:
+        """Находит самый длинный токен из списка, с которого начинается текст"""
+        matching = [token for token in tokens if text.startswith(token)]
+        return max(matching, key=len) if matching else None
+
+    def _tokens_to_ids(self, tokens: List[str]) -> List[int]:
+        """Конвертирует список токенов в их ID с обработкой неизвестных токенов"""
+        ids = []
+        for token in tokens:
+            if token in self.vocab:
+                ids.append(self.vocab[token])
+            else:
+                ids.append(-1)  # Специальное значение
+        return ids
+    
+    def decode(self, tokens: List[int], **kwargs) -> str:
+        """
+        Декодирует последовательность токенов в текст.
+        
+        Args:
+            tokens: Список идентификаторов токенов
+            **kwargs: Дополнительные параметры
+                - skip_special_tokens: Пропускать специальные токены
+                
+        Returns:
+            str: Декодированный текст
+        """
+        skip_special_tokens = kwargs.get('skip_special_tokens', True)
+        
+        # Фильтруем специальные токены если нужно
+        if skip_special_tokens:
+            tokens = [tid for tid in tokens if tid not in [
+                self.pad_token_id, self.unk_token_id, self.bos_token_id, self.eos_token_id
+            ]]
+        
+        # Конвертируем ID в токены
+        token_strings = self._ids_to_tokens(tokens)
+        
+        # Объединяем токены в текст
+        return ''.join(token_strings)
+    
+    def _ids_to_tokens(self, ids: List[int]) -> List[str]:
+        """Конвертирует список Ids в их tokens"""
+        tokens = []
+        for token_id in ids:
+            if token_id in self.inverse_vocab:
+                tokens.append(self.inverse_vocab[token_id])
+            else:
+                tokens.append(self.unk_token)  # Специальное значение
+        return tokens
+
+
+class SimpleBPETokenizer(BPETokenizer):
+    """
+    Упрощенная версия BPE токенизатора для демонстрации.
+    Наследует вашу реализацию, но может быть упрощена при необходимости.
+    """
+    pass
--- a/llm/src/llm/training/init.py
+++ b/llm/src/llm/training/init.py
@@ -0,0 +1,2 @@
+def hello() -> str:
+    return "Hello from llm!"
--- a/llm/src/llm/training/dataset.py
+++ b/llm/src/llm/training/dataset.py
@@ -0,0 +1,142 @@
+import torch
+from torch.utils.data import Dataset
+from typing import List, Any
+
+
+class TextDataset(Dataset):
+    """
+    Простой датасет для языкового моделирования (LLM).
+    Работает с любым токенизатором, реализующим интерфейс BaseTokenizer.
+    """
+
+    def __init__(self, texts: List[str], tokenizer: Any, block_size: int = 128):
+        """
+        Инициализация датасета.
+        
+        Args:
+            texts: Список текстов для обучения
+            tokenizer: Токенизатор с методами encode/decode
+            block_size: Максимальная длина последовательности
+        """
+        self.examples = []
+        self.tokenizer = tokenizer
+        self.block_size = block_size
+
+        for text in texts:
+            # Кодируем текст в токены
+            input_ids = tokenizer.encode(text, add_special_tokens=False)
+            
+            # Обрезаем или дополняем до нужной длины
+            if len(input_ids) > block_size:
+                input_ids = input_ids[:block_size]
+            else:
+                # Дополняем pad_token_id
+                pad_token_id = getattr(tokenizer, 'pad_token_id', 0)
+                input_ids = input_ids + [pad_token_id] * (block_size - len(input_ids))
+            
+            self.examples.append(input_ids)
+
+    def __len__(self):
+        return len(self.examples)
+
+    def __getitem__(self, idx):
+        input_ids = torch.tensor(self.examples[idx], dtype=torch.long)
+        labels = input_ids.clone()
+        return {"input_ids": input_ids, "labels": labels}
+
+
+class StreamingTextDataset(Dataset):
+    """
+    Датасет для потоковой обработки больших текстов.
+    Токенизация происходит на лету, что экономит память.
+    """
+    
+    def __init__(self, texts: List[str], tokenizer: Any, block_size: int = 128):
+        self.texts = texts
+        self.tokenizer = tokenizer
+        self.block_size = block_size
+        
+        # Получаем pad_token_id из токенизатора
+        self.pad_token_id = getattr(tokenizer, 'pad_token_id', 0)
+
+    def __len__(self):
+        return len(self.texts)
+
+    def __getitem__(self, idx):
+        text = self.texts[idx]
+        
+        # Токенизация на лету
+        input_ids = self.tokenizer.encode(text, add_special_tokens=False)
+        
+        # Обрезаем или дополняем до нужной длины
+        if len(input_ids) > self.block_size:
+            input_ids = input_ids[:self.block_size]
+        else:
+            input_ids = input_ids + [self.pad_token_id] * (self.block_size - len(input_ids))
+        
+        input_ids = torch.tensor(input_ids, dtype=torch.long)
+        labels = input_ids.clone()
+        
+        return {"input_ids": input_ids, "labels": labels}
+
+
+class TextDatasetWithSpecialTokens(TextDataset):
+    """
+    Расширенная версия TextDataset с поддержкой специальных токенов.
+    """
+    
+    def __init__(self, texts: List[str], tokenizer: Any, block_size: int = 128, 
+                 add_bos: bool = False, add_eos: bool = False):
+        """
+        Args:
+            texts: Список текстов
+            tokenizer: Токенизатор
+            block_size: Максимальная длина
+            add_bos: Добавлять токен начала последовательности
+            add_eos: Добавлять токен конца последовательности
+        """
+        self.examples = []
+        self.tokenizer = tokenizer
+        self.block_size = block_size
+        self.add_bos = add_bos
+        self.add_eos = add_eos
+
+        for text in texts:
+            # Кодируем с специальными токенами
+            input_ids = tokenizer.encode(
+                text, 
+                add_special_tokens=True,
+                add_bos_token=add_bos,
+                add_eos_token=eos
+            )
+            
+            # Учитываем специальные токены при обрезке/дополнении
+            effective_block_size = block_size
+            if add_bos:
+                effective_block_size -= 1
+            if add_eos:
+                effective_block_size -= 1
+            
+            if len(input_ids) > effective_block_size:
+                input_ids = input_ids[:effective_block_size]
+            
+            # Добавляем специальные токены если нужно
+            if add_bos and hasattr(tokenizer, 'bos_token_id') and tokenizer.bos_token_id is not None:
+                input_ids = [tokenizer.bos_token_id] + input_ids
+            if add_eos and hasattr(tokenizer, 'eos_token_id') and tokenizer.eos_token_id is not None:
+                input_ids = input_ids + [tokenizer.eos_token_id]
+            
+            # Дополняем до полной длины
+            pad_token_id = getattr(tokenizer, 'pad_token_id', 0)
+            if len(input_ids) < block_size:
+                input_ids = input_ids + [pad_token_id] * (block_size - len(input_ids))
+            
+            self.examples.append(input_ids)
+
+    def __len__(self):
+        return len(self.examples)
+
+    def __getitem__(self, idx):
+        input_ids = torch.tensor(self.examples[idx], dtype=torch.long)
+        labels = input_ids.clone()
+        return {"input_ids": input_ids, "labels": labels}
--- a/llm/src/llm/training/optimizer.py
+++ b/llm/src/llm/training/optimizer.py
@@ -0,0 +1,14 @@
+import torch.optim as optim
+
+def get_optimizer(model, lr=3e-4, weight_decay=0.01, optimizer_type="adamw"):
+    """
+    Возвращает оптимизатор для обучения модели.
+    """
+    if optimizer_type.lower() == "adamw":
+        return optim.AdamW(model.parameters(), lr=lr, weight_decay=weight_decay)
+    elif optimizer_type.lower() == "adam":
+        return optim.Adam(model.parameters(), lr=lr, weight_decay=weight_decay)
+    elif optimizer_type.lower() == "sgd":
+        return optim.SGD(model.parameters(), lr=lr, momentum=0.9)
+    else:
+        raise ValueError(f"Неизвестный тип оптимизатора: {optimizer_type}")
--- a/llm/src/llm/training/scheduler.py
+++ b/llm/src/llm/training/scheduler.py
@@ -0,0 +1,13 @@
+from torch.optim.lr_scheduler import LambdaLR
+
+def get_linear_schedule_with_warmup(optimizer, num_warmup_steps, num_training_steps):
+    """
+    Линейный планировщик обучения с warmup.
+    """
+
+    def lr_lambda(current_step):
+        if current_step < num_warmup_steps:
+            return float(current_step) / float(max(1, num_warmup_steps))
+        return max(0.0, float(num_training_steps - current_step) / float(max(1, num_training_steps - num_warmup_steps)))
+
+    return LambdaLR(optimizer, lr_lambda)
--- a/llm/src/llm/training/trainer.py
+++ b/llm/src/llm/training/trainer.py
@@ -0,0 +1,90 @@
+import torch
+import torch.nn.functional as F
+from torch.utils.data import DataLoader
+from tqdm import tqdm
+from llm.training.optimizer import get_optimizer
+from llm.training.scheduler import get_linear_schedule_with_warmup
+
+class Trainer:
+    """
+    Универсальный класс обучения LLM (GPT, LLaMA, Mistral и т.д.)
+    """
+
+    def __init__(self, model, train_dataset, val_dataset=None, lr=3e-4, batch_size=8, num_epochs=3, warmup_steps=100):
+        self.model = model
+        self.train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
+        self.val_loader = DataLoader(val_dataset, batch_size=batch_size) if val_dataset else None
+        self.optimizer = get_optimizer(model, lr=lr)
+        self.scheduler = None
+        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        self.model.to(self.device)
+        self.num_epochs = num_epochs
+        self.warmup_steps = warmup_steps
+
+    def compute_lm_loss(self, logits, labels):
+        """
+        Вычисляет loss для языкового моделирования.
+        Сдвигает логиты и метки для предсказания следующего токена.
+        """
+        # Сдвигаем логиты и метки для языкового моделирования
+        shift_logits = logits[..., :-1, :].contiguous()
+        shift_labels = labels[..., 1:].contiguous()
+        
+        # Вычисляем cross-entropy loss
+        loss = F.cross_entropy(
+            shift_logits.view(-1, shift_logits.size(-1)),
+            shift_labels.view(-1),
+            ignore_index=-100  # Игнорируем padding tokens
+        )
+        return loss
+
+    def train(self):
+        total_steps = len(self.train_loader) * self.num_epochs
+        self.scheduler = get_linear_schedule_with_warmup(self.optimizer, self.warmup_steps, total_steps)
+
+        for epoch in range(self.num_epochs):
+            self.model.train()
+            total_loss = 0
+
+            progress_bar = tqdm(self.train_loader, desc=f"Epoch {epoch+1}/{self.num_epochs}")
+            for batch in progress_bar:
+                self.optimizer.zero_grad()
+
+                input_ids = batch["input_ids"].to(self.device)
+                labels = batch["labels"].to(self.device)
+
+                # Модель возвращает только логиты
+                logits = self.model(input_ids)
+                
+                # Trainer вычисляет loss
+                loss = self.compute_lm_loss(logits, labels)
+                loss.backward()
+
+                torch.nn.utils.clip_grad_norm_(self.model.parameters(), 1.0)
+                self.optimizer.step()
+                self.scheduler.step()
+
+                total_loss += loss.item()
+                progress_bar.set_postfix(loss=loss.item())
+
+            avg_loss = total_loss / len(self.train_loader)
+            print(f"Epoch {epoch+1} finished — avg loss: {avg_loss:.4f}")
+
+            if self.val_loader:
+                self.evaluate()
+
+    def evaluate(self):
+        self.model.eval()
+        total_loss = 0
+
+        with torch.no_grad():
+            for batch in self.val_loader:
+                input_ids = batch["input_ids"].to(self.device)
+                labels = batch["labels"].to(self.device)
+                
+                logits = self.model(input_ids)
+                loss = self.compute_lm_loss(logits, labels)
+                total_loss += loss.item()
+
+        avg_loss = total_loss / len(self.val_loader)
+        print(f"Validation loss: {avg_loss:.4f}")
--- a/notebooks/gpt_analysis.ipynb
+++ b/notebooks/gpt_analysis.ipynb
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -0,0 +1,35 @@
+[project]
+name = "llm-arch-research"
+version = "0.1.0"
+description = "Research workspace for LLM architectures"
+authors = [
+    { name = "Sergey Penkovsky", email = "sergey.penkovsky@gmail.com" }
+]
+requires-python = ">=3.10"
+dependencies = [
+    "accelerate>=0.26.0",
+    "hf-proxy",
+    "llm",
+    "tqdm>=4,<5",
+]
+
+[project.optional-dependencies]
+dev = [
+    "pytest>=8.0.0",
+    "black>=24.0.0",
+    "ruff>=0.3.0",
+    "mypy>=1.8.0",
+    "jupyter>=1.0.0",
+]
+test = [
+    "pytest>=8.0.0",
+    "pytest-cov>=4.1.0",
+]
+
+[tool.uv.sources]
+llm = { workspace = true, editable = true }
+hf-proxy = { workspace = true, editable = true }
+
+[tool.uv.workspace]
+members = ["llm", "hf-proxy"]
+exclude = []
--- a/uv.lock
+++ b/uv.lock