refactor(experiments): migrate to universal runner + config structure, remove legacy scripts

- add universal runner run_llm_experiment.py with JSON-config driven LLM training / generation - add configs for gpt, gpt2, llama (training/generation) - remove individual train/generate scripts for each model - update README with simple how-to for experiments block BREAKING CHANGE: all llm_only experiments now run only through run_llm_experiment.py; legacy scripts removed
2026-01-23 21:10:54 +00:00 · 2025-10-14 11:57:23 +03:00
parent 0cc7850848
commit 3e4815fcc6
13 changed files with 360 additions and 1350 deletions
--- a/README.md
+++ b/README.md
@@ -91,16 +91,76 @@ uv sync
 uv sync --extra dev
 ```

-### Запуск обучения GPT
+## ⚡ Работа с экспериментами (experiments/llm_only)
+
+В папке `experiments/llm_only` вы найдете универсальный скрипт для обучения и генерации LLM без HuggingFace.
+Архитектура позволяет управлять выбором модели, типом действия и параметрами через аргументы командной строки и отдельные JSON-конфиги.
+
+### Основные файлы и директории
+
+- `run_llm_experiment.py` — универсальный скрипт-стартер для обучения и генерации.
+- `configs/` — примеры конфигурационных файлов (`*.json`) для разных моделей и сценариев.
+
+### Использование универсального скрипта
+
+1. **Настройте конфиг**  
+   Для каждой модели и режима работы есть отдельный JSON-файл с параметрами:
+   - `configs/gpt_train.json`, `configs/gpt_generate.json`
+   - `configs/gpt2_train.json`, `configs/gpt2_generate.json`
+   - `configs/llama_train.json`, `configs/llama_generate.json`
+
+2. **Запустите обучение или генерацию**  
+   Стандартная команда:

   ```bash
-# Обучение базовой GPT модели
-uv run python experiments/llm_only/train_gpt_bpe.py
-
-# Обучение с интеграцией HuggingFace
-uv run python experiments/hf_integration/simple_hf_training.py
+   python experiments/llm_only/run_llm_experiment.py --model <название_модели> --action <train/generate> --config experiments/llm_only/configs/<имя_конфига>.json
   ```

+   Примеры:
+
+   - Обучить GPT:
+     ```bash
+     python experiments/llm_only/run_llm_experiment.py --model gpt --action train --config experiments/llm_only/configs/gpt_train.json
+     ```
+
+   - Генерировать текст GPT2:
+     ```bash
+     python experiments/llm_only/run_llm_experiment.py --model gpt2 --action generate --config experiments/llm_only/configs/gpt2_generate.json
+     ```
+
+   - Обучить Llama:
+     ```bash
+     python experiments/llm_only/run_llm_experiment.py --model llama --action train --config experiments/llm_only/configs/llama_train.json
+     ```
+
+   - Генерировать текст Llama:
+     ```bash
+     python experiments/llm_only/run_llm_experiment.py --model llama --action generate --config experiments/llm_only/configs/llama_generate.json
+     ```
+
+3. **Конфигурирование параметров**
+   - Все гиперпараметры (архитектура, обучение, генерация, пути) задаются в json-файле.
+   - Для новых моделей создайте копию существующего конфига, укажите другие веса и параметры, и используйте нужное название модели в команде.
+
+4. **Структура конфига**
+   Минимальный пример конфига для обучения:
+   ```json
+   {
+     "bpe_tokenizer": "checkpoints/bpe_tokenizer.json",
+     "model_config": {
+       "vocab_size": null,
+       "embed_dim": 256,
+       "num_heads": 4,
+       "num_layers": 4,
+       "max_position_embeddings": 128,
+       "dropout": 0.1
+     },
+     "model_weights": "checkpoints/gpt-bpe/model.pt"
+   }
+   ```
+
+---
+
 ### Тестирование hf-proxy

 ```bash
--- a/experiments/llm_only/configs/gpt2_generate.json
+++ b/experiments/llm_only/configs/gpt2_generate.json
@@ -0,0 +1,19 @@
+{
+    "bpe_tokenizer": "checkpoints/bpe_tokenizer.json",
+    "test_prompts": [
+      "Нейронные сети",
+      "Обработка естественного языка",
+      "GPT-2 — это"
+    ],
+    "model_config_path": "checkpoints/gpt2-bpe/config.json",
+    "model_weights": "checkpoints/gpt2-bpe/model.pt",
+    "generation": {
+      "max_new_tokens": 40,
+      "temperature": 0.8,
+      "do_sample": true,
+      "top_k": null,
+      "top_p": null
+    },
+    "log_path": "checkpoints/llm_only_generation_logs.json"
+  }
+  
--- a/experiments/llm_only/configs/gpt2_train.json
+++ b/experiments/llm_only/configs/gpt2_train.json
@@ -0,0 +1,23 @@
+{
+    "bpe_tokenizer": "checkpoints/bpe_tokenizer.json",
+    "bpe_vocab_size": 1000,
+    "bpe_special_tokens": ["<pad>", "<unk>", "<bos>", "<eos>"],
+    "test_prompts": ["Искусственный интеллект", "Python — это"],
+    "model_config": {
+      "vocab_size": null,
+      "embed_dim": 256,
+      "num_heads": 4,
+      "num_layers": 4,
+      "max_position_embeddings": 128,
+      "dropout": 0.1
+    },
+    "model_weights": "checkpoints/gpt2-bpe/model.pt",
+    "model_config_path": "checkpoints/gpt2-bpe/config.json",
+    "training": {
+      "learning_rate": 0.0003,
+      "batch_size": 2,
+      "num_epochs": 3,
+      "warmup_steps": 50
+    },
+    "log_path": "checkpoints/gpt2_only_training_logs.json"
+  }
--- a/experiments/llm_only/configs/gpt_generate.json
+++ b/experiments/llm_only/configs/gpt_generate.json
@@ -0,0 +1,19 @@
+{
+    "bpe_tokenizer": "checkpoints/bpe_tokenizer.json",
+    "test_prompts": [
+      "The neural network",
+      "Transformer architecture",
+      "GPT models are"
+    ],
+    "model_config_path": "checkpoints/gpt-bpe/config.json",
+    "model_weights": "checkpoints/gpt-bpe/model.pt",
+    "generation": {
+      "max_new_tokens": 40,
+      "temperature": 0.8,
+      "do_sample": true,
+      "top_k": null,
+      "top_p": null
+    },
+    "log_path": "checkpoints/llm_only_generation_logs.json"
+  }
+  
--- a/experiments/llm_only/configs/gpt_train.json
+++ b/experiments/llm_only/configs/gpt_train.json
@@ -0,0 +1,23 @@
+{
+    "bpe_tokenizer": "checkpoints/bpe_tokenizer.json",
+    "bpe_vocab_size": 1000,
+    "bpe_special_tokens": ["<pad>", "<unk>", "<bos>", "<eos>"],
+    "test_prompts": ["GPT language model", "Machine learning basics"],
+    "model_config": {
+      "vocab_size": null,
+      "embed_dim": 256,
+      "num_heads": 4,
+      "num_layers": 4,
+      "max_position_embeddings": 128,
+      "dropout": 0.1
+    },
+    "model_weights": "checkpoints/gpt-bpe/model.pt",
+    "model_config_path": "checkpoints/gpt-bpe/config.json",
+    "training": {
+      "learning_rate": 0.0003,
+      "batch_size": 2,
+      "num_epochs": 3,
+      "warmup_steps": 50
+    },
+    "log_path": "checkpoints/gpt_only_training_logs.json"
+  }
--- a/experiments/llm_only/configs/llama_generate.json
+++ b/experiments/llm_only/configs/llama_generate.json
@@ -0,0 +1,19 @@
+{
+    "bpe_tokenizer": "checkpoints/bpe_tokenizer.json",
+    "test_prompts": [
+      "Open weights",
+      "The Llama model is",
+      "Efficient transformers"
+    ],
+    "model_config_path": "checkpoints/llama-bpe/config.json",
+    "model_weights": "checkpoints/llama-bpe/model.pt",
+    "generation": {
+      "max_new_tokens": 40,
+      "temperature": 0.8,
+      "do_sample": true,
+      "top_k": null,
+      "top_p": null
+    },
+    "log_path": "checkpoints/llm_only_generation_logs.json"
+  }
+  
--- a/experiments/llm_only/configs/llama_train.json
+++ b/experiments/llm_only/configs/llama_train.json
@@ -0,0 +1,23 @@
+{
+    "bpe_tokenizer": "checkpoints/bpe_tokenizer.json",
+    "bpe_vocab_size": 1000,
+    "bpe_special_tokens": ["<pad>", "<unk>", "<bos>", "<eos>"],
+    "test_prompts": ["Open source AI", "What is Llama?"],
+    "model_config": {
+      "vocab_size": null,
+      "embed_dim": 256,
+      "num_heads": 4,
+      "num_layers": 4,
+      "max_position_embeddings": 128,
+      "dropout": 0.1
+    },
+    "model_weights": "checkpoints/llama-bpe/model.pt",
+    "model_config_path": "checkpoints/llama-bpe/config.json",
+    "training": {
+      "learning_rate": 0.0003,
+      "batch_size": 2,
+      "num_epochs": 3,
+      "warmup_steps": 50
+    },
+    "log_path": "checkpoints/llama_only_training_logs.json"
+  }
--- a/experiments/llm_only/generate_gpt2_bpe.py
+++ b/experiments/llm_only/generate_gpt2_bpe.py
@@ -1,316 +0,0 @@
-#!/usr/bin/env python3
-"""
-Experiment: generate_gpt_bpe.py
-Description: Генерация текста обученной GPT моделью с BPE токенизатором.
-Использует только библиотеку llm без зависимостей от HuggingFace.
-"""
-
-import torch
-import os
-import sys
-
-# Добавляем путь к shared модулям
-sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
-
-from llm.models.gpt import GPT2
-from llm.tokenizers import BPETokenizer
-
-from shared.configs import BASE_GPT_CONFIG, TEST_PROMPTS, GENERATION_CONFIG, PATHS
-from shared.data import print_experiment_info, ensure_directories, ExperimentLogger
-
-
-def load_model_and_tokenizer() -> tuple:
-    """
-    Загружает обученную модель и токенизатор.
-
-    Returns:
-        tuple: (модель, токенизатор, конфигурация)
-    """
-    # Проверяем существование файлов
-    if not os.path.exists(PATHS["gpt_bpe_model"]):
-        raise FileNotFoundError(
-            f"Модель не найдена: {PATHS['gpt_bpe_model']}\n"
-            f"Сначала обучите модель: uv run python experiments/llm_only/train_gpt_bpe.py"
-        )
-
-    if not os.path.exists(PATHS["bpe_tokenizer"]):
-        raise FileNotFoundError(f"Токенизатор не найден: {PATHS['bpe_tokenizer']}")
-
-    # Загружаем конфигурацию модели
-    import json
-
-    with open(PATHS["gpt_bpe_config"], "r", encoding="utf-8") as f:
-        model_config = json.load(f)
-
-    # Загружаем токенизатор
-    print("🔧 Загрузка BPE токенизатора...")
-    tokenizer = BPETokenizer.load(PATHS["bpe_tokenizer"])
-    print(f"✅ Токенизатор загружен (vocab_size={tokenizer.get_vocab_size()})")
-
-    # Загружаем модель
-    print("🔧 Загрузка GPT2 модели...")
-    model = GPT2(model_config)
-    model.load_state_dict(torch.load(PATHS["gpt_bpe_model"], map_location="cpu"))
-    model.eval()
-    print("✅ Модель загружена")
-
-    return model, tokenizer, model_config
-
-
-def generate_text(
-    model: GPT2, tokenizer: BPETokenizer, prompt: str, config: dict
-) -> str:
-    """
-    Генерирует текст на основе промпта.
-
-    Args:
-        model: Обученная GPT модель
-        tokenizer: BPE токенизатор
-        prompt: Входной текст
-        config: Конфигурация генерации
-
-    Returns:
-        str: Сгенерированный текст
-    """
-    print(f"🔤 Промпт: '{prompt}'")
-    print(
-        f"📊 Параметры: max_tokens={config['max_new_tokens']}, "
-        f"temp={config['temperature']}, sample={config['do_sample']}"
-    )
-
-    # Кодируем промпт
-    input_ids = tokenizer.encode(prompt, add_special_tokens=False)
-    input_tensor = torch.tensor([input_ids], dtype=torch.long)
-
-    print(f"🎯 Токены промпта: {input_ids}")
-    print(f"🎯 Токены (текст): {tokenizer.tokenize(prompt)}")
-    print("🔄 Генерация...")
-
-    # Генерируем текст
-    with torch.no_grad():
-        generated_ids = model.generate(
-            x=input_tensor,
-            max_new_tokens=config["max_new_tokens"],
-            do_sample=config["do_sample"],
-            temperature=config["temperature"],
-            top_k=config["top_k"],
-            top_p=config["top_p"],
-        )
-
-    # Декодируем результат
-    generated_text = tokenizer.decode(generated_ids[0].tolist())
-
-    return generated_text
-
-
-def test_different_strategies(model: GPT2, tokenizer: BPETokenizer, prompt: str):
-    """
-    Тестирует разные стратегии генерации на одном промпте.
-
-    Args:
-        model: Обученная модель
-        tokenizer: BPE токенизатор
-        prompt: Тестовый промпт
-    """
-    print(f"\n🎭 Сравнение стратегий генерации для промпта: '{prompt}'")
-    print("=" * 60)
-
-    strategies = [
-        {"name": "🎯 Жадный поиск", "do_sample": False, "temperature": 1.0},
-        {"name": "🎲 Вероятностная (temp=0.7)", "do_sample": True, "temperature": 0.7},
-        {"name": "🔥 Случайная (temp=1.2)", "do_sample": True, "temperature": 1.2},
-        {
-            "name": "❄️  Детерминированная (temp=0.3)",
-            "do_sample": True,
-            "temperature": 0.3,
-        },
-    ]
-
-    for strategy in strategies:
-        print(f"\n{strategy['name']}:")
-        try:
-            config = GENERATION_CONFIG.copy()
-            config.update(
-                {
-                    "do_sample": strategy["do_sample"],
-                    "temperature": strategy["temperature"],
-                    "max_new_tokens": 20,
-                }
-            )
-
-            generated = generate_text(model, tokenizer, prompt, config)
-
-            # Выделяем сгенерированную часть
-            generated_part = generated[len(prompt) :]
-            print(f"   📤 Промпт: '{prompt}'")
-            print(f"   🎯 Сгенерировано: '{generated_part}'")
-            print(f"   📄 Полный текст: '{generated}'")
-
-        except Exception as e:
-            print(f"   ❌ Ошибка: {e}")
-
-
-def analyze_tokenization(tokenizer: BPETokenizer, texts: list):
-    """
-    Анализирует токенизацию различных текстов.
-
-    Args:
-        tokenizer: BPE токенизатор
-        texts: Список текстов для анализа
-    """
-    print(f"\n🔍 Анализ токенизации BPE:")
-    print("=" * 50)
-
-    for i, text in enumerate(texts):
-        print(f"\nТекст {i+1}: '{text}'")
-
-        # Токенизация
-        tokens = tokenizer.encode(text, add_special_tokens=False)
-        token_strings = tokenizer.tokenize(text)
-
-        print(f"   Токены (ID): {tokens}")
-        print(f"   Токены (текст): {token_strings}")
-        print(f"   Количество токенов: {len(tokens)}")
-        print(f"   Эффективность: {len(text)} символов → {len(tokens)} токенов")
-
-        # Декодирование обратно
-        decoded = tokenizer.decode(tokens)
-        if text == decoded:
-            print(f"   ✅ Декодирование корректно")
-        else:
-            print(f"   ⚠️  Расхождения: '{decoded}'")
-
-
-def interactive_generation(model: GPT2, tokenizer: BPETokenizer):
-    """
-    Режим интерактивной генерации.
-
-    Args:
-        model: Обученная модель
-        tokenizer: BPE токенизатор
-    """
-    print(f"\n💬 Интерактивная генерация (для выхода введите 'exit')")
-    print("-" * 50)
-
-    while True:
-        try:
-            user_input = input("\n🔤 Введите промпт: ").strip()
-
-            if user_input.lower() in ["exit", "quit", "выход"]:
-                break
-
-            if not user_input:
-                continue
-
-            # Запрашиваем параметры
-            try:
-                max_tokens = int(input("📏 Макс. токенов [50]: ") or "50")
-                temperature = float(input("🌡️  Температура [0.7]: ") or "0.7")
-                do_sample_input = input("🎲 Сэмплирование (y/n) [y]: ").lower()
-                do_sample = do_sample_input != "n"
-            except:
-                max_tokens = 50
-                temperature = 0.7
-                do_sample = True
-                print("⚠️  Использую параметры по умолчанию")
-
-            config = GENERATION_CONFIG.copy()
-            config.update(
-                {
-                    "max_new_tokens": max_tokens,
-                    "temperature": temperature,
-                    "do_sample": do_sample,
-                }
-            )
-
-            generated = generate_text(model, tokenizer, user_input, config)
-
-            generated_part = generated[len(user_input) :]
-            print(f"\n🎯 Результат:")
-            print(f"   📤 Промпт: '{user_input}'")
-            print(f"   🎯 Сгенерировано: '{generated_part}'")
-            print(f"   📄 Полный текст: '{generated}'")
-
-        except KeyboardInterrupt:
-            print("\n👋 Завершение работы...")
-            break
-        except Exception as e:
-            print(f"❌ Ошибка: {e}")
-
-
-def main():
-    """Основная функция эксперимента."""
-    # === Настройка эксперимента ===
-    experiment_name = "Генерация текста GPT2 + BPE (только llm)"
-    experiment_config = {
-        "model": "GPT2 с BPE токенизатором",
-        "стратегия": "автономная генерация",
-        "вход": "промпты",
-        "выход": "сгенерированный текст",
-    }
-
-    print_experiment_info(experiment_name, experiment_config)
-    ensure_directories()
-    logger = ExperimentLogger(experiment_name)
-
-    try:
-        # Загружаем модель и токенизатор
-        model, tokenizer, model_config = load_model_and_tokenizer()
-
-        # === Анализ токенизации ===
-        analysis_texts = [
-            "Искусственный интеллект",
-            "Нейронные сети",
-            "Машинное обучение",
-        ]
-        analyze_tokenization(tokenizer, analysis_texts)
-
-        # === Генерация с разными промптами ===
-        print(f"\n🎯 Генерация текста с разными промптами")
-        print("=" * 60)
-
-        for i, prompt in enumerate(TEST_PROMPTS):
-            print(f"\n📝 Пример {i+1}/{len(TEST_PROMPTS)}")
-            print("-" * 40)
-
-            try:
-                generated = generate_text(model, tokenizer, prompt, GENERATION_CONFIG)
-
-                # Выделяем сгенерированную часть
-                generated_part = generated[len(prompt) :]
-
-                print(f"📤 Промпт: '{prompt}'")
-                print(f"🎯 Сгенерировано: '{generated_part}'")
-                print(f"📄 Полный текст: '{generated}'")
-                print(f"📏 Длина: {len(generated)} символов")
-
-                # Логируем успешную генерацию
-                logger.log_metric(f"generation_length_{i}", len(generated))
-
-            except Exception as e:
-                print(f"❌ Ошибка при генерации: {e}")
-                continue
-
-        # === Сравнение стратегий генерации ===
-        test_prompt = "Искусственный"
-        test_different_strategies(model, tokenizer, test_prompt)
-
-        # === Интерактивная генерация ===
-        interactive_generation(model, tokenizer)
-
-        # === Сохранение результатов ===
-        logger.save_logs("checkpoints/llm_only_generation_logs.json")
-
-        print(f"\n🎉 Эксперимент генерации завершен успешно!")
-
-    except FileNotFoundError as e:
-        print(f"❌ {e}")
-    except Exception as e:
-        print(f"❌ Ошибка в эксперименте: {e}")
-        import traceback
-
-        traceback.print_exc()
-
-
-if __name__ == "__main__":
-    main()
--- a/experiments/llm_only/generate_gpt_bpe.py
+++ b/experiments/llm_only/generate_gpt_bpe.py
@@ -1,316 +0,0 @@
-#!/usr/bin/env python3
-"""
-Experiment: generate_gpt_bpe.py
-Description: Генерация текста обученной GPT моделью с BPE токенизатором.
-Использует только библиотеку llm без зависимостей от HuggingFace.
-"""
-
-import torch
-import os
-import sys
-
-# Добавляем путь к shared модулям
-sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
-
-from llm.models.gpt import GPT
-from llm.tokenizers import BPETokenizer
-
-from shared.configs import BASE_GPT_CONFIG, TEST_PROMPTS, GENERATION_CONFIG, PATHS
-from shared.data import print_experiment_info, ensure_directories, ExperimentLogger
-
-
-def load_model_and_tokenizer() -> tuple:
-    """
-    Загружает обученную модель и токенизатор.
-
-    Returns:
-        tuple: (модель, токенизатор, конфигурация)
-    """
-    # Проверяем существование файлов
-    if not os.path.exists(PATHS["gpt_bpe_model"]):
-        raise FileNotFoundError(
-            f"Модель не найдена: {PATHS['gpt_bpe_model']}\n"
-            f"Сначала обучите модель: uv run python experiments/llm_only/train_gpt_bpe.py"
-        )
-
-    if not os.path.exists(PATHS["bpe_tokenizer"]):
-        raise FileNotFoundError(f"Токенизатор не найден: {PATHS['bpe_tokenizer']}")
-
-    # Загружаем конфигурацию модели
-    import json
-
-    with open(PATHS["gpt_bpe_config"], "r", encoding="utf-8") as f:
-        model_config = json.load(f)
-
-    # Загружаем токенизатор
-    print("🔧 Загрузка BPE токенизатора...")
-    tokenizer = BPETokenizer.load(PATHS["bpe_tokenizer"])
-    print(f"✅ Токенизатор загружен (vocab_size={tokenizer.get_vocab_size()})")
-
-    # Загружаем модель
-    print("🔧 Загрузка GPT модели...")
-    model = GPT(model_config)
-    model.load_state_dict(torch.load(PATHS["gpt_bpe_model"], map_location="cpu"))
-    model.eval()
-    print("✅ Модель загружена")
-
-    return model, tokenizer, model_config
-
-
-def generate_text(
-    model: GPT, tokenizer: BPETokenizer, prompt: str, config: dict
-) -> str:
-    """
-    Генерирует текст на основе промпта.
-
-    Args:
-        model: Обученная GPT модель
-        tokenizer: BPE токенизатор
-        prompt: Входной текст
-        config: Конфигурация генерации
-
-    Returns:
-        str: Сгенерированный текст
-    """
-    print(f"🔤 Промпт: '{prompt}'")
-    print(
-        f"📊 Параметры: max_tokens={config['max_new_tokens']}, "
-        f"temp={config['temperature']}, sample={config['do_sample']}"
-    )
-
-    # Кодируем промпт
-    input_ids = tokenizer.encode(prompt, add_special_tokens=False)
-    input_tensor = torch.tensor([input_ids], dtype=torch.long)
-
-    print(f"🎯 Токены промпта: {input_ids}")
-    print(f"🎯 Токены (текст): {tokenizer.tokenize(prompt)}")
-    print("🔄 Генерация...")
-
-    # Генерируем текст
-    with torch.no_grad():
-        generated_ids = model.generate(
-            x=input_tensor,
-            max_new_tokens=config["max_new_tokens"],
-            do_sample=config["do_sample"],
-            temperature=config["temperature"],
-            top_k=config["top_k"],
-            top_p=config["top_p"],
-        )
-
-    # Декодируем результат
-    generated_text = tokenizer.decode(generated_ids[0].tolist())
-
-    return generated_text
-
-
-def test_different_strategies(model: GPT, tokenizer: BPETokenizer, prompt: str):
-    """
-    Тестирует разные стратегии генерации на одном промпте.
-
-    Args:
-        model: Обученная модель
-        tokenizer: BPE токенизатор
-        prompt: Тестовый промпт
-    """
-    print(f"\n🎭 Сравнение стратегий генерации для промпта: '{prompt}'")
-    print("=" * 60)
-
-    strategies = [
-        {"name": "🎯 Жадный поиск", "do_sample": False, "temperature": 1.0},
-        {"name": "🎲 Вероятностная (temp=0.7)", "do_sample": True, "temperature": 0.7},
-        {"name": "🔥 Случайная (temp=1.2)", "do_sample": True, "temperature": 1.2},
-        {
-            "name": "❄️  Детерминированная (temp=0.3)",
-            "do_sample": True,
-            "temperature": 0.3,
-        },
-    ]
-
-    for strategy in strategies:
-        print(f"\n{strategy['name']}:")
-        try:
-            config = GENERATION_CONFIG.copy()
-            config.update(
-                {
-                    "do_sample": strategy["do_sample"],
-                    "temperature": strategy["temperature"],
-                    "max_new_tokens": 20,
-                }
-            )
-
-            generated = generate_text(model, tokenizer, prompt, config)
-
-            # Выделяем сгенерированную часть
-            generated_part = generated[len(prompt) :]
-            print(f"   📤 Промпт: '{prompt}'")
-            print(f"   🎯 Сгенерировано: '{generated_part}'")
-            print(f"   📄 Полный текст: '{generated}'")
-
-        except Exception as e:
-            print(f"   ❌ Ошибка: {e}")
-
-
-def analyze_tokenization(tokenizer: BPETokenizer, texts: list):
-    """
-    Анализирует токенизацию различных текстов.
-
-    Args:
-        tokenizer: BPE токенизатор
-        texts: Список текстов для анализа
-    """
-    print(f"\n🔍 Анализ токенизации BPE:")
-    print("=" * 50)
-
-    for i, text in enumerate(texts):
-        print(f"\nТекст {i+1}: '{text}'")
-
-        # Токенизация
-        tokens = tokenizer.encode(text, add_special_tokens=False)
-        token_strings = tokenizer.tokenize(text)
-
-        print(f"   Токены (ID): {tokens}")
-        print(f"   Токены (текст): {token_strings}")
-        print(f"   Количество токенов: {len(tokens)}")
-        print(f"   Эффективность: {len(text)} символов → {len(tokens)} токенов")
-
-        # Декодирование обратно
-        decoded = tokenizer.decode(tokens)
-        if text == decoded:
-            print(f"   ✅ Декодирование корректно")
-        else:
-            print(f"   ⚠️  Расхождения: '{decoded}'")
-
-
-def interactive_generation(model: GPT, tokenizer: BPETokenizer):
-    """
-    Режим интерактивной генерации.
-
-    Args:
-        model: Обученная модель
-        tokenizer: BPE токенизатор
-    """
-    print(f"\n💬 Интерактивная генерация (для выхода введите 'exit')")
-    print("-" * 50)
-
-    while True:
-        try:
-            user_input = input("\n🔤 Введите промпт: ").strip()
-
-            if user_input.lower() in ["exit", "quit", "выход"]:
-                break
-
-            if not user_input:
-                continue
-
-            # Запрашиваем параметры
-            try:
-                max_tokens = int(input("📏 Макс. токенов [50]: ") or "50")
-                temperature = float(input("🌡️  Температура [0.7]: ") or "0.7")
-                do_sample_input = input("🎲 Сэмплирование (y/n) [y]: ").lower()
-                do_sample = do_sample_input != "n"
-            except:
-                max_tokens = 50
-                temperature = 0.7
-                do_sample = True
-                print("⚠️  Использую параметры по умолчанию")
-
-            config = GENERATION_CONFIG.copy()
-            config.update(
-                {
-                    "max_new_tokens": max_tokens,
-                    "temperature": temperature,
-                    "do_sample": do_sample,
-                }
-            )
-
-            generated = generate_text(model, tokenizer, user_input, config)
-
-            generated_part = generated[len(user_input) :]
-            print(f"\n🎯 Результат:")
-            print(f"   📤 Промпт: '{user_input}'")
-            print(f"   🎯 Сгенерировано: '{generated_part}'")
-            print(f"   📄 Полный текст: '{generated}'")
-
-        except KeyboardInterrupt:
-            print("\n👋 Завершение работы...")
-            break
-        except Exception as e:
-            print(f"❌ Ошибка: {e}")
-
-
-def main():
-    """Основная функция эксперимента."""
-    # === Настройка эксперимента ===
-    experiment_name = "Генерация текста GPT + BPE (только llm)"
-    experiment_config = {
-        "model": "GPT с BPE токенизатором",
-        "стратегия": "автономная генерация",
-        "вход": "промпты",
-        "выход": "сгенерированный текст",
-    }
-
-    print_experiment_info(experiment_name, experiment_config)
-    ensure_directories()
-    logger = ExperimentLogger(experiment_name)
-
-    try:
-        # Загружаем модель и токенизатор
-        model, tokenizer, model_config = load_model_and_tokenizer()
-
-        # === Анализ токенизации ===
-        analysis_texts = [
-            "Искусственный интеллект",
-            "Нейронные сети",
-            "Машинное обучение",
-        ]
-        analyze_tokenization(tokenizer, analysis_texts)
-
-        # === Генерация с разными промптами ===
-        print(f"\n🎯 Генерация текста с разными промптами")
-        print("=" * 60)
-
-        for i, prompt in enumerate(TEST_PROMPTS):
-            print(f"\n📝 Пример {i+1}/{len(TEST_PROMPTS)}")
-            print("-" * 40)
-
-            try:
-                generated = generate_text(model, tokenizer, prompt, GENERATION_CONFIG)
-
-                # Выделяем сгенерированную часть
-                generated_part = generated[len(prompt) :]
-
-                print(f"📤 Промпт: '{prompt}'")
-                print(f"🎯 Сгенерировано: '{generated_part}'")
-                print(f"📄 Полный текст: '{generated}'")
-                print(f"📏 Длина: {len(generated)} символов")
-
-                # Логируем успешную генерацию
-                logger.log_metric(f"generation_length_{i}", len(generated))
-
-            except Exception as e:
-                print(f"❌ Ошибка при генерации: {e}")
-                continue
-
-        # === Сравнение стратегий генерации ===
-        test_prompt = "Искусственный"
-        test_different_strategies(model, tokenizer, test_prompt)
-
-        # === Интерактивная генерация ===
-        interactive_generation(model, tokenizer)
-
-        # === Сохранение результатов ===
-        logger.save_logs("checkpoints/llm_only_generation_logs.json")
-
-        print(f"\n🎉 Эксперимент генерации завершен успешно!")
-
-    except FileNotFoundError as e:
-        print(f"❌ {e}")
-    except Exception as e:
-        print(f"❌ Ошибка в эксперименте: {e}")
-        import traceback
-
-        traceback.print_exc()
-
-
-if __name__ == "__main__":
-    main()
--- a/experiments/llm_only/run_llm_experiment.py
+++ b/experiments/llm_only/run_llm_experiment.py
@@ -0,0 +1,167 @@
+#!/usr/bin/env python3
+"""
+Универсальный скрипт для обучения и генерации LLM.
+Позволяет выбирать тип модели и действие через аргументы,
+а специальные параметры подавать отдельным JSON-конфигом.
+"""
+
+import argparse
+import json
+import os
+import sys
+
+import torch
+
+# Добавляем директорию shared среди импортируемых
+sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+
+from llm.tokenizers import BPETokenizer
+from llm.training.dataset import TextDataset
+from llm.training.trainer import Trainer
+
+from shared.data import (
+    print_experiment_info,
+    ensure_directories,
+    load_training_data,
+    ExperimentLogger,
+)
+
+
+def load_config(config_path):
+    with open(config_path, "r", encoding="utf-8") as f:
+        return json.load(f)
+
+
+def load_model_class(model_name):
+    if model_name.lower() == 'gpt':
+        from llm.models.gpt import GPT
+        return GPT
+    elif model_name.lower() == 'gpt2':
+        from llm.models.gpt import GPT2
+        return GPT2
+    elif model_name.lower() == 'llama':
+        from llm.models.llama import Llama
+        return Llama
+    else:
+        raise ValueError(f"Модель '{model_name}' не поддерживается.")
+
+
+def main():
+    parser = argparse.ArgumentParser(description='Универсальный запуск обучения/генерации LLM.')
+    parser.add_argument('--model', '-m', type=str, required=True, help='Название модели (gpt, gpt2, llama и т.д.).')
+    parser.add_argument('--action', '-a', type=str, required=True, choices=['train', 'generate'], help='Действие: train или generate.')
+    parser.add_argument('--config', '-c', type=str, required=True, help='Путь к JSON-конфигу с параметрами.')
+    args = parser.parse_args()
+
+    config = load_config(args.config)
+    ModelClass = load_model_class(args.model)
+    logger = ExperimentLogger(f"{args.action}_{args.model}")
+
+    print_experiment_info(f"Эксперимент {args.action} {args.model}", config)
+    ensure_directories()
+
+    # ==== Обучение ====
+    if args.action == 'train':
+        train_texts, val_texts = load_training_data()
+        # --- Токенизатор ---
+        if os.path.exists(config["bpe_tokenizer"]):
+            print("📝 Загрузка обученного токенизатора...")
+            tokenizer = BPETokenizer.load(config["bpe_tokenizer"])
+            print(f"✅ Токенизатор загружен (vocab_size={tokenizer.get_vocab_size()})")
+        else:
+            print("🔧 Обучение BPE токенизатора...")
+            tokenizer = BPETokenizer()
+            tokenizer.train(
+                texts=train_texts,
+                vocab_size=config["bpe_vocab_size"],
+                special_tokens=config["bpe_special_tokens"]
+            )
+            os.makedirs(os.path.dirname(config["bpe_tokenizer"]), exist_ok=True)
+            tokenizer.save(config["bpe_tokenizer"])
+            print(f"✅ BPE токенизатор обучен и сохранен: {config['bpe_tokenizer']}")
+
+        # Тестируем токенизатор (базово)
+        for test_text in config.get("test_prompts", ["Тест"]):
+            encoded = tokenizer.encode(test_text)
+            decoded = tokenizer.decode(encoded)
+            print(f"[TEST TOK] '{test_text}' → {encoded} → '{decoded}'")
+
+        # --- Модель ---
+        model_config = config["model_config"]
+        model_config["vocab_size"] = tokenizer.get_vocab_size()
+        model = ModelClass(model_config)
+
+        # --- Датасет ---
+        train_dataset = TextDataset(
+            train_texts,
+            tokenizer,
+            block_size=model_config["max_position_embeddings"]
+        )
+        print(f"   Размер train датасета: {len(train_dataset)} примеров")
+
+        # --- Trainer ---
+        training = config["training"]
+        trainer = Trainer(
+            model=model,
+            train_dataset=train_dataset,
+            lr=training["learning_rate"],
+            batch_size=training["batch_size"],
+            num_epochs=training["num_epochs"],
+            warmup_steps=training.get("warmup_steps", 0),
+        )
+        trainer.train()
+
+        # --- Сохранение модели ---
+        os.makedirs(os.path.dirname(config["model_weights"]), exist_ok=True)
+        torch.save(model.state_dict(), config["model_weights"])
+        with open(config["model_config_path"], "w", encoding="utf-8") as f:
+            json.dump(model_config, f, indent=2, ensure_ascii=False)
+        print(f"✅ Модель сохранена: {config['model_weights']}")
+
+        logger.save_logs(config.get("log_path", "checkpoints/llm_only_training_logs.json"))
+
+    # ==== Генерация ====
+    elif args.action == 'generate':
+        # --- Загрузка ---
+        if not os.path.exists(config["model_weights"]):
+            raise FileNotFoundError(f"Модель не найдена: {config['model_weights']}")
+        if not os.path.exists(config["bpe_tokenizer"]):
+            raise FileNotFoundError(f"Токенизатор не найден: {config['bpe_tokenizer']}")
+        with open(config["model_config_path"], "r", encoding="utf-8") as f:
+            model_config = json.load(f)
+        tokenizer = BPETokenizer.load(config["bpe_tokenizer"])
+        model = ModelClass(model_config)
+        model.load_state_dict(torch.load(config["model_weights"], map_location="cpu"))
+        model.eval()
+
+        def generate(prompt, gen_cfg):
+            print(f"Промпт: {prompt}")
+            input_ids = tokenizer.encode(prompt, add_special_tokens=False)
+            input_tensor = torch.tensor([input_ids], dtype=torch.long)
+            with torch.no_grad():
+                generated_ids = model.generate(
+                    x=input_tensor,
+                    max_new_tokens=gen_cfg["max_new_tokens"],
+                    do_sample=gen_cfg["do_sample"],
+                    temperature=gen_cfg["temperature"],
+                    top_k=gen_cfg.get("top_k"),
+                    top_p=gen_cfg.get("top_p"),
+                )
+            return tokenizer.decode(generated_ids[0].tolist())
+
+        prompts = config.get("test_prompts", ["Тестовый промпт"])
+        gen_cfg = config.get("generation", {
+            "max_new_tokens": 50,
+            "temperature": 0.7,
+            "do_sample": True,
+            "top_k": None,
+            "top_p": None
+        })
+        for prompt in prompts:
+            generated = generate(prompt, gen_cfg)
+            print(f"\n[RESULT] Prompt: '{prompt}'\n---\n{generated}\n{'='*60}")
+
+        logger.save_logs(config.get("log_path", "checkpoints/llm_only_generation_logs.json"))
+
+if __name__ == "__main__":
+    main()
--- a/experiments/llm_only/train_gpt2_bpe.py
+++ b/experiments/llm_only/train_gpt2_bpe.py
@@ -1,237 +0,0 @@
-#!/usr/bin/env python3
-"""
-Experiment: train_gpt_bpe.py
-Description: Обучение GPT модели с собственным BPE токенизатором.
-Использует только библиотеку llm без зависимостей от HuggingFace.
-"""
-
-import torch
-import os
-import sys
-
-# Добавляем путь к shared модулям
-sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
-
-from llm.models.gpt import GPT2
-from llm.tokenizers import BPETokenizer
-from llm.training.dataset import TextDataset
-from llm.training.trainer import Trainer
-
-from shared.configs import (
-    TRAIN_TEXTS,
-    BASE_GPT_CONFIG,
-    BPE_CONFIG,
-    TRAINING_CONFIG,
-    PATHS,
-    TEST_PROMPTS,
-)
-from shared.data import (
-    load_training_data,
-    ensure_directories,
-    print_experiment_info,
-    ExperimentLogger,
-)
-
-
-def train_bpe_tokenizer(texts: list, config: dict) -> BPETokenizer:
-    """
-    Обучает BPE токенизатор на текстах.
-
-    Args:
-        texts: Список текстов для обучения
-        config: Конфигурация токенизатора
-
-    Returns:
-        BPETokenizer: Обученный токенизатор
-    """
-    print("🔧 Обучение BPE токенизатора...")
-
-    tokenizer = BPETokenizer()
-    tokenizer.train(
-        texts=texts,
-        vocab_size=config["vocab_size"],
-        special_tokens=config["special_tokens"],
-    )
-
-    # Сохраняем токенизатор
-    os.makedirs(os.path.dirname(PATHS["bpe_tokenizer"]), exist_ok=True)
-    tokenizer.save(PATHS["bpe_tokenizer"])
-
-    print(f"✅ BPE токенизатор обучен и сохранен: {PATHS['bpe_tokenizer']}")
-    print(f"📊 Размер словаря: {tokenizer.get_vocab_size()}")
-
-    return tokenizer
-
-
-def test_tokenizer(tokenizer: BPETokenizer, texts: list):
-    """
-    Тестирует токенизатор на примерах.
-
-    Args:
-        tokenizer: Обученный токенизатор
-        texts: Список тестовых текстов
-    """
-    print("\n🧪 Тестирование токенизатора:")
-
-    for i, text in enumerate(texts[:3]):
-        print(f"\nПример {i+1}:")
-        print(f"   Исходный текст: '{text}'")
-
-        # Кодирование
-        tokens = tokenizer.encode(text)
-        token_strings = tokenizer.tokenize(text)
-
-        print(f"   Токены (ID): {tokens}")
-        print(f"   Токены (текст): {token_strings}")
-        print(f"   Количество токенов: {len(tokens)}")
-
-        # Декодирование
-        decoded = tokenizer.decode(tokens)
-        print(f"   Декодированный: '{decoded}'")
-
-        if text == decoded:
-            print("   ✅ Кодирование/декодирование корректно")
-        else:
-            print("   ⚠️  Небольшие расхождения")
-
-
-def main():
-    """Основная функция эксперимента."""
-    # === Настройка эксперимента ===
-    experiment_name = "Обучение GPT2 с BPE токенизатором (только llm)"
-    experiment_config = {
-        "model": "GPT2",
-        "tokenizer": "BPE",
-        "vocab_size": BPE_CONFIG["vocab_size"],
-        "training_epochs": TRAINING_CONFIG["num_epochs"],
-        "batch_size": TRAINING_CONFIG["batch_size"],
-        "learning_rate": TRAINING_CONFIG["learning_rate"],
-    }
-
-    print_experiment_info(experiment_name, experiment_config)
-    ensure_directories()
-    logger = ExperimentLogger(experiment_name)
-
-    try:
-        # === Подготовка данных ===
-        train_texts, val_texts = load_training_data()
-        print(f"📊 Данные: {len(train_texts)} train, {len(val_texts)} validation")
-
-        # === Обучение токенизатора ===
-        if os.path.exists(PATHS["bpe_tokenizer"]):
-            print("📝 Загрузка предварительно обученного токенизатора...")
-            tokenizer = BPETokenizer.load(PATHS["bpe_tokenizer"])
-            print(f"✅ Токенизатор загружен (vocab_size={tokenizer.get_vocab_size()})")
-        else:
-            tokenizer = train_bpe_tokenizer(TRAIN_TEXTS, BPE_CONFIG)
-
-        # Тестируем токенизатор
-        test_tokenizer(tokenizer, TEST_PROMPTS[:3])
-
-        # === Инициализация модели ===
-        model_config = BASE_GPT_CONFIG.copy()
-        model_config["vocab_size"] = tokenizer.get_vocab_size()
-
-        print(f"\n🔧 Инициализация GPT2 модели...")
-        print(f"   Размер словаря: {model_config['vocab_size']}")
-        print(f"   Размер эмбеддингов: {model_config['embed_dim']}")
-        print(f"   Количество слоев: {model_config['num_layers']}")
-        print(f"   Количество голов внимания: {model_config['num_heads']}")
-
-        model = GPT2(model_config)
-
-        # === Подготовка датасета ===
-        print(f"\n📊 Подготовка датасета...")
-        train_dataset = TextDataset(
-            train_texts, tokenizer, block_size=model_config["max_position_embeddings"]
-        )
-        print(f"   Размер train датасета: {len(train_dataset)} примеров")
-
-        # === Обучение модели ===
-        print(f"\n🎯 Начало обучения GPT2 модели...")
-
-        trainer = Trainer(
-            model=model,
-            train_dataset=train_dataset,
-            lr=TRAINING_CONFIG["learning_rate"],
-            batch_size=TRAINING_CONFIG["batch_size"],
-            num_epochs=TRAINING_CONFIG["num_epochs"],
-            warmup_steps=TRAINING_CONFIG["warmup_steps"],
-        )
-
-        # Запускаем обучение
-        trainer.train()
-
-        # === Сохранение модели ===
-        print(f"\n💾 Сохранение модели...")
-        os.makedirs(os.path.dirname(PATHS["gpt_bpe_model"]), exist_ok=True)
-
-        # Сохраняем модель
-        torch.save(model.state_dict(), PATHS["gpt_bpe_model"])
-
-        # Сохраняем конфигурацию
-        import json
-
-        with open(PATHS["gpt_bpe_config"], "w", encoding="utf-8") as f:
-            json.dump(model_config, f, indent=2, ensure_ascii=False)
-
-        print(f"✅ Модель сохранена:")
-        print(f"   - {PATHS['gpt_bpe_model']}: веса модели")
-        print(f"   - {PATHS['gpt_bpe_config']}: конфигурация модели")
-        print(f"   - {PATHS['bpe_tokenizer']}: токенизатор")
-
-        # === Тестирование генерации ===
-        print(f"\n🧪 Тестирование генерации текста...")
-        model.eval()
-
-        for prompt in TEST_PROMPTS[:3]:
-            print(f"\n🔤 Промпт: '{prompt}'")
-
-            try:
-                # Кодируем промпт
-                input_ids = tokenizer.encode(prompt, add_special_tokens=False)
-                input_tensor = torch.tensor([input_ids], dtype=torch.long)
-
-                # Генерируем текст
-                with torch.no_grad():
-                    generated_ids = model.generate(
-                        x=input_tensor,
-                        max_new_tokens=20,
-                        do_sample=True,
-                        temperature=0.8,
-                    )
-
-                # Декодируем результат
-                generated_text = tokenizer.decode(generated_ids[0].tolist())
-                generated_part = generated_text[len(prompt) :]
-
-                print(f"🎯 Сгенерировано: '{generated_part}'")
-                print(f"📄 Полный текст: '{generated_text}'")
-
-            except Exception as e:
-                print(f"❌ Ошибка генерации: {e}")
-
-        # === Сохранение результатов ===
-        results = {
-            "experiment": experiment_name,
-            "model_config": model_config,
-            "training_config": TRAINING_CONFIG,
-            "tokenizer_vocab_size": tokenizer.get_vocab_size(),
-            "final_loss": "см. логи обучения",  # В реальном эксперименте можно сохранить final loss
-        }
-
-        logger.save_logs("checkpoints/llm_only_training_logs.json")
-
-        print(f"\n🎉 Эксперимент завершен успешно!")
-        print(f"\n💡 Для использования обученной модели:")
-        print(f"   uv run python experiments/llm_only/generate_gpt_bpe.py")
-
-    except Exception as e:
-        print(f"❌ Ошибка в эксперименте: {e}")
-        import traceback
-
-        traceback.print_exc()
-
-
-if __name__ == "__main__":
-    main()
--- a/experiments/llm_only/train_gpt_bpe.py
+++ b/experiments/llm_only/train_gpt_bpe.py
@@ -1,237 +0,0 @@
-#!/usr/bin/env python3
-"""
-Experiment: train_gpt_bpe.py
-Description: Обучение GPT модели с собственным BPE токенизатором.
-Использует только библиотеку llm без зависимостей от HuggingFace.
-"""
-
-import torch
-import os
-import sys
-
-# Добавляем путь к shared модулям
-sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
-
-from llm.models.gpt import GPT
-from llm.tokenizers import BPETokenizer
-from llm.training.dataset import TextDataset
-from llm.training.trainer import Trainer
-
-from shared.configs import (
-    TRAIN_TEXTS,
-    BASE_GPT_CONFIG,
-    BPE_CONFIG,
-    TRAINING_CONFIG,
-    PATHS,
-    TEST_PROMPTS,
-)
-from shared.data import (
-    load_training_data,
-    ensure_directories,
-    print_experiment_info,
-    ExperimentLogger,
-)
-
-
-def train_bpe_tokenizer(texts: list, config: dict) -> BPETokenizer:
-    """
-    Обучает BPE токенизатор на текстах.
-
-    Args:
-        texts: Список текстов для обучения
-        config: Конфигурация токенизатора
-
-    Returns:
-        BPETokenizer: Обученный токенизатор
-    """
-    print("🔧 Обучение BPE токенизатора...")
-
-    tokenizer = BPETokenizer()
-    tokenizer.train(
-        texts=texts,
-        vocab_size=config["vocab_size"],
-        special_tokens=config["special_tokens"],
-    )
-
-    # Сохраняем токенизатор
-    os.makedirs(os.path.dirname(PATHS["bpe_tokenizer"]), exist_ok=True)
-    tokenizer.save(PATHS["bpe_tokenizer"])
-
-    print(f"✅ BPE токенизатор обучен и сохранен: {PATHS['bpe_tokenizer']}")
-    print(f"📊 Размер словаря: {tokenizer.get_vocab_size()}")
-
-    return tokenizer
-
-
-def test_tokenizer(tokenizer: BPETokenizer, texts: list):
-    """
-    Тестирует токенизатор на примерах.
-
-    Args:
-        tokenizer: Обученный токенизатор
-        texts: Список тестовых текстов
-    """
-    print("\n🧪 Тестирование токенизатора:")
-
-    for i, text in enumerate(texts[:3]):
-        print(f"\nПример {i+1}:")
-        print(f"   Исходный текст: '{text}'")
-
-        # Кодирование
-        tokens = tokenizer.encode(text)
-        token_strings = tokenizer.tokenize(text)
-
-        print(f"   Токены (ID): {tokens}")
-        print(f"   Токены (текст): {token_strings}")
-        print(f"   Количество токенов: {len(tokens)}")
-
-        # Декодирование
-        decoded = tokenizer.decode(tokens)
-        print(f"   Декодированный: '{decoded}'")
-
-        if text == decoded:
-            print("   ✅ Кодирование/декодирование корректно")
-        else:
-            print("   ⚠️  Небольшие расхождения")
-
-
-def main():
-    """Основная функция эксперимента."""
-    # === Настройка эксперимента ===
-    experiment_name = "Обучение GPT с BPE токенизатором (только llm)"
-    experiment_config = {
-        "model": "GPT",
-        "tokenizer": "BPE",
-        "vocab_size": BPE_CONFIG["vocab_size"],
-        "training_epochs": TRAINING_CONFIG["num_epochs"],
-        "batch_size": TRAINING_CONFIG["batch_size"],
-        "learning_rate": TRAINING_CONFIG["learning_rate"],
-    }
-
-    print_experiment_info(experiment_name, experiment_config)
-    ensure_directories()
-    logger = ExperimentLogger(experiment_name)
-
-    try:
-        # === Подготовка данных ===
-        train_texts, val_texts = load_training_data()
-        print(f"📊 Данные: {len(train_texts)} train, {len(val_texts)} validation")
-
-        # === Обучение токенизатора ===
-        if os.path.exists(PATHS["bpe_tokenizer"]):
-            print("📝 Загрузка предварительно обученного токенизатора...")
-            tokenizer = BPETokenizer.load(PATHS["bpe_tokenizer"])
-            print(f"✅ Токенизатор загружен (vocab_size={tokenizer.get_vocab_size()})")
-        else:
-            tokenizer = train_bpe_tokenizer(TRAIN_TEXTS, BPE_CONFIG)
-
-        # Тестируем токенизатор
-        test_tokenizer(tokenizer, TEST_PROMPTS[:3])
-
-        # === Инициализация модели ===
-        model_config = BASE_GPT_CONFIG.copy()
-        model_config["vocab_size"] = tokenizer.get_vocab_size()
-
-        print(f"\n🔧 Инициализация GPT модели...")
-        print(f"   Размер словаря: {model_config['vocab_size']}")
-        print(f"   Размер эмбеддингов: {model_config['embed_dim']}")
-        print(f"   Количество слоев: {model_config['num_layers']}")
-        print(f"   Количество голов внимания: {model_config['num_heads']}")
-
-        model = GPT(model_config)
-
-        # === Подготовка датасета ===
-        print(f"\n📊 Подготовка датасета...")
-        train_dataset = TextDataset(
-            train_texts, tokenizer, block_size=model_config["max_position_embeddings"]
-        )
-        print(f"   Размер train датасета: {len(train_dataset)} примеров")
-
-        # === Обучение модели ===
-        print(f"\n🎯 Начало обучения GPT модели...")
-
-        trainer = Trainer(
-            model=model,
-            train_dataset=train_dataset,
-            lr=TRAINING_CONFIG["learning_rate"],
-            batch_size=TRAINING_CONFIG["batch_size"],
-            num_epochs=TRAINING_CONFIG["num_epochs"],
-            warmup_steps=TRAINING_CONFIG["warmup_steps"],
-        )
-
-        # Запускаем обучение
-        trainer.train()
-
-        # === Сохранение модели ===
-        print(f"\n💾 Сохранение модели...")
-        os.makedirs(os.path.dirname(PATHS["gpt_bpe_model"]), exist_ok=True)
-
-        # Сохраняем модель
-        torch.save(model.state_dict(), PATHS["gpt_bpe_model"])
-
-        # Сохраняем конфигурацию
-        import json
-
-        with open(PATHS["gpt_bpe_config"], "w", encoding="utf-8") as f:
-            json.dump(model_config, f, indent=2, ensure_ascii=False)
-
-        print(f"✅ Модель сохранена:")
-        print(f"   - {PATHS['gpt_bpe_model']}: веса модели")
-        print(f"   - {PATHS['gpt_bpe_config']}: конфигурация модели")
-        print(f"   - {PATHS['bpe_tokenizer']}: токенизатор")
-
-        # === Тестирование генерации ===
-        print(f"\n🧪 Тестирование генерации текста...")
-        model.eval()
-
-        for prompt in TEST_PROMPTS[:3]:
-            print(f"\n🔤 Промпт: '{prompt}'")
-
-            try:
-                # Кодируем промпт
-                input_ids = tokenizer.encode(prompt, add_special_tokens=False)
-                input_tensor = torch.tensor([input_ids], dtype=torch.long)
-
-                # Генерируем текст
-                with torch.no_grad():
-                    generated_ids = model.generate(
-                        x=input_tensor,
-                        max_new_tokens=20,
-                        do_sample=True,
-                        temperature=0.8,
-                    )
-
-                # Декодируем результат
-                generated_text = tokenizer.decode(generated_ids[0].tolist())
-                generated_part = generated_text[len(prompt) :]
-
-                print(f"🎯 Сгенерировано: '{generated_part}'")
-                print(f"📄 Полный текст: '{generated_text}'")
-
-            except Exception as e:
-                print(f"❌ Ошибка генерации: {e}")
-
-        # === Сохранение результатов ===
-        results = {
-            "experiment": experiment_name,
-            "model_config": model_config,
-            "training_config": TRAINING_CONFIG,
-            "tokenizer_vocab_size": tokenizer.get_vocab_size(),
-            "final_loss": "см. логи обучения",  # В реальном эксперименте можно сохранить final loss
-        }
-
-        logger.save_logs("checkpoints/llm_only_training_logs.json")
-
-        print(f"\n🎉 Эксперимент завершен успешно!")
-        print(f"\n💡 Для использования обученной модели:")
-        print(f"   uv run python experiments/llm_only/generate_gpt_bpe.py")
-
-    except Exception as e:
-        print(f"❌ Ошибка в эксперименте: {e}")
-        import traceback
-
-        traceback.print_exc()
-
-
-if __name__ == "__main__":
-    main()
--- a/experiments/llm_only/train_llama_bpe.py
+++ b/experiments/llm_only/train_llama_bpe.py
@@ -1,237 +0,0 @@
-#!/usr/bin/env python3
-"""
-Experiment: train_gpt_bpe.py
-Description: Обучение GPT модели с собственным BPE токенизатором.
-Использует только библиотеку llm без зависимостей от HuggingFace.
-"""
-
-import torch
-import os
-import sys
-
-# Добавляем путь к shared модулям
-sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
-
-from llm.models.llama import Llama
-from llm.tokenizers import BPETokenizer
-from llm.training.dataset import TextDataset
-from llm.training.trainer import Trainer
-
-from shared.configs import (
-    TRAIN_TEXTS,
-    BASE_GPT_CONFIG,
-    BPE_CONFIG,
-    TRAINING_CONFIG,
-    PATHS,
-    TEST_PROMPTS,
-)
-from shared.data import (
-    load_training_data,
-    ensure_directories,
-    print_experiment_info,
-    ExperimentLogger,
-)
-
-
-def train_bpe_tokenizer(texts: list, config: dict) -> BPETokenizer:
-    """
-    Обучает BPE токенизатор на текстах.
-
-    Args:
-        texts: Список текстов для обучения
-        config: Конфигурация токенизатора
-
-    Returns:
-        BPETokenizer: Обученный токенизатор
-    """
-    print("🔧 Обучение BPE токенизатора...")
-
-    tokenizer = BPETokenizer()
-    tokenizer.train(
-        texts=texts,
-        vocab_size=config["vocab_size"],
-        special_tokens=config["special_tokens"],
-    )
-
-    # Сохраняем токенизатор
-    os.makedirs(os.path.dirname(PATHS["bpe_tokenizer"]), exist_ok=True)
-    tokenizer.save(PATHS["bpe_tokenizer"])
-
-    print(f"✅ BPE токенизатор обучен и сохранен: {PATHS['bpe_tokenizer']}")
-    print(f"📊 Размер словаря: {tokenizer.get_vocab_size()}")
-
-    return tokenizer
-
-
-def test_tokenizer(tokenizer: BPETokenizer, texts: list):
-    """
-    Тестирует токенизатор на примерах.
-
-    Args:
-        tokenizer: Обученный токенизатор
-        texts: Список тестовых текстов
-    """
-    print("\n🧪 Тестирование токенизатора:")
-
-    for i, text in enumerate(texts[:3]):
-        print(f"\nПример {i+1}:")
-        print(f"   Исходный текст: '{text}'")
-
-        # Кодирование
-        tokens = tokenizer.encode(text)
-        token_strings = tokenizer.tokenize(text)
-
-        print(f"   Токены (ID): {tokens}")
-        print(f"   Токены (текст): {token_strings}")
-        print(f"   Количество токенов: {len(tokens)}")
-
-        # Декодирование
-        decoded = tokenizer.decode(tokens)
-        print(f"   Декодированный: '{decoded}'")
-
-        if text == decoded:
-            print("   ✅ Кодирование/декодирование корректно")
-        else:
-            print("   ⚠️  Небольшие расхождения")
-
-
-def main():
-    """Основная функция эксперимента."""
-    # === Настройка эксперимента ===
-    experiment_name = "Обучение Llama с BPE токенизатором (только llm)"
-    experiment_config = {
-        "model": "Llama",
-        "tokenizer": "BPE",
-        "vocab_size": BPE_CONFIG["vocab_size"],
-        "training_epochs": TRAINING_CONFIG["num_epochs"],
-        "batch_size": TRAINING_CONFIG["batch_size"],
-        "learning_rate": TRAINING_CONFIG["learning_rate"],
-    }
-
-    print_experiment_info(experiment_name, experiment_config)
-    ensure_directories()
-    logger = ExperimentLogger(experiment_name)
-
-    try:
-        # === Подготовка данных ===
-        train_texts, val_texts = load_training_data()
-        print(f"📊 Данные: {len(train_texts)} train, {len(val_texts)} validation")
-
-        # === Обучение токенизатора ===
-        if os.path.exists(PATHS["bpe_tokenizer"]):
-            print("📝 Загрузка предварительно обученного токенизатора...")
-            tokenizer = BPETokenizer.load(PATHS["bpe_tokenizer"])
-            print(f"✅ Токенизатор загружен (vocab_size={tokenizer.get_vocab_size()})")
-        else:
-            tokenizer = train_bpe_tokenizer(TRAIN_TEXTS, BPE_CONFIG)
-
-        # Тестируем токенизатор
-        test_tokenizer(tokenizer, TEST_PROMPTS[:3])
-
-        # === Инициализация модели ===
-        model_config = BASE_GPT_CONFIG.copy()
-        model_config["vocab_size"] = tokenizer.get_vocab_size()
-
-        print(f"\n🔧 Инициализация Llama модели...")
-        print(f"   Размер словаря: {model_config['vocab_size']}")
-        print(f"   Размер эмбеддингов: {model_config['embed_dim']}")
-        print(f"   Количество слоев: {model_config['num_layers']}")
-        print(f"   Количество голов внимания: {model_config['num_heads']}")
-
-        model = Llama(model_config)
-
-        # === Подготовка датасета ===
-        print(f"\n📊 Подготовка датасета...")
-        train_dataset = TextDataset(
-            train_texts, tokenizer, block_size=model_config["max_position_embeddings"]
-        )
-        print(f"   Размер train датасета: {len(train_dataset)} примеров")
-
-        # === Обучение модели ===
-        print(f"\n🎯 Начало обучения Llama модели...")
-
-        trainer = Trainer(
-            model=model,
-            train_dataset=train_dataset,
-            lr=TRAINING_CONFIG["learning_rate"],
-            batch_size=TRAINING_CONFIG["batch_size"],
-            num_epochs=TRAINING_CONFIG["num_epochs"],
-            warmup_steps=TRAINING_CONFIG["warmup_steps"],
-        )
-
-        # Запускаем обучение
-        trainer.train()
-
-        # === Сохранение модели ===
-        print(f"\n💾 Сохранение модели...")
-        os.makedirs(os.path.dirname(PATHS["gpt_bpe_model"]), exist_ok=True)
-
-        # Сохраняем модель
-        torch.save(model.state_dict(), PATHS["gpt_bpe_model"])
-
-        # Сохраняем конфигурацию
-        import json
-
-        with open(PATHS["gpt_bpe_config"], "w", encoding="utf-8") as f:
-            json.dump(model_config, f, indent=2, ensure_ascii=False)
-
-        print(f"✅ Модель сохранена:")
-        print(f"   - {PATHS['gpt_bpe_model']}: веса модели")
-        print(f"   - {PATHS['gpt_bpe_config']}: конфигурация модели")
-        print(f"   - {PATHS['bpe_tokenizer']}: токенизатор")
-
-        # === Тестирование генерации ===
-        print(f"\n🧪 Тестирование генерации текста...")
-        model.eval()
-
-        for prompt in TEST_PROMPTS[:3]:
-            print(f"\n🔤 Промпт: '{prompt}'")
-
-            try:
-                # Кодируем промпт
-                input_ids = tokenizer.encode(prompt, add_special_tokens=False)
-                input_tensor = torch.tensor([input_ids], dtype=torch.long)
-
-                # Генерируем текст
-                with torch.no_grad():
-                    generated_ids = model.generate(
-                        x=input_tensor,
-                        max_new_tokens=20,
-                        do_sample=True,
-                        temperature=0.8,
-                    )
-
-                # Декодируем результат
-                generated_text = tokenizer.decode(generated_ids[0].tolist())
-                generated_part = generated_text[len(prompt) :]
-
-                print(f"🎯 Сгенерировано: '{generated_part}'")
-                print(f"📄 Полный текст: '{generated_text}'")
-
-            except Exception as e:
-                print(f"❌ Ошибка генерации: {e}")
-
-        # === Сохранение результатов ===
-        results = {
-            "experiment": experiment_name,
-            "model_config": model_config,
-            "training_config": TRAINING_CONFIG,
-            "tokenizer_vocab_size": tokenizer.get_vocab_size(),
-            "final_loss": "см. логи обучения",  # В реальном эксперименте можно сохранить final loss
-        }
-
-        logger.save_logs("checkpoints/llm_only_training_logs.json")
-
-        print(f"\n🎉 Эксперимент завершен успешно!")
-        print(f"\n💡 Для использования обученной модели:")
-        print(f"   uv run python experiments/llm_only/generate_gpt_bpe.py")
-
-    except Exception as e:
-        print(f"❌ Ошибка в эксперименте: {e}")
-        import traceback
-
-        traceback.print_exc()
-
-
-if __name__ == "__main__":
-    main()