llm-arch-research/experiments/hf_integration/generate_with_hf_tools.py

#!/usr/bin/env python3
"""
Experiment: generate_with_hf_tools.py
Description: Генерация текста обученной GPT моделью через HuggingFace инструменты.
Использует hf-proxy для интеграции кастомной модели с HF экосистемой.
"""

import torch
import os
import sys

# Добавляем путь к shared модулям
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))

from hf_proxy import HFAdapter, HFTokenizerAdapter, create_hf_pipeline

from shared.configs import TEST_PROMPTS, GENERATION_CONFIG, PATHS
from shared.data import print_experiment_info, ensure_directories, ExperimentLogger


def load_hf_model_and_tokenizer() -> tuple:
    """
    Загружает модель и токенизатор в формате HuggingFace.

    Returns:
        tuple: (hf_model, hf_tokenizer, model_config)
    """
    # Используем упрощенную версию модели
    model_path = "checkpoints/hf_simple_trained"
    tokenizer_path = "checkpoints/hf_simple_tokenizer"

    # Проверяем существование файлов
    if not os.path.exists(model_path):
        raise FileNotFoundError(
            f"Модель не найдена: {model_path}\n"
            f"Сначала обучите модель: uv run python experiments/hf_integration/simple_hf_training.py"
        )

    if not os.path.exists(tokenizer_path):
        raise FileNotFoundError(f"Токенизатор не найден: {tokenizer_path}")

    # Загружаем адаптированный токенизатор
    print("🔧 Загрузка адаптированного токенизатора...")
    hf_tokenizer = HFTokenizerAdapter.from_pretrained(tokenizer_path)
    print(f"✅ Токенизатор загружен (vocab_size={hf_tokenizer.vocab_size})")

    # Загружаем конфигурацию модели
    import json

    config_path = os.path.join(model_path, "config.json")
    with open(config_path, "r", encoding="utf-8") as f:
        model_config = json.load(f)

    # Загружаем модель через HFAdapter с правильной конфигурацией
    print("🔧 Загрузка адаптированной модели...")
    model_bin_path = os.path.join(model_path, "pytorch_model.bin")

    # Создаем конфигурацию из сохраненного config.json
    from hf_proxy import HFAdapterConfig

    hf_config = HFAdapterConfig(
        vocab_size=model_config["vocab_size"],
        hidden_size=model_config["hidden_size"],
        num_hidden_layers=model_config["num_hidden_layers"],
        num_attention_heads=model_config["num_attention_heads"],
        max_position_embeddings=model_config["max_position_embeddings"],
        hidden_dropout_prob=model_config.get("hidden_dropout_prob", 0.1),
        attention_probs_dropout_prob=model_config.get(
            "attention_probs_dropout_prob", 0.1
        ),
    )

    hf_model = HFAdapter.from_pretrained(model_bin_path, hf_config=hf_config)
    hf_model.eval()
    print("✅ Модель загружена")

    return hf_model, hf_tokenizer, model_config


def test_hf_pipeline(hf_model, hf_tokenizer):
    """
    Тестирует создание HuggingFace pipeline.

    Args:
        hf_model: Адаптированная модель
        hf_tokenizer: Адаптированный токенизатор
    """
    print("\n🧪 Тестирование HuggingFace pipeline...")

    try:
        # Создаем pipeline
        pipe = create_hf_pipeline(
            hf_model,
            tokenizer=hf_tokenizer,
            device="cpu",
            max_length=50,
            do_sample=True,
            temperature=0.7,
        )

        print("✅ HuggingFace pipeline создан")

        # Тестируем pipeline
        test_prompts = TEST_PROMPTS[:3]

        for prompt in test_prompts:
            print(f"\n🔤 Промпт: '{prompt}'")

            try:
                result = pipe(prompt, max_new_tokens=20)
                print(f"🎯 Результат: {result[0]['generated_text']}")
            except Exception as e:
                print(f"❌ Ошибка в pipeline: {e}")

    except Exception as e:
        print(f"❌ Ошибка создания pipeline: {e}")


def generate_with_hf_model(hf_model, hf_tokenizer, prompt: str, config: dict) -> str:
    """
    Генерирует текст через адаптированную модель HF.

    Args:
        hf_model: Адаптированная модель
        hf_tokenizer: Адаптированный токенизатор
        prompt: Входной текст
        config: Конфигурация генерации

    Returns:
        str: Сгенерированный текст
    """
    print(f"🔤 Промпт: '{prompt}'")
    print(
        f"📊 Параметры: max_tokens={config['max_new_tokens']}, "
        f"temp={config['temperature']}, sample={config['do_sample']}"
    )

    # Кодируем через адаптированный токенизатор
    inputs = hf_tokenizer(prompt, return_tensors="pt")

    print(f"🎯 Токены промпта: {inputs['input_ids'].tolist()[0]}")
    print("🔄 Генерация через HF адаптер...")

    # Генерируем через адаптированную модель
    with torch.no_grad():
        generated_ids = hf_model.generate(
            input_ids=inputs["input_ids"],
            max_new_tokens=config["max_new_tokens"],
            do_sample=config["do_sample"],
            temperature=config["temperature"],
            top_k=config["top_k"],
            top_p=config["top_p"],
        )

    # Декодируем через адаптированный токенизатор
    generated_text = hf_tokenizer.decode(generated_ids[0], skip_special_tokens=True)

    return generated_text


def test_different_hf_strategies(hf_model, hf_tokenizer, prompt: str):
    """
    Тестирует разные стратегии генерации через HF интерфейс.

    Args:
        hf_model: Адаптированная модель
        hf_tokenizer: Адаптированный токенизатор
        prompt: Тестовый промпт
    """
    print(f"\n🎭 Сравнение стратегий генерации через HF для промпта: '{prompt}'")
    print("=" * 70)

    strategies = [
        {"name": "🎯 Жадный поиск", "do_sample": False, "temperature": 1.0},
        {"name": "🎲 Вероятностная (temp=0.7)", "do_sample": True, "temperature": 0.7},
        {"name": "🔥 Случайная (temp=1.2)", "do_sample": True, "temperature": 1.2},
        {
            "name": "❄️  Детерминированная (temp=0.3)",
            "do_sample": True,
            "temperature": 0.3,
        },
    ]

    for strategy in strategies:
        print(f"\n{strategy['name']}:")
        try:
            config = GENERATION_CONFIG.copy()
            config.update(
                {
                    "do_sample": strategy["do_sample"],
                    "temperature": strategy["temperature"],
                    "max_new_tokens": 20,
                }
            )

            generated = generate_with_hf_model(hf_model, hf_tokenizer, prompt, config)

            # Выделяем сгенерированную часть
            generated_part = generated[len(prompt) :]
            print(f"   📤 Промпт: '{prompt}'")
            print(f"   🎯 Сгенерировано: '{generated_part}'")
            print(f"   📄 Полный текст: '{generated}'")

        except Exception as e:
            print(f"   ❌ Ошибка: {e}")


def analyze_hf_tokenization(hf_tokenizer, texts: list):
    """
    Анализирует токенизацию через адаптированный токенизатор.

    Args:
        hf_tokenizer: Адаптированный токенизатор
        texts: Список текстов для анализа
    """
    print(f"\n🔍 Анализ токенизации через HF адаптер:")
    print("=" * 60)

    for i, text in enumerate(texts):
        print(f"\nТекст {i+1}: '{text}'")

        # Токенизация через адаптер
        inputs = hf_tokenizer(text, return_tensors="pt")
        tokens = inputs["input_ids"].tolist()[0]
        token_strings = hf_tokenizer.tokenize(text)

        print(f"   Токены (ID): {tokens}")
        print(f"   Токены (текст): {token_strings}")
        print(f"   Количество токенов: {len(tokens)}")

        # Декодирование обратно
        decoded = hf_tokenizer.decode(tokens)
        print(f"   Декодированный: '{decoded}'")

        if text == decoded:
            print(f"   ✅ Декодирование корректно")
        else:
            print(f"   ⚠️  Расхождения")


def interactive_hf_generation(hf_model, hf_tokenizer):
    """
    Режим интерактивной генерации через HF интерфейс.

    Args:
        hf_model: Адаптированная модель
        hf_tokenizer: Адаптированный токенизатор
    """
    print(f"\n💬 Интерактивная генерация через HF (для выхода введите 'exit')")
    print("-" * 60)

    while True:
        try:
            user_input = input("\n🔤 Введите промпт: ").strip()

            if user_input.lower() in ["exit", "quit", "выход"]:
                break

            if not user_input:
                continue

            # Запрашиваем параметры
            try:
                max_tokens = int(input("📏 Макс. токенов [50]: ") or "50")
                temperature = float(input("🌡️  Температура [0.7]: ") or "0.7")
                do_sample_input = input("🎲 Сэмплирование (y/n) [y]: ").lower()
                do_sample = do_sample_input != "n"
            except:
                max_tokens = 50
                temperature = 0.7
                do_sample = True
                print("⚠️  Использую параметры по умолчанию")

            config = GENERATION_CONFIG.copy()
            config.update(
                {
                    "max_new_tokens": max_tokens,
                    "temperature": temperature,
                    "do_sample": do_sample,
                }
            )

            generated = generate_with_hf_model(
                hf_model, hf_tokenizer, user_input, config
            )

            generated_part = generated[len(user_input) :]
            print(f"\n🎯 Результат:")
            print(f"   📤 Промпт: '{user_input}'")
            print(f"   🎯 Сгенерировано: '{generated_part}'")
            print(f"   📄 Полный текст: '{generated}'")

        except KeyboardInterrupt:
            print("\n👋 Завершение работы...")
            break
        except Exception as e:
            print(f"❌ Ошибка: {e}")


def main():
    """Основная функция эксперимента."""
    # === Настройка эксперимента ===
    experiment_name = "Генерация текста через HF инструменты (с hf-proxy)"
    experiment_config = {
        "model": "GPT через HFAdapter",
        "tokenizer": "BPE через HFTokenizerAdapter",
        "инструменты": "HuggingFace pipeline & генерация",
        "стратегия": "интеграция с HF экосистемой",
    }

    print_experiment_info(experiment_name, experiment_config)
    ensure_directories()
    logger = ExperimentLogger(experiment_name)

    try:
        # Загружаем модель и токенизатор в HF формате
        hf_model, hf_tokenizer, model_config = load_hf_model_and_tokenizer()

        # === Анализ токенизации ===
        analysis_texts = [
            "Искусственный интеллект",
            "Нейронные сети",
            "Машинное обучение",
        ]
        analyze_hf_tokenization(hf_tokenizer, analysis_texts)

        # === Тестирование HF pipeline ===
        test_hf_pipeline(hf_model, hf_tokenizer)

        # === Генерация с разными промптами ===
        print(f"\n🎯 Генерация текста через HF адаптер")
        print("=" * 60)

        for i, prompt in enumerate(TEST_PROMPTS):
            print(f"\n📝 Пример {i+1}/{len(TEST_PROMPTS)}")
            print("-" * 40)

            try:
                generated = generate_with_hf_model(
                    hf_model, hf_tokenizer, prompt, GENERATION_CONFIG
                )

                # Выделяем сгенерированную часть
                generated_part = generated[len(prompt) :]

                print(f"📤 Промпт: '{prompt}'")
                print(f"🎯 Сгенерировано: '{generated_part}'")
                print(f"📄 Полный текст: '{generated}'")
                print(f"📏 Длина: {len(generated)} символов")

                # Логируем успешную генерацию
                logger.log_metric(f"hf_generation_length_{i}", len(generated))

            except Exception as e:
                print(f"❌ Ошибка при генерации: {e}")
                continue

        # === Сравнение стратегий генерации ===
        test_prompt = "Искусственный"
        test_different_hf_strategies(hf_model, hf_tokenizer, test_prompt)

        # === Интерактивная генерация ===
        interactive_hf_generation(hf_model, hf_tokenizer)

        # === Сохранение результатов ===
        logger.save_logs("checkpoints/hf_integration_generation_logs.json")

        print(f"\n🎉 Эксперимент с HF интеграцией завершен успешно!")
        print(f"\n📚 Достигнутая интеграция:")
        print(f"   ✅ Загрузка модели и токенизатора в HF формате")
        print(f"   ✅ Использование HF pipeline")
        print(f"   ✅ Генерация через стандартные HF интерфейсы")
        print(f"   ✅ Совместимость с HF экосистемой")

    except FileNotFoundError as e:
        print(f"❌ {e}")
    except Exception as e:
        print(f"❌ Ошибка в эксперименте: {e}")
        import traceback

        traceback.print_exc()


if __name__ == "__main__":
    main()
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								#!/usr/bin/env python3
 								"""
 								Experiment: generate_with_hf_tools.py
 								Description: Генерация текста обученной GPT моделью через HuggingFace инструменты.
 								Использует hf-proxy для интеграции кастомной модели с HF экосистемой.
 								"""
 								import torch
 								import os
 								import sys
 								# Добавляем путь к shared модулям
 								sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
 								from hf_proxy import HFAdapter, HFTokenizerAdapter, create_hf_pipeline
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								from shared.configs import TEST_PROMPTS, GENERATION_CONFIG, PATHS
 								from shared.data import print_experiment_info, ensure_directories, ExperimentLogger
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
 								def load_hf_model_and_tokenizer() -> tuple:
 								    """
 								    Загружает модель и токенизатор в формате HuggingFace.
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    Returns:
 								        tuple: (hf_model, hf_tokenizer, model_config)
 								    """
 								    # Используем упрощенную версию модели
 								    model_path = "checkpoints/hf_simple_trained"
 								    tokenizer_path = "checkpoints/hf_simple_tokenizer"
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    # Проверяем существование файлов
 								    if not os.path.exists(model_path):
 								        raise FileNotFoundError(
 								            f"Модель не найдена: {model_path}\n"
 								            f"Сначала обучите модель: uv run python experiments/hf_integration/simple_hf_training.py"
 								        )
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    if not os.path.exists(tokenizer_path):
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								        raise FileNotFoundError(f"Токенизатор не найден: {tokenizer_path}")
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    # Загружаем адаптированный токенизатор
 								    print("🔧 Загрузка адаптированного токенизатора...")
 								    hf_tokenizer = HFTokenizerAdapter.from_pretrained(tokenizer_path)
 								    print(f"✅ Токенизатор загружен (vocab_size={hf_tokenizer.vocab_size})")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    # Загружаем конфигурацию модели
 								    import json
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    config_path = os.path.join(model_path, "config.json")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								    with open(config_path, "r", encoding="utf-8") as f:
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        model_config = json.load(f)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    # Загружаем модель через HFAdapter с правильной конфигурацией
 								    print("🔧 Загрузка адаптированной модели...")
 								    model_bin_path = os.path.join(model_path, "pytorch_model.bin")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    # Создаем конфигурацию из сохраненного config.json
 								    from hf_proxy import HFAdapterConfig
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    hf_config = HFAdapterConfig(
 								        vocab_size=model_config["vocab_size"],
 								        hidden_size=model_config["hidden_size"],
 								        num_hidden_layers=model_config["num_hidden_layers"],
 								        num_attention_heads=model_config["num_attention_heads"],
 								        max_position_embeddings=model_config["max_position_embeddings"],
 								        hidden_dropout_prob=model_config.get("hidden_dropout_prob", 0.1),
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								        attention_probs_dropout_prob=model_config.get(
 								            "attention_probs_dropout_prob", 0.1
 								        ),
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    )
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    hf_model = HFAdapter.from_pretrained(model_bin_path, hf_config=hf_config)
 								    hf_model.eval()
 								    print("✅ Модель загружена")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    return hf_model, hf_tokenizer, model_config
 								def test_hf_pipeline(hf_model, hf_tokenizer):
 								    """
 								    Тестирует создание HuggingFace pipeline.
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    Args:
 								        hf_model: Адаптированная модель
 								        hf_tokenizer: Адаптированный токенизатор
 								    """
 								    print("\n🧪 Тестирование HuggingFace pipeline...")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    try:
 								        # Создаем pipeline
 								        pipe = create_hf_pipeline(
 								            hf_model,
 								            tokenizer=hf_tokenizer,
 								            device="cpu",
 								            max_length=50,
 								            do_sample=True,
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								            temperature=0.7,
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        )
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        print("✅ HuggingFace pipeline создан")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        # Тестируем pipeline
 								        test_prompts = TEST_PROMPTS[:3]
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        for prompt in test_prompts:
 								            print(f"\n🔤 Промпт: '{prompt}'")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								            try:
 								                result = pipe(prompt, max_new_tokens=20)
 								                print(f"🎯 Результат: {result[0]['generated_text']}")
 								            except Exception as e:
 								                print(f"❌ Ошибка в pipeline: {e}")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    except Exception as e:
 								        print(f"❌ Ошибка создания pipeline: {e}")
 								def generate_with_hf_model(hf_model, hf_tokenizer, prompt: str, config: dict) -> str:
 								    """
 								    Генерирует текст через адаптированную модель HF.
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    Args:
 								        hf_model: Адаптированная модель
 								        hf_tokenizer: Адаптированный токенизатор
 								        prompt: Входной текст
 								        config: Конфигурация генерации
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    Returns:
 								        str: Сгенерированный текст
 								    """
 								    print(f"🔤 Промпт: '{prompt}'")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								    print(
 								        f"📊 Параметры: max_tokens={config['max_new_tokens']}, "
 								        f"temp={config['temperature']}, sample={config['do_sample']}"
 								    )
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    # Кодируем через адаптированный токенизатор
 								    inputs = hf_tokenizer(prompt, return_tensors="pt")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    print(f"🎯 Токены промпта: {inputs['input_ids'].tolist()[0]}")
 								    print("🔄 Генерация через HF адаптер...")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    # Генерируем через адаптированную модель
 								    with torch.no_grad():
 								        generated_ids = hf_model.generate(
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								            input_ids=inputs["input_ids"],
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								            max_new_tokens=config["max_new_tokens"],
 								            do_sample=config["do_sample"],
 								            temperature=config["temperature"],
 								            top_k=config["top_k"],
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								            top_p=config["top_p"],
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        )
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    # Декодируем через адаптированный токенизатор
 								    generated_text = hf_tokenizer.decode(generated_ids[0], skip_special_tokens=True)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    return generated_text
 								def test_different_hf_strategies(hf_model, hf_tokenizer, prompt: str):
 								    """
 								    Тестирует разные стратегии генерации через HF интерфейс.
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    Args:
 								        hf_model: Адаптированная модель
 								        hf_tokenizer: Адаптированный токенизатор
 								        prompt: Тестовый промпт
 								    """
 								    print(f"\n🎭 Сравнение стратегий генерации через HF для промпта: '{prompt}'")
 								    print("=" * 70)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    strategies = [
 								        {"name": "🎯 Жадный поиск", "do_sample": False, "temperature": 1.0},
 								        {"name": "🎲 Вероятностная (temp=0.7)", "do_sample": True, "temperature": 0.7},
 								        {"name": "🔥 Случайная (temp=1.2)", "do_sample": True, "temperature": 1.2},
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								        {
 								            "name": "❄️  Детерминированная (temp=0.3)",
 								            "do_sample": True,
 								            "temperature": 0.3,
 								        },
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    ]
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    for strategy in strategies:
 								        print(f"\n{strategy['name']}:")
 								        try:
 								            config = GENERATION_CONFIG.copy()
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								            config.update(
 								                {
 								                    "do_sample": strategy["do_sample"],
 								                    "temperature": strategy["temperature"],
 								                    "max_new_tokens": 20,
 								                }
 								            )
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								            generated = generate_with_hf_model(hf_model, hf_tokenizer, prompt, config)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								            # Выделяем сгенерированную часть
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								            generated_part = generated[len(prompt) :]
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								            print(f"   📤 Промпт: '{prompt}'")
 								            print(f"   🎯 Сгенерировано: '{generated_part}'")
 								            print(f"   📄 Полный текст: '{generated}'")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        except Exception as e:
 								            print(f"   ❌ Ошибка: {e}")
 								def analyze_hf_tokenization(hf_tokenizer, texts: list):
 								    """
 								    Анализирует токенизацию через адаптированный токенизатор.
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    Args:
 								        hf_tokenizer: Адаптированный токенизатор
 								        texts: Список текстов для анализа
 								    """
 								    print(f"\n🔍 Анализ токенизации через HF адаптер:")
 								    print("=" * 60)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    for i, text in enumerate(texts):
 								        print(f"\nТекст {i+1}: '{text}'")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        # Токенизация через адаптер
 								        inputs = hf_tokenizer(text, return_tensors="pt")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								        tokens = inputs["input_ids"].tolist()[0]
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        token_strings = hf_tokenizer.tokenize(text)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        print(f"   Токены (ID): {tokens}")
 								        print(f"   Токены (текст): {token_strings}")
 								        print(f"   Количество токенов: {len(tokens)}")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        # Декодирование обратно
 								        decoded = hf_tokenizer.decode(tokens)
 								        print(f"   Декодированный: '{decoded}'")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        if text == decoded:
 								            print(f"   ✅ Декодирование корректно")
 								        else:
 								            print(f"   ⚠️  Расхождения")
 								def interactive_hf_generation(hf_model, hf_tokenizer):
 								    """
 								    Режим интерактивной генерации через HF интерфейс.
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    Args:
 								        hf_model: Адаптированная модель
 								        hf_tokenizer: Адаптированный токенизатор
 								    """
 								    print(f"\n💬 Интерактивная генерация через HF (для выхода введите 'exit')")
 								    print("-" * 60)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    while True:
 								        try:
 								            user_input = input("\n🔤 Введите промпт: ").strip()
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
 								            if user_input.lower() in ["exit", "quit", "выход"]:
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								                break
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								            if not user_input:
 								                continue
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								            # Запрашиваем параметры
 								            try:
 								                max_tokens = int(input("📏 Макс. токенов [50]: ") or "50")
 								                temperature = float(input("🌡️  Температура [0.7]: ") or "0.7")
 								                do_sample_input = input("🎲 Сэмплирование (y/n) [y]: ").lower()
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								                do_sample = do_sample_input != "n"
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								            except:
 								                max_tokens = 50
 								                temperature = 0.7
 								                do_sample = True
 								                print("⚠️  Использую параметры по умолчанию")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								            config = GENERATION_CONFIG.copy()
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								            config.update(
 								                {
 								                    "max_new_tokens": max_tokens,
 								                    "temperature": temperature,
 								                    "do_sample": do_sample,
 								                }
 								            )
 								            generated = generate_with_hf_model(
 								                hf_model, hf_tokenizer, user_input, config
 								            )
 								            generated_part = generated[len(user_input) :]
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								            print(f"\n🎯 Результат:")
 								            print(f"   📤 Промпт: '{user_input}'")
 								            print(f"   🎯 Сгенерировано: '{generated_part}'")
 								            print(f"   📄 Полный текст: '{generated}'")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        except KeyboardInterrupt:
 								            print("\n👋 Завершение работы...")
 								            break
 								        except Exception as e:
 								            print(f"❌ Ошибка: {e}")
 								def main():
 								    """Основная функция эксперимента."""
 								    # === Настройка эксперимента ===
 								    experiment_name = "Генерация текста через HF инструменты (с hf-proxy)"
 								    experiment_config = {
 								        "model": "GPT через HFAdapter",
 								        "tokenizer": "BPE через HFTokenizerAdapter",
 								        "инструменты": "HuggingFace pipeline & генерация",
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								        "стратегия": "интеграция с HF экосистемой",
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    }
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    print_experiment_info(experiment_name, experiment_config)
 								    ensure_directories()
 								    logger = ExperimentLogger(experiment_name)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    try:
 								        # Загружаем модель и токенизатор в HF формате
 								        hf_model, hf_tokenizer, model_config = load_hf_model_and_tokenizer()
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        # === Анализ токенизации ===
 								        analysis_texts = [
 								            "Искусственный интеллект",
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								            "Нейронные сети",
 								            "Машинное обучение",
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        ]
 								        analyze_hf_tokenization(hf_tokenizer, analysis_texts)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        # === Тестирование HF pipeline ===
 								        test_hf_pipeline(hf_model, hf_tokenizer)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        # === Генерация с разными промптами ===
 								        print(f"\n🎯 Генерация текста через HF адаптер")
 								        print("=" * 60)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        for i, prompt in enumerate(TEST_PROMPTS):
 								            print(f"\n📝 Пример {i+1}/{len(TEST_PROMPTS)}")
 								            print("-" * 40)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								            try:
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								                generated = generate_with_hf_model(
 								                    hf_model, hf_tokenizer, prompt, GENERATION_CONFIG
 								                )
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								                # Выделяем сгенерированную часть
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
+								                generated_part = generated[len(prompt) :]
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								                print(f"📤 Промпт: '{prompt}'")
 								                print(f"🎯 Сгенерировано: '{generated_part}'")
 								                print(f"📄 Полный текст: '{generated}'")
 								                print(f"📏 Длина: {len(generated)} символов")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								                # Логируем успешную генерацию
 								                logger.log_metric(f"hf_generation_length_{i}", len(generated))
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								            except Exception as e:
 								                print(f"❌ Ошибка при генерации: {e}")
 								                continue
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        # === Сравнение стратегий генерации ===
 								        test_prompt = "Искусственный"
 								        test_different_hf_strategies(hf_model, hf_tokenizer, test_prompt)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        # === Интерактивная генерация ===
 								        interactive_hf_generation(hf_model, hf_tokenizer)
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        # === Сохранение результатов ===
 								        logger.save_logs("checkpoints/hf_integration_generation_logs.json")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        print(f"\n🎉 Эксперимент с HF интеграцией завершен успешно!")
 								        print(f"\n📚 Достигнутая интеграция:")
 								        print(f"   ✅ Загрузка модели и токенизатора в HF формате")
 								        print(f"   ✅ Использование HF pipeline")
 								        print(f"   ✅ Генерация через стандартные HF интерфейсы")
 								        print(f"   ✅ Совместимость с HF экосистемой")
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								    except FileNotFoundError as e:
 								        print(f"❌ {e}")
 								    except Exception as e:
 								        print(f"❌ Ошибка в эксперименте: {e}")
 								        import traceback
-												Рефакторинг: единообразие оформления кода (пробелы, кавычки, пустые строки), без изменения логики по всему проекту.

											
										
										
											2025-10-06 22:57:19 +03:00
-												feat: initial project setup with LLM architecture and HF integration

- Add LLM library with GPT model implementation
- Add hf-proxy for HuggingFace integration
- Add experiments for training and generation
- Add comprehensive documentation and examples
- Configure uv workspace with proper dependencies

											
										
										
											2025-10-04 22:40:21 +03:00
+								        traceback.print_exc()
 								if __name__ == "__main__":
 								    main()