mirror of https://github.com/pese-git/simple-llm.git synced 2026-01-23 13:03:55 +00:00

Go to file

Sergey Penkovsky cc4138aba8 Рефакторинг и улучшение компонентов

Основные изменения в коде:

1. Токенизатор (bpe.py):
- Добавлен прогресс-бар через tqdm в метод fit()
- Улучшено логирование процесса обучения
- Добавлена обработка edge-cases для vocab_size

2. Генерация текста (generate_text.py):
- Полный рефакторинг скрипта
- Добавлены проверки модели перед загрузкой
- Поддержка уменьшенных моделей (seq_len=32)
- Подробное логирование процесса генерации

3. Обучение GPT (train_gpt_model.py):
- Автоподбор параметров под размер данных
- Уменьшенные параметры модели по умолчанию
- Контроль памяти и устройств (CPU/MPS)

4. Токенизация корпуса (tokenize_corpus.py):
- Добавлены проверки входных данных
- Подробное логирование процесса
- Обработка ошибок загрузки файлов

Исправления:
- Синхронизация размеров слоёв в GPT
- Корректная работа с малыми наборами данных
- Исправление загрузки моделей на MPS

Обновление README.md

- Добавлены обязательные зависимости: dill и tqdm
- Добавлен раздел 'Цель проекта' с описанием задач
- Добавлен раздел 'Участие в разработке' для контрибьюторов
- Добавлен раздел 'Лицензия' с условиями MIT

Рефакторинг основных скриптов и обновление данных

Основные изменения:
1. Скрипты в bin/:
   - Оптимизация generate_text.py (генерация текста)
   - Улучшение tokenize_corpus.py (обработка корпуса)
   - Рефакторинг train_gpt_model.py (обучение модели)
   - Обновление train_tokenizer.py (алгоритм BPE)

2. Данные:
   - Удалены устаревшие артефакты:
     * simple_llm_gpt.pth (модель)
     * bpe_tokenizer.json (токенизатор)
     * corpus_tokens.pkl (токены)
   - Подготовка к генерации новых данных

2025-07-24 16:45:31 +03:00

bin

Рефакторинг и улучшение компонентов

2025-07-24 16:45:31 +03:00

data/corpus/sample

Рефакторинг и улучшение компонентов

2025-07-24 16:45:31 +03:00

doc

Документация и примеры: унификация путей, стабильная работа на CPU, расширенный корпус для токенизатора, end-to-end пайплайн обучения и генерации. Исправлены все ошибки с устройствами и индексами, добавлены проверки и диагностика prompt.

2025-07-23 14:34:10 +03:00

example

Рефакторинг и улучшение компонентов

2025-07-24 16:45:31 +03:00

example_output

Полная реализация FeedForward

2025-07-20 14:28:18 +03:00

simple_llm

Рефакторинг и улучшение компонентов

2025-07-24 16:45:31 +03:00

tests

Обновление BPE: добавлена документация, тесты и улучшен пример использования

2025-07-23 13:06:06 +03:00

.gitignore

Рефакторинг и улучшение компонентов

2025-07-24 16:45:31 +03:00

LICENSE

Initial commit

2025-07-08 14:42:24 +03:00

pyproject.toml

feat: implement bpe algorithm

2025-07-11 12:21:33 +03:00

README.md

Рефакторинг и улучшение компонентов

2025-07-24 16:45:31 +03:00

README.md

Simple-LLM: Персональная языковая модель

🎯 Цель проекта

Simple-LLM - это минималистичная реализация языковой модели (LLM) с полным циклом:

Обучение BPE-токенизатора на ваших данных
Подготовка датасета для обучения модели
Тренировка компактной GPT-архитектуры
Генерация текста в заданном стиле

Проект создан для:

Образовательных целей - понимания работы современных LLM
Экспериментов с генерацией текста на небольших датасетах
Создания персонализированных языковых моделей

Полный цикл от обучения токенизатора до генерации текста

🛠 Установка

# 1. Клонируйте репозиторий
git clone https://github.com/ваш-репозиторий/simple-llm.git
cd simple-llm

# 2. Создайте виртуальное окружение (рекомендуется)
python -m venv venv
source venv/bin/activate  # Linux/Mac
# или venv\Scripts\activate  # Windows

# 3. Установите зависимости
pip install torch==2.0.1
pip install dill tqdm  # Основные зависимости для работы

📂 Подготовка данных

Поместите текстовые файлы (.txt) в папку:

data/
└── corpus/
    └── sample/
        ├── text1.txt
        ├── text2.txt
        └── ...

🔄 Полный рабочий цикл

1. Обучение BPE-токенизатора

python bin/train_tokenizer.py \
  --corpus data/corpus/sample \
  --output data/tokenizer/bpe_model.json \
  --vocab-size 500

2. Токенизация данных

python bin/tokenize_corpus.py \
  --corpus data/corpus/sample \
  --tokenizer data/tokenizer/bpe_model.json \
  --output data/tokens/tokenized_corpus.pkl

3. Обучение GPT модели

python bin/train_gpt_model.py \
  --tokens data/tokens/tokenized_corpus.pkl \
  --tokenizer data/tokenizer/bpe_model.json \
  --output data/model/gpt_model.pth \
  --seq-len 32 \
  --batch-size 3 \
  --epochs 3 \
  --emb-size 64 \
  --num-heads 2 \
  --num-layers 2

4. Генерация текста

python bin/generate_text.py \
  --model data/model/gpt_model.pth \
  --tokenizer data/tokenizer/bpe_model.json \
  --seq-len 32 \
  --emb-size 64 \
  --num-heads 2 \
  --num-layers 2 \
  --prompt "Ваш текст для продолжения" \
  --length 100 \
  --temperature 0.7

🚀 Быстрый старт (минимальная конфигурация)

# Последовательно выполните:
./bin/train_tokenizer.py --corpus data/corpus/sample --output data/tokenizer/bpe.json
./bin/tokenize_corpus.py --corpus data/corpus/sample --tokenizer data/tokenizer/bpe.json
./bin/train_gpt_model.py --tokens data/tokens/corpus_tokens.pkl --tokenizer data/tokenizer/bpe.json
./bin/generate_text.py --model data/model/gpt_model.pth --tokenizer data/tokenizer/bpe.json --prompt "Привет"

🧠 Рекомендации по параметрам

Параметр	CPU (рекомендации)	GPU (рекомендации)
vocab-size	2000-5000	5000-10000
seq-len	64-128	128-256
batch-size	4-8	16-32
emb-size	64-128	256-512
num-layers	2-4	6-12

⚠️ Устранение проблем

Ошибка памяти:
- Уменьшите batch-size и seq-len
```
python bin/train_gpt_model.py --batch-size 2 --seq-len 64
```
Плохая генерация:
- Увеличьте размер корпуса (>1MB текста)
- Добавьте больше эпох обучения (--epochs 15)

Медленная работа:

# Для GPU добавьте перед запуском:
export CUDA_VISIBLE_DEVICES=0

👥 Участие в разработке

Мы приветствуем вклад в проект! Вот как вы можете помочь:

🛠 Как внести свой вклад:

Форкните репозиторий
Создайте ветку для вашего изменения (git checkout -b feature/your-feature)
Сделайте коммит ваших изменений (git commit -am 'Add some feature')
Запушьте в ветку (git push origin feature/your-feature)
Создайте Pull Request

📌 Правила:

Следуйте существующему стилю кода
Пишите понятные сообщения коммитов
Добавляйте тесты для новых функций
Обновляйте документацию при изменении API

🐛 Сообщение об ошибках:

Открывайте Issue с описанием:

Шаги для воспроизведения
Ожидаемое поведение
Фактическое поведение
Версии ПО (Python, PyTorch и т.д.)

📜 Лицензия

Проект распространяется под лицензией MIT. Полный текст лицензии доступен в файле LICENSE.

Основные положения:

Разрешается свободное использование, модификация и распространение кода
Обязательно указание авторства
Лицензия предоставляется "как есть" без гарантий
Авторы не несут ответственности за последствия использования

📌 Важно

Все скрипты имеют встроенную помощь:

python bin/train_tokenizer.py --help

Модель автоматически использует GPU если доступен
Для выхода из виртуального окружения: deactivate

README.md Unescape Escape

Simple-LLM: Персональная языковая модель

🎯 Цель проекта

🛠 Установка

📂 Подготовка данных

🔄 Полный рабочий цикл

1. Обучение BPE-токенизатора

2. Токенизация данных

3. Обучение GPT модели

4. Генерация текста

🚀 Быстрый старт (минимальная конфигурация)

🧠 Рекомендации по параметрам

⚠️ Устранение проблем

👥 Участие в разработке

🛠 Как внести свой вклад:

📌 Правила:

🐛 Сообщение об ошибках:

📜 Лицензия

📌 Важно

README.md