Sergey Penkovsky 2f390145cf Рефакторинг документации: новая структура README
- Добавлены badges Python/PyTorch
- Включена Mermaid-схема архитектуры
- Улучшена навигация с оглавлением
- Добавлена таблица примеров
- Унифицирован стиль документации
2025-07-19 12:05:20 +03:00
2025-07-08 14:42:24 +03:00
2025-07-11 12:21:33 +03:00

Simple LLM Framework

Python 3.9+ PyTorch 2.0+

Унифицированный фреймворк для NLP, включающий:

  • 🎯 Токенизацию на основе BPE
  • 📊 Векторные представления
  • 🧠 Механизмы внимания

Оглавление

Быстрый старт

from simple_llm import SimpleBPE, TokenEmbeddings, HeadAttention

# 1. Токенизация
bpe = SimpleBPE().fit(text)
tokens = bpe.encode("Привет мир")

# 2. Эмбеддинги
emb_layer = TokenEmbeddings(10000, 256)
embeddings = emb_layer(tokens)

# 3. Внимание
attention = HeadAttention(256, 64)
output = attention(embeddings)

Архитектура

graph TD
    A[Текст] --> B(Tokenizer)
    B --> C[Токены]
    C --> D[TokenEmbeddings]
    D --> E[HeadAttention]
    E --> F[Выход модели]

Модули

Токенизация

  • SimpleBPE - базовая реализация BPE
  • OptimizeBPE - оптимизированная версия

Эмбеддинги

  • TokenEmbeddings - обучаемые векторные представления
  • PositionalEmbeddings - позиционное кодирование

Transformer

  • HeadAttention - механизм внимания одной головы

Примеры

Файл Описание
example_bpe.py Базовая токенизация
head_attention_example.py Визуализация внимания

Установка

git clone https://github.com/pese-git/simple-llm.git
cd simple-llm
pip install -e .

Разработка

# Запуск тестов
pytest tests/ -v

# Форматирование кода
black .
Description
No description provided
Readme MIT 21 MiB
Languages
Python 100%