Files
simple-llm/README.md

79 lines
2.2 KiB
Markdown
Raw Normal View History

# Simple LLM Framework
2025-07-11 12:21:33 +03:00
[![Python 3.9+](https://img.shields.io/badge/python-3.9+-blue.svg)]()
[![PyTorch 2.0+](https://img.shields.io/badge/PyTorch-2.0+-red.svg)]()
2025-07-11 12:21:33 +03:00
Унифицированный фреймворк для NLP, включающий:
- 🎯 Токенизацию на основе BPE
- 📊 Векторные представления
- 🧠 Механизмы внимания
2025-07-11 12:21:33 +03:00
## Оглавление
- [Быстрый старт](#быстрый-старт)
- [Архитектура](#архитектура)
- [Модули](#модули)
- [Примеры](#примеры)
- [Установка](#установка)
- [Разработка](#разработка)
2025-07-11 12:21:33 +03:00
## Быстрый старт
```python
from simple_llm import SimpleBPE, TokenEmbeddings, HeadAttention
2025-07-11 12:21:33 +03:00
# 1. Токенизация
bpe = SimpleBPE().fit(text)
tokens = bpe.encode("Привет мир")
2025-07-11 12:21:33 +03:00
# 2. Эмбеддинги
emb_layer = TokenEmbeddings(10000, 256)
embeddings = emb_layer(tokens)
# 3. Внимание
attention = HeadAttention(256, 64)
output = attention(embeddings)
```
## Архитектура
```mermaid
graph TD
A[Текст] --> B(Tokenizer)
B --> C[Токены]
C --> D[TokenEmbeddings]
D --> E[HeadAttention]
E --> F[Выход модели]
2025-07-11 12:21:33 +03:00
```
## Модули
### Токенизация
- `SimpleBPE` - базовая реализация BPE
- `OptimizeBPE` - оптимизированная версия
### Эмбеддинги
- `TokenEmbeddings` - обучаемые векторные представления
- `PositionalEmbeddings` - позиционное кодирование
### Transformer
- `HeadAttention` - механизм внимания одной головы
## Примеры
| Файл | Описание |
|-------|----------|
| [example_bpe.py](/example/example_bpe.py) | Базовая токенизация |
| [head_attention_example.py](/example/head_attention_example.py) | Визуализация внимания |
## Установка
2025-07-11 12:21:33 +03:00
```bash
git clone https://github.com/pese-git/simple-llm.git
cd simple-llm
pip install -e .
2025-07-11 12:21:33 +03:00
```
## Разработка
```bash
# Запуск тестов
pytest tests/ -v
2025-07-11 12:21:33 +03:00
# Форматирование кода
black .
2025-07-11 12:21:33 +03:00
```