# Simple LLM Tokenizer

Простой и эффективный токенизатор для языковых моделей на основе BPE (Byte Pair Encoding)

## Описание проекта

Проект предоставляет реализации алгоритма BPE (Byte Pair Encoding) для токенизации текста:
- `SimpleBPE` - базовая версия
- `OptimizeBPE` - оптимизированная версия с улучшенной производительностью

Основные возможности:
- Обучение на любом тексте (поддержка кириллицы и других алфавитов)
- Гибкая настройка размера словаря
- Простота интеграции в существующие проекты

## Установка

1. Склонируйте репозиторий:
```bash
git clone https://github.com/yourusername/simple-llm.git
cd simple-llm
```

2. Установите пакет:
```bash
pip install -e .
```

## Быстрый старт

```python
from simple_llm.tokenizer import SimpleBPE

# Инициализация и обучение
text = "мама мыла раму, папа пил какао"
bpe = SimpleBPE(vocab_size=50)
bpe.fit(text)

# Токенизация
tokens = bpe.tokenize(text)
print(tokens)
```

## Интеграция в проект

Добавьте в ваш `requirements.txt`:
```
git+https://github.com/yourusername/simple-llm.git
```

Или установите напрямую:
```bash
pip install git+https://github.com/yourusername/simple-llm.git
```

## Примеры

Дополнительные примеры использования смотрите в папке [example](/example):
- Сравнение SimpleBPE и OptimizeBPE
- Работа с разными языками
- Настройка параметров токенизации

## Разработка

Для запуска тестов:
```bash
pytest tests/
```

Для внесения изменений установите зависимости разработки:
```bash
pip install -e ".[dev]"
```

## Лицензия

Проект распространяется под лицензией MIT. Подробнее см. [LICENSE](LICENSE).