Files
simple-llm/README.md
2025-07-11 12:21:33 +03:00

78 lines
2.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Simple LLM Tokenizer
Простой и эффективный токенизатор для языковых моделей на основе BPE (Byte Pair Encoding)
## Описание проекта
Проект предоставляет реализации алгоритма BPE (Byte Pair Encoding) для токенизации текста:
- `SimpleBPE` - базовая версия
- `OptimizeBPE` - оптимизированная версия с улучшенной производительностью
Основные возможности:
- Обучение на любом тексте (поддержка кириллицы и других алфавитов)
- Гибкая настройка размера словаря
- Простота интеграции в существующие проекты
## Установка
1. Склонируйте репозиторий:
```bash
git clone https://github.com/yourusername/simple-llm.git
cd simple-llm
```
2. Установите пакет:
```bash
pip install -e .
```
## Быстрый старт
```python
from simple_llm.tokenizer import SimpleBPE
# Инициализация и обучение
text = "мама мыла раму, папа пил какао"
bpe = SimpleBPE(vocab_size=50)
bpe.fit(text)
# Токенизация
tokens = bpe.tokenize(text)
print(tokens)
```
## Интеграция в проект
Добавьте в ваш `requirements.txt`:
```
git+https://github.com/yourusername/simple-llm.git
```
Или установите напрямую:
```bash
pip install git+https://github.com/yourusername/simple-llm.git
```
## Примеры
Дополнительные примеры использования смотрите в папке [example](/example):
- Сравнение SimpleBPE и OptimizeBPE
- Работа с разными языками
- Настройка параметров токенизации
## Разработка
Для запуска тестов:
```bash
pytest tests/
```
Для внесения изменений установите зависимости разработки:
```bash
pip install -e ".[dev]"
```
## Лицензия
Проект распространяется под лицензией MIT. Подробнее см. [LICENSE](LICENSE).