mirror of
https://github.com/pese-git/simple-llm.git
synced 2026-01-23 21:14:17 +00:00
feat: implement bpe algorithm
This commit is contained in:
78
README.md
78
README.md
@@ -1 +1,77 @@
|
||||
# simple-llm
|
||||
# Simple LLM Tokenizer
|
||||
|
||||
Простой и эффективный токенизатор для языковых моделей на основе BPE (Byte Pair Encoding)
|
||||
|
||||
## Описание проекта
|
||||
|
||||
Проект предоставляет реализации алгоритма BPE (Byte Pair Encoding) для токенизации текста:
|
||||
- `SimpleBPE` - базовая версия
|
||||
- `OptimizeBPE` - оптимизированная версия с улучшенной производительностью
|
||||
|
||||
Основные возможности:
|
||||
- Обучение на любом тексте (поддержка кириллицы и других алфавитов)
|
||||
- Гибкая настройка размера словаря
|
||||
- Простота интеграции в существующие проекты
|
||||
|
||||
## Установка
|
||||
|
||||
1. Склонируйте репозиторий:
|
||||
```bash
|
||||
git clone https://github.com/yourusername/simple-llm.git
|
||||
cd simple-llm
|
||||
```
|
||||
|
||||
2. Установите пакет:
|
||||
```bash
|
||||
pip install -e .
|
||||
```
|
||||
|
||||
## Быстрый старт
|
||||
|
||||
```python
|
||||
from simple_llm.tokenizer import SimpleBPE
|
||||
|
||||
# Инициализация и обучение
|
||||
text = "мама мыла раму, папа пил какао"
|
||||
bpe = SimpleBPE(vocab_size=50)
|
||||
bpe.fit(text)
|
||||
|
||||
# Токенизация
|
||||
tokens = bpe.tokenize(text)
|
||||
print(tokens)
|
||||
```
|
||||
|
||||
## Интеграция в проект
|
||||
|
||||
Добавьте в ваш `requirements.txt`:
|
||||
```
|
||||
git+https://github.com/yourusername/simple-llm.git
|
||||
```
|
||||
|
||||
Или установите напрямую:
|
||||
```bash
|
||||
pip install git+https://github.com/yourusername/simple-llm.git
|
||||
```
|
||||
|
||||
## Примеры
|
||||
|
||||
Дополнительные примеры использования смотрите в папке [example](/example):
|
||||
- Сравнение SimpleBPE и OptimizeBPE
|
||||
- Работа с разными языками
|
||||
- Настройка параметров токенизации
|
||||
|
||||
## Разработка
|
||||
|
||||
Для запуска тестов:
|
||||
```bash
|
||||
pytest tests/
|
||||
```
|
||||
|
||||
Для внесения изменений установите зависимости разработки:
|
||||
```bash
|
||||
pip install -e ".[dev]"
|
||||
```
|
||||
|
||||
## Лицензия
|
||||
|
||||
Проект распространяется под лицензией MIT. Подробнее см. [LICENSE](LICENSE).
|
||||
|
||||
Reference in New Issue
Block a user