Обновление BPE: добавлена документация, тесты и улучшен пример использования

2026-01-23 21:14:17 +00:00 · 2025-07-23 13:06:06 +03:00
parent 8b0dd9c504
commit 71904ea4e9
4 changed files with 377 additions and 100 deletions
--- a/tests/test_bpe.py
+++ b/tests/test_bpe.py
@@ -1,54 +1,24 @@
 import pytest
-from simple_llm.tokenizer.simple_bpe import SimpleBPE
-from simple_llm.tokenizer.optimize_bpe import OptimizeBPE
+from simple_llm.tokenizer.bpe import BPE

-class TestBPE:
-    @pytest.fixture(params=[SimpleBPE, OptimizeBPE])
-    def bpe_class(self, request):
-        return request.param
+def test_basic_bpe():
+    """Базовый тест работы BPE"""
+    tokenizer = BPE(vocab_size=10)
+    text = "мама мыла раму"
    
-    def test_initialization(self, bpe_class):
-        """Тест инициализации BPE-токенизатора"""
-        bpe = bpe_class(vocab_size=100)
-        assert bpe.vocab_size == 100
-        assert bpe.vocab == []
-        assert bpe.token2id == {}
-        assert bpe.id2token == {}
+    # Обучение
+    tokenizer.fit(text)
    
-    def test_fit_simple_text(self, bpe_class):
-        """Тест обучения на простом тексте"""
-        text = "мама мыла раму"
-        bpe = bpe_class(vocab_size=20)
-        bpe.fit(text)
-        
-        # Проверки словаря
-        assert isinstance(bpe.vocab, list)
-        assert len(bpe.vocab) > 0
-        assert len(bpe.vocab) <= 20
-        assert all(isinstance(token, str) for token in bpe.vocab)
-        
-        # Проверка словарей
-        assert len(bpe.vocab) == len(bpe.token2id)
-        assert len(bpe.vocab) == len(bpe.id2token)
-        
-        # Проверка соответствия токенов и ID
-        for token in bpe.vocab:
-            assert bpe.token2id[token] == bpe.vocab.index(token)
-            assert bpe.id2token[bpe.token2id[token]] == token
-
-    @pytest.mark.parametrize("text,expected_min_size", [
-        ("", 0),
-        ("а", 1),
-        ("ааааа", 3)  # Минимум 3 токена
-    ])
-    def test_edge_cases(self, bpe_class, text, expected_min_size):
-        """Тест граничных случаев"""
-        bpe = bpe_class(vocab_size=10)
-        bpe.fit(text)
-        assert len(bpe.vocab) >= expected_min_size
-
-    def test_duplicate_protection(self, bpe_class):
-        """Тест защиты от дубликатов токенов"""
-        bpe = bpe_class(vocab_size=50)
-        bpe.fit("аааааааааа" * 100)  # Много повторений
-        assert len(bpe.vocab) == len(set(bpe.vocab))
+    # Проверка размера словаря
+    assert len(tokenizer.vocab) == 10
+    
+    # Кодирование/декодирование
+    encoded = tokenizer.encode(text)
+    decoded = tokenizer.decode(encoded)
+    
+    assert decoded == text
+    assert len(encoded) > 0
+    
+    # Проверка неизвестных символов
+    unknown_encoded = tokenizer.encode("мама мыла окно")
+    assert -1 in unknown_encoded  # Специальный токен для неизвестных символов