docs(get_data): унификация структуры и оформление\n\nДобавлен summary, структура документа, рекомендации и раздел типовых ошибок. Приведён к единому стилю с остальными техническими файлами Simple-LLM.

2026-05-16 03:38:53 +00:00 · 2025-07-23 13:38:19 +03:00
parent 71904ea4e9
commit a895c59bfe
1 changed files with 42 additions and 7 deletions
--- a/doc/get_data_documentation_ru.md
+++ b/doc/get_data_documentation_ru.md
@@ -1,5 +1,28 @@
 # Документация по классу GetData
 > **Документ актуален для Simple-LLM v1.0 (июль 2025)**
 ---
 **Краткое summary:**
 Документ описывает класс GetData для создания датасетов из последовательных данных. Включает алгоритм, параметры, примеры, рекомендации и типовые ошибки.
 ---
 **Структура документа:**
 - Назначение
 - Основные возможности
 - Алгоритм работы
 - Пример использования
 - Параметры класса
 - Методы
 - Рекомендации
 - Типовые ошибки и их решения
 - Применение
 - Пример с текстовыми данными
 ---
 ## Назначение
 Класс `GetData` предназначен для создания датасетов из последовательных данных для обучения языковых моделей и других задач, работающих с последовательностями.
@@ -56,19 +79,31 @@ print(f"Вход: {x.tolist()} → Цель: {y.tolist()}")
 - `__len__()`: Возвращает количество обучающих примеров
 - `__getitem__(idx)`: Возвращает пару тензоров по индексу
-## Ошибки
+## Рекомендации
- `ValueError`: Если `seq_len` <= 0 или >= длины данных
+- Для текстовых данных предварительно токенизируйте текст
 - Для больших датасетов используйте GPU (`device='cuda'`)
 - Подбирайте `seq_len` в зависимости от задачи
 ---
 ## Типовые ошибки и их решения
 ### Ошибка: ValueError при создании датасета
 **Возможные причины:**
 - `seq_len` <= 0
 - `seq_len` >= длины данных
 **Решение:**
 - Задайте `seq_len` > 0 и < длины данных
 - Проверьте корректность входных параметров
 ---
 ## Применение
 1. Обучение языковых моделей
 2. Прогнозирование временных рядов
 3. Любые задачи, требующие работы с последовательностями
 ## Рекомендации
 - Для текстовых данных предварительно токенизируйте текст
 - Для больших датасетов используйте GPU (device='cuda')
 - Подбирайте seq_len в зависимости от задачи
 ## Пример с текстовыми данными
 ```python
 text_tokens = [10, 20, 30, 40]  # Токенизированный текст