From a895c59bfec6bbe5c60cd9d9591b617f8a3457ca Mon Sep 17 00:00:00 2001 From: Sergey Penkovsky Date: Wed, 23 Jul 2025 13:38:19 +0300 Subject: [PATCH] =?UTF-8?q?docs(get=5Fdata):=20=D1=83=D0=BD=D0=B8=D1=84?= =?UTF-8?q?=D0=B8=D0=BA=D0=B0=D1=86=D0=B8=D1=8F=20=D1=81=D1=82=D1=80=D1=83?= =?UTF-8?q?=D0=BA=D1=82=D1=83=D1=80=D1=8B=20=D0=B8=20=D0=BE=D1=84=D0=BE?= =?UTF-8?q?=D1=80=D0=BC=D0=BB=D0=B5=D0=BD=D0=B8=D0=B5\n\n=D0=94=D0=BE?= =?UTF-8?q?=D0=B1=D0=B0=D0=B2=D0=BB=D0=B5=D0=BD=20summary,=20=D1=81=D1=82?= =?UTF-8?q?=D1=80=D1=83=D0=BA=D1=82=D1=83=D1=80=D0=B0=20=D0=B4=D0=BE=D0=BA?= =?UTF-8?q?=D1=83=D0=BC=D0=B5=D0=BD=D1=82=D0=B0,=20=D1=80=D0=B5=D0=BA?= =?UTF-8?q?=D0=BE=D0=BC=D0=B5=D0=BD=D0=B4=D0=B0=D1=86=D0=B8=D0=B8=20=D0=B8?= =?UTF-8?q?=20=D1=80=D0=B0=D0=B7=D0=B4=D0=B5=D0=BB=20=D1=82=D0=B8=D0=BF?= =?UTF-8?q?=D0=BE=D0=B2=D1=8B=D1=85=20=D0=BE=D1=88=D0=B8=D0=B1=D0=BE=D0=BA?= =?UTF-8?q?.=20=D0=9F=D1=80=D0=B8=D0=B2=D0=B5=D0=B4=D1=91=D0=BD=20=D0=BA?= =?UTF-8?q?=20=D0=B5=D0=B4=D0=B8=D0=BD=D0=BE=D0=BC=D1=83=20=D1=81=D1=82?= =?UTF-8?q?=D0=B8=D0=BB=D1=8E=20=D1=81=20=D0=BE=D1=81=D1=82=D0=B0=D0=BB?= =?UTF-8?q?=D1=8C=D0=BD=D1=8B=D0=BC=D0=B8=20=D1=82=D0=B5=D1=85=D0=BD=D0=B8?= =?UTF-8?q?=D1=87=D0=B5=D1=81=D0=BA=D0=B8=D0=BC=D0=B8=20=D1=84=D0=B0=D0=B9?= =?UTF-8?q?=D0=BB=D0=B0=D0=BC=D0=B8=20Simple-LLM.?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- doc/get_data_documentation_ru.md | 49 +++++++++++++++++++++++++++----- 1 file changed, 42 insertions(+), 7 deletions(-) diff --git a/doc/get_data_documentation_ru.md b/doc/get_data_documentation_ru.md index bf1bf53..dcbcca1 100644 --- a/doc/get_data_documentation_ru.md +++ b/doc/get_data_documentation_ru.md @@ -1,5 +1,28 @@ # Документация по классу GetData +> **Документ актуален для Simple-LLM v1.0 (июль 2025)** + +--- + +**Краткое summary:** +Документ описывает класс GetData для создания датасетов из последовательных данных. Включает алгоритм, параметры, примеры, рекомендации и типовые ошибки. + +--- + +**Структура документа:** +- Назначение +- Основные возможности +- Алгоритм работы +- Пример использования +- Параметры класса +- Методы +- Рекомендации +- Типовые ошибки и их решения +- Применение +- Пример с текстовыми данными + +--- + ## Назначение Класс `GetData` предназначен для создания датасетов из последовательных данных для обучения языковых моделей и других задач, работающих с последовательностями. @@ -56,19 +79,31 @@ print(f"Вход: {x.tolist()} → Цель: {y.tolist()}") - `__len__()`: Возвращает количество обучающих примеров - `__getitem__(idx)`: Возвращает пару тензоров по индексу -## Ошибки -- `ValueError`: Если `seq_len` <= 0 или >= длины данных +## Рекомендации +- Для текстовых данных предварительно токенизируйте текст +- Для больших датасетов используйте GPU (`device='cuda'`) +- Подбирайте `seq_len` в зависимости от задачи + +--- + +## Типовые ошибки и их решения + +### Ошибка: ValueError при создании датасета +**Возможные причины:** +- `seq_len` <= 0 +- `seq_len` >= длины данных + +**Решение:** +- Задайте `seq_len` > 0 и < длины данных +- Проверьте корректность входных параметров + +--- ## Применение 1. Обучение языковых моделей 2. Прогнозирование временных рядов 3. Любые задачи, требующие работы с последовательностями -## Рекомендации -- Для текстовых данных предварительно токенизируйте текст -- Для больших датасетов используйте GPU (device='cuda') -- Подбирайте seq_len в зависимости от задачи - ## Пример с текстовыми данными ```python text_tokens = [10, 20, 30, 40] # Токенизированный текст