From 0fdc8fe41d924eaeb230111bbe5840374fe5d056 Mon Sep 17 00:00:00 2001 From: Sergey Penkovsky Date: Fri, 25 Jul 2025 14:53:41 +0300 Subject: [PATCH] =?UTF-8?q?=D0=9E=D0=B1=D0=BD=D0=BE=D0=B2=D0=BB=D0=B5?= =?UTF-8?q?=D0=BD=D0=B8=D0=B5=20=D0=B8=D1=81=D1=82=D0=BE=D1=80=D0=B8=D0=B8?= =?UTF-8?q?=20GPT=20=D0=B2=20=D0=B4=D0=BE=D0=BA=D1=83=D0=BC=D0=B5=D0=BD?= =?UTF-8?q?=D1=82=D0=B0=D1=86=D0=B8=D0=B8?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- doc/gpt-history.md | 65 ++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 65 insertions(+) create mode 100644 doc/gpt-history.md diff --git a/doc/gpt-history.md b/doc/gpt-history.md new file mode 100644 index 0000000..f9b8d39 --- /dev/null +++ b/doc/gpt-history.md @@ -0,0 +1,65 @@ +# Эволюция моделей GPT (GPT-1 → GPT-4.1): гиперпараметры, оборудование, возможности и источники + +## 1. Гиперпараметры моделей + +| Модель | Параметры | Слои | Hidden Size | Heads | Контекст | Объем данных | Примечания | +|-----------|-----------|------|--------------|--------|----------|---------------|-------------------| +| GPT-1 | 117M | 12 | 768 | 12 | 512 | ~5GB | BooksCorpus | +| GPT-2 S | 117M | 12 | 768 | 12 | 1,024 | ~40GB | WebText | +| GPT-2 M | 345M | 24 | 1,024 | 16 | 1,024 | не указано | | +| GPT-2 L | 762M | 36 | 1,280 | 20 | 1,024 | не указано | | +| GPT-2 XL | 1.5B | 48 | 1,600 | 25 | 1,024 | не указано | | +| GPT-3 | 175B | 96 | 12,288 | 96 | 2,048 | ~300B токенов | Few-shot SOTA | +| GPT-3.5 | ≈175B | ? | ? | ? | 4K–8K | не раскрыто | RLHF | +| GPT-4 | ? | ? | ? | ? | 8K–32K | не раскрыто | Multimodal | +| GPT-4.1 | ? | ? | ? | ? | до 128K | не раскрыто | GPT-4-turbo | + +**Примечания:** +- Для GPT-2 существуют несколько версий с разным числом параметров и архитектурой. +- Для GPT-3.5 и GPT-4 официальные архитектурные детали не раскрывались полностью; часть данных основана на аналитических обзорах и оценках. + +## 2. Оборудование для обучения + +| Модель | ГПУ | Объем памяти | Кол-во GPU | Инфраструктура | Оценка стоимости | +|----------|----------------|--------------|-------------|------------------------|--------------------| +| GPT-1 | V100 (?) | 16GB | 1–4 | локально | - | +| GPT-2 | V100 | 16GB | до 256 | кластер | ~$50K–100K | +| GPT-3 | V100 (Azure) | 16GB | ~1K–3K | Azure Supercomputer | ~$4.6 млн | +| GPT-3.5 | A100 (Azure) | 40–80GB | ~5K+ | Azure AI | >$10M (оценка) | +| GPT-4 | A100 (Azure) | 80GB | 25K–30K | Azure AI SuperCluster | >$50–100 млн | +| GPT-4.1 | A100/H100 (?) | 80–96GB | ~30K+ | Azure + оптимизация | не раскрыто | + +**Примечания:** +- Для GPT-1 и GPT-2 использовались NVIDIA V100, для GPT-3 и старше — масштабируемые распределённые кластеры Azure с тысячами GPU. +- Аппаратные параметры для новых моделей основаны на независимых разборах индустриальных аналитиков и публикациях. + +## 3. Возможности моделей + +| Модель | Генерация текста | Логика/рассуждения | Программирование | Работа с изображениями | Контекст | Особенности | +|----------|------------------|---------------------|------------------|------------------------|----------|--------------------------| +| GPT-1 | 🟡 | 🔴 | 🔴 | 🔴 | 512 | Дообучение на задачах | +| GPT-2 | 🟢 | 🟡 | 🟡 | 🔴 | 1,024 | Few-shot появилось | +| GPT-3 | 🟢🟢 | 🟡 | 🟡 | 🔴 | 2,048 | Few-shot на практике | +| GPT-3.5 | 🟢🟢 | 🟢 | 🟢 | 🔴 | 4K–8K | RLHF, ChatGPT | +| GPT-4 | 🟢🟢🟢 | 🟢🟢 | 🟢🟢 | 🟢 | 8K–32K | Multimodal, точность | +| GPT-4.1 | 🟢🟢🟢 | 🟢🟢🟢 | 🟢🟢🟢 | 🟢 | до 128K | Быстрее и дешевле | + +**Условные обозначения:** +🟡 — ограниченно, 🟢 — хорошо, 🟢🟢 — очень хорошо, 🟢🟢🟢 — выдающийся уровень, 🔴 — не поддерживается + +## 4. Уникальные особенности поколений + +- **GPT-1**: Показал возможность предобучения на корпусе «сырых» текстов. +- **GPT-2**: Сильная генерация длинных текстов, дискуссия о рисках, delayed release самой крупной модели. +- **GPT-3**: Прорыв в few-shot обучении, широкий спектр заданий без дополнительной настройки, мощные API. +- **GPT-3.5**: Инфраструктурная фаза (ChatGPT, RLHF), уверенное выполнение инструкций и написание кода. +- **GPT-4**: Мультимодальность (текст+изображения), большой контекст, существенно улучшена точность и безопасность. +- **GPT-4.1**: Расширение по скорости, стоимости, надежности, до 128K токенов, улучшенный inference. + +## 5. Источники + +1. GPT-1: Radford et al., 2018, “Improving Language Understanding by Generative Pre-Training”. +2. GPT-2: OpenAI, “Better Language Models and Their Implications”. +3. GPT-3: Brown et al., 2020, “Language Models are Few-Shot Learners”. +4. GPT-4: OpenAI, “GPT-4 Technical Report”. +5. Независимый анализ: SemiAnalysis, EleutherAI, Hugging Face (обзорные публикации и сравнения с оценками аппаратных характеристик и стоимости).