Обновление истории GPT в документации

2026-01-23 21:14:17 +00:00 · 2025-07-25 14:53:41 +03:00
parent 3893ef2ea6
commit 0fdc8fe41d
1 changed files with 65 additions and 0 deletions
--- a/doc/gpt-history.md
+++ b/doc/gpt-history.md
@@ -0,0 +1,65 @@
 # Эволюция моделей GPT (GPT-1 → GPT-4.1): гиперпараметры, оборудование, возможности и источники
 ## 1. Гиперпараметры моделей
 | Модель    | Параметры | Слои | Hidden Size | Heads | Контекст | Объем данных | Примечания        |
 |-----------|-----------|------|--------------|--------|----------|---------------|-------------------|
 | GPT-1     | 117M      | 12   | 768          | 12     | 512      | ~5GB          | BooksCorpus    |
 | GPT-2 S   | 117M      | 12   | 768          | 12     | 1,024    | ~40GB         | WebText        |
 | GPT-2 M   | 345M      | 24   | 1,024        | 16     | 1,024    | не указано    |                   |
 | GPT-2 L   | 762M      | 36   | 1,280        | 20     | 1,024    | не указано    |                   |
 | GPT-2 XL  | 1.5B      | 48   | 1,600        | 25     | 1,024    | не указано    |                   |
 | GPT-3     | 175B      | 96   | 12,288       | 96     | 2,048    | ~300B токенов | Few-shot SOTA  |
 | GPT-3.5   | ≈175B     | ?    | ?            | ?      | 4K–8K    | не раскрыто   | RLHF              |
 | GPT-4     | ?         | ?    | ?            | ?      | 8K–32K   | не раскрыто   | Multimodal     |
 | GPT-4.1   | ?         | ?    | ?            | ?      | до 128K  | не раскрыто   | GPT-4-turbo    |
 **Примечания:**
 - Для GPT-2 существуют несколько версий с разным числом параметров и архитектурой.
 - Для GPT-3.5 и GPT-4 официальные архитектурные детали не раскрывались полностью; часть данных основана на аналитических обзорах и оценках.
 ## 2. Оборудование для обучения
 | Модель   | ГПУ            | Объем памяти | Кол-во GPU  | Инфраструктура         | Оценка стоимости   |
 |----------|----------------|--------------|-------------|------------------------|--------------------|
 | GPT-1    | V100 (?)       | 16GB         | 1–4         | локально               | -                  |
 | GPT-2    | V100           | 16GB         | до 256      | кластер                | ~$50K–100K         |
 | GPT-3    | V100 (Azure)   | 16GB         | ~1K–3K      | Azure Supercomputer    | ~$4.6 млн       |
 | GPT-3.5  | A100 (Azure)   | 40–80GB      | ~5K+        | Azure AI               | >$10M (оценка)     |
 | GPT-4    | A100 (Azure)   | 80GB         | 25K–30K     | Azure AI SuperCluster  | >$50–100 млн    |
 | GPT-4.1  | A100/H100 (?)  | 80–96GB      | ~30K+       | Azure + оптимизация    | не раскрыто        |
 **Примечания:**
 - Для GPT-1 и GPT-2 использовались NVIDIA V100, для GPT-3 и старше — масштабируемые распределённые кластеры Azure с тысячами GPU.
 - Аппаратные параметры для новых моделей основаны на независимых разборах индустриальных аналитиков и публикациях.
 ## 3. Возможности моделей
 | Модель   | Генерация текста | Логика/рассуждения | Программирование | Работа с изображениями | Контекст | Особенности              |
 |----------|------------------|---------------------|------------------|------------------------|----------|--------------------------|
 | GPT-1    | 🟡               | 🔴                  | 🔴               | 🔴                     | 512      | Дообучение на задачах    |
 | GPT-2    | 🟢               | 🟡                  | 🟡               | 🔴                     | 1,024    | Few-shot появилось       |
 | GPT-3    | 🟢🟢             | 🟡                  | 🟡               | 🔴                     | 2,048    | Few-shot на практике     |
 | GPT-3.5  | 🟢🟢             | 🟢                  | 🟢               | 🔴                     | 4K–8K    | RLHF, ChatGPT            |
 | GPT-4    | 🟢🟢🟢           | 🟢🟢                | 🟢🟢             | 🟢                     | 8K–32K   | Multimodal, точность     |
 | GPT-4.1  | 🟢🟢🟢           | 🟢🟢🟢              | 🟢🟢🟢           | 🟢                     | до 128K  | Быстрее и дешевле     |
 **Условные обозначения:**  
 🟡 — ограниченно, 🟢 — хорошо, 🟢🟢 — очень хорошо, 🟢🟢🟢 — выдающийся уровень, 🔴 — не поддерживается
 ## 4. Уникальные особенности поколений
 - **GPT-1**: Показал возможность предобучения на корпусе «сырых» текстов.
 - **GPT-2**: Сильная генерация длинных текстов, дискуссия о рисках, delayed release самой крупной модели.
 - **GPT-3**: Прорыв в few-shot обучении, широкий спектр заданий без дополнительной настройки, мощные API.
 - **GPT-3.5**: Инфраструктурная фаза (ChatGPT, RLHF), уверенное выполнение инструкций и написание кода.
 - **GPT-4**: Мультимодальность (текст+изображения), большой контекст, существенно улучшена точность и безопасность.
 - **GPT-4.1**: Расширение по скорости, стоимости, надежности, до 128K токенов, улучшенный inference.
 ## 5. Источники
 1. GPT-1: Radford et al., 2018, “Improving Language Understanding by Generative Pre-Training”.
 2. GPT-2: OpenAI, “Better Language Models and Their Implications”.
 3. GPT-3: Brown et al., 2020, “Language Models are Few-Shot Learners”.
 4. GPT-4: OpenAI, “GPT-4 Technical Report”.
 5. Независимый анализ: SemiAnalysis, EleutherAI, Hugging Face (обзорные публикации и сравнения с оценками аппаратных характеристик и стоимости).