Files
simple-llm/doc/gpt-history.md

66 lines
6.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Эволюция моделей GPT (GPT-1 → GPT-4.1): гиперпараметры, оборудование, возможности и источники
## 1. Гиперпараметры моделей
| Модель | Параметры | Слои | Hidden Size | Heads | Контекст | Объем данных | Примечания |
|-----------|-----------|------|--------------|--------|----------|---------------|-------------------|
| GPT-1 | 117M | 12 | 768 | 12 | 512 | ~5GB | BooksCorpus |
| GPT-2 S | 117M | 12 | 768 | 12 | 1,024 | ~40GB | WebText |
| GPT-2 M | 345M | 24 | 1,024 | 16 | 1,024 | не указано | |
| GPT-2 L | 762M | 36 | 1,280 | 20 | 1,024 | не указано | |
| GPT-2 XL | 1.5B | 48 | 1,600 | 25 | 1,024 | не указано | |
| GPT-3 | 175B | 96 | 12,288 | 96 | 2,048 | ~300B токенов | Few-shot SOTA |
| GPT-3.5 | ≈175B | ? | ? | ? | 4K8K | не раскрыто | RLHF |
| GPT-4 | ? | ? | ? | ? | 8K32K | не раскрыто | Multimodal |
| GPT-4.1 | ? | ? | ? | ? | до 128K | не раскрыто | GPT-4-turbo |
**Примечания:**
- Для GPT-2 существуют несколько версий с разным числом параметров и архитектурой.
- Для GPT-3.5 и GPT-4 официальные архитектурные детали не раскрывались полностью; часть данных основана на аналитических обзорах и оценках.
## 2. Оборудование для обучения
| Модель | ГПУ | Объем памяти | Кол-во GPU | Инфраструктура | Оценка стоимости |
|----------|----------------|--------------|-------------|------------------------|--------------------|
| GPT-1 | V100 (?) | 16GB | 14 | локально | - |
| GPT-2 | V100 | 16GB | до 256 | кластер | ~$50K100K |
| GPT-3 | V100 (Azure) | 16GB | ~1K3K | Azure Supercomputer | ~$4.6 млн |
| GPT-3.5 | A100 (Azure) | 4080GB | ~5K+ | Azure AI | >$10M (оценка) |
| GPT-4 | A100 (Azure) | 80GB | 25K30K | Azure AI SuperCluster | >$50100 млн |
| GPT-4.1 | A100/H100 (?) | 8096GB | ~30K+ | Azure + оптимизация | не раскрыто |
**Примечания:**
- Для GPT-1 и GPT-2 использовались NVIDIA V100, для GPT-3 и старше — масштабируемые распределённые кластеры Azure с тысячами GPU.
- Аппаратные параметры для новых моделей основаны на независимых разборах индустриальных аналитиков и публикациях.
## 3. Возможности моделей
| Модель | Генерация текста | Логика/рассуждения | Программирование | Работа с изображениями | Контекст | Особенности |
|----------|------------------|---------------------|------------------|------------------------|----------|--------------------------|
| GPT-1 | 🟡 | 🔴 | 🔴 | 🔴 | 512 | Дообучение на задачах |
| GPT-2 | 🟢 | 🟡 | 🟡 | 🔴 | 1,024 | Few-shot появилось |
| GPT-3 | 🟢🟢 | 🟡 | 🟡 | 🔴 | 2,048 | Few-shot на практике |
| GPT-3.5 | 🟢🟢 | 🟢 | 🟢 | 🔴 | 4K8K | RLHF, ChatGPT |
| GPT-4 | 🟢🟢🟢 | 🟢🟢 | 🟢🟢 | 🟢 | 8K32K | Multimodal, точность |
| GPT-4.1 | 🟢🟢🟢 | 🟢🟢🟢 | 🟢🟢🟢 | 🟢 | до 128K | Быстрее и дешевле |
**Условные обозначения:**
🟡 — ограниченно, 🟢 — хорошо, 🟢🟢 — очень хорошо, 🟢🟢🟢 — выдающийся уровень, 🔴 — не поддерживается
## 4. Уникальные особенности поколений
- **GPT-1**: Показал возможность предобучения на корпусе «сырых» текстов.
- **GPT-2**: Сильная генерация длинных текстов, дискуссия о рисках, delayed release самой крупной модели.
- **GPT-3**: Прорыв в few-shot обучении, широкий спектр заданий без дополнительной настройки, мощные API.
- **GPT-3.5**: Инфраструктурная фаза (ChatGPT, RLHF), уверенное выполнение инструкций и написание кода.
- **GPT-4**: Мультимодальность (текст+изображения), большой контекст, существенно улучшена точность и безопасность.
- **GPT-4.1**: Расширение по скорости, стоимости, надежности, до 128K токенов, улучшенный inference.
## 5. Источники
1. GPT-1: Radford et al., 2018, “Improving Language Understanding by Generative Pre-Training”.
2. GPT-2: OpenAI, “Better Language Models and Their Implications”.
3. GPT-3: Brown et al., 2020, “Language Models are Few-Shot Learners”.
4. GPT-4: OpenAI, “GPT-4 Technical Report”.
5. Независимый анализ: SemiAnalysis, EleutherAI, Hugging Face (обзорные публикации и сравнения с оценками аппаратных характеристик и стоимости).