Files
simple-llm/bin

Параметры GPT-1:

12 слоев. 12 голов Внимания в каждом слое. 768 размерность эмбедингов. 40 000 размер словаря. 0.1 дропаут. 2.5e-4 learning rate 100 эпох. 64 размер батча 512 длина одной последовательности.