Medzi údajmi používanými na trénovanie veľkých jazykových modelov je populárny adresár textov s názvom The Pile. Má 886 gigabajtov.
Medzi údajmi používanými na trénovanie veľkých jazykových modelov je populárny adresár textov s názvom The Pile. Má 886 gigabajtov. Jeho súčasťou je podadresár s názvom Books3, ktorý má veľkosť 140 gigabajtov. Obsahuje 183-tisíc kníh v anglickom jazyku. Sú medzi nimi tituly od Stephena Kinga, Margar...