L’entreprise propose une bibliothèque « open source » réunissant une quantité astronomique de livres et de documents, utilisés pour entraîner les modèles d’IA. Parmi ces données, « Mediapart » a détecté près d’un demi-million d’ouvrages et articles scientifiques protégés.
