Volgens een onderzoek van het Massachusetts Institute of Technology (VS) kunnen taalmodellen door symmetrieën te coderen met minder gegevens leren. Dit werd bewezen door een promovendus die de wet van Weyl toepaste op neurale netwerken en een verband legde tussen gegevenssymmetrie en de grootte van de trainingssteekproef.
Om een taalmodel correct te laten werken, moet het getraind worden op een voldoende hoeveelheid gegevens (trainingssteekproef). Daarna wordt het algoritme getest op andere gegevens, wat validatiesteekproef wordt genoemd. Hoe minder fouten het neurale netwerk maakt tijdens de validatie, hoe hoger de nauwkeurigheid van het algoritme en hoe beter het resultaat van zijn werk.
Soms heb je veel gegevens nodig om een algoritme te trainen. Als ze beschikbaar zijn, duurt het trainen gewoon lang. Als ze schaars zijn, zoals bijvoorbeeld het geval is in de computationele chemie, heeft dat direct invloed op de onderzoeksresultaten. Behrooz Tahmasebi, afgestudeerd aan MIT, stelde als student voor om machinaal leren te bekijken in het vlak van differentiaalmeetkunde.