Skip to main content
Allgemein

Revolution im KI-Sprachtraining: Der umfangreichste freie Datensatz Common Corpus

Ein internationales Forscherteam hat mit Common Corpus den größten frei zugänglichen Trainingsdatensatz für KI-Sprachmodelle veröffentlicht. Mit 500 Milliarden Wörtern aus diversen Quellen bietet der Datensatz eine beispiellose sprachliche Vielfalt, einschließlich des größten offenen Datensatzes in Französisch. Er zielt darauf ab, die Entwicklung inklusiverer Sprachmodelle zu erleichtern, ohne auf urheberrechtlich geschütztes Material zurückgreifen zu müssen, und setzt neue Standards in Sachen Transparenz und ethischer Forschung in der KI.

Quelle: Golem

Leave a Reply

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.

Verified by MonsterInsights