英伟达发布Nemotron-CC:万亿级英语语言数据集助力LLM预训练
英伟达近日宣布推出Nemotron-CC,这是一个包含6.3万亿个token的英语语言数据集,旨在为预训练大型语言模型(LLM)提供高质量的数据支持。高质量的预训练数据集被认为是训练准确、强大LLM的关键因素之一。近期,一些大型模型已经基于包含15万亿个token的数据集进行了训练,但对于这些token的具体构成,外界知之甚少。
Nemotron-CC的推出旨在填补这一信息空白,并使更多研究者能够基于该数据集训练高度准确的大语言模型。
数据来源方面,Nemotron-CC基于Common Crawl网站数据构建,并经过严格的数据处理流程,从中提取出高质量的子集Nemotron-CC-HQ。英伟达表示,Nemotron-CC是一个开放、大规模、高质量的英语Common Crawl数据集,支持在短标记和长标记范围内预训练高度准确的LLM。
通过提供这一数据集,英伟达希望能够促进大语言模型研究领域的进步,并为开发者提供一个强大且透明的预训练数据源。