五、Common Crawl网络爬虫开放数据库

时间：2023-08-01

　　上一期我们分享了《ChatGPT数据集之谜》一文，从模型角度切入，按六大分类（维基百科、书籍、期刊、Reddit链接、Common Crawl、其他），分析梳理了2018年到2022年初从GPT-1到Gopher的现代大语言模型相关的所有训练数据集域、token数量等详情。

　　今天我们继续以这6大分类为脉络，从公开数据集角度切入，整理了OpenDataLab已上架的、不同分类对应的的可用于大语言模型的预训练、指令微调等数据资源，希望能为大家节省部分数据准备时间，和带来启发。

　　大语言模型数据集分类：

　　分类参考

　　分类参考：《ChatGPT数据集之谜》和网络整理

　　● 发布方：德国伍珀塔尔大学 · 布尔诺孟德尔大学

　　● 发布时间：2021

　　● 简介：

　　该数据集用于训练和评估用于检测机器释义文本的模型。训练集包含从 8,024 篇维基百科（英文）文章（4,012 篇原文，4,012 篇使用 SpinBot API 释义）中提取的 200,767 段（98,282 篇原文，102,485 篇释义）。测试集分为 3 个子集：一个来自 arXiv 研究论文的预印本，一个来自毕业论文，另一个来自 Wikipedia 文章。此外，还使用了不同的 Marchine-paraphrasing 方法。

　　● 下载地址：

　　https://opendatalab.org.cn/Identifying_Machine-Paraphrased_etc

　　● 发布方：德国伍珀塔尔大学

　　● 发布时间：2021

　　● 简介：

　　这是神经释义检测的基准，用于区分原始内容和机器生成的内容。训练：从 4,012 篇（英文）维基百科文章中提取 1,474,230 个对齐的段落（98,282 个原始段落，1,375,948 个用 3 个模型和 5 个超参数配置进行释义的段落，每个 98,282 个）。

　　● 下载地址：

　　https://opendatalab.org.cn/Benchmark_for_Neural_Paraphrase_etc

　　● 发布时间：2021

　　● 简介：

　　来自三个在线资源的通用文本分类数据集 (NatCat)：Wikipedia、Reddit 和 Stack Exchange。这些数据集由源自社区自然发生的手动管理的文档-类别对组成。

　　● 下载地址：

　　https://opendatalab.org.cn/NatCat

　　● 发布方：艾伦人工智能研究所 · 华盛顿大学

　　● 发布时间：2019

　　● 简介：

　　Quoref 是一个 QA 数据集，用于测试阅读理解系统的共指推理能力。在这个跨度选择基准包含来自维基百科的 4.7K 段落中的 24K 问题，系统必须先解决硬共指，然后才能在段落中选择适当的跨度来回答问题。

　　● 下载地址：

　　https://opendatalab.com/Quoref

　　● 发布方：艾伦人工智能研究所 · 华盛顿大学 · 斯坦福大学 · 马萨诸塞大学阿默斯特分校

　　● 发布时间：2018

　　● 简介：

　　上下文问答是一个大规模的数据集，由大约 14K 众包问答对话和总共 98K 问答对组成。数据实例包括两个群众工作者之间的交互式对话：（1）提出一系列自由形式问题以尽可能多地了解隐藏的维基百科文本的学生，以及（2）通过提供简短摘录来回答问题的老师（跨越）来自文本。

　　● 下载地址：

　　https://opendatalab.org.cn/QuAC

　　● 发布方：华盛顿大学 · 艾伦人工智能研究所

　　● 发布时间：2017

　　● 简介：

　　TriviaQA 是一个现实的基于文本的问答数据集，其中包括来自维基百科和网络的 662K 文档中的 950K 问答对。该数据集比斯坦福问答数据集（SQuAD）等标准 QA 基准数据集更具挑战性，因为问题的答案可能无法通过跨度预测直接获得，而且上下文很长。TriviaQA 数据集由人工验证和机器生成的 QA 子集组成。

　　● 下载地址：

　　https://opendatalab.com/TriviaQA

　　● 发布方：微软研究院

　　● 发布时间：2015

　　● 简介：

　　WikiQA 语料库是一组公开可用的问题和句子对，收集和注释用于研究开放域问答。为了反映一般用户的真实信息需求，使用必应查询日志作为问题来源。每个问题都链接到一个可能有答案的维基百科页面。由于 Wikipedia 页面的摘要部分提供了有关该主题的基本且通常最重要的信息，因此本部分中的句子被用作候选答案。该语料库包括 3,047 个问题和 29,258 个句子，其中 1,473 个句子被标记为相应问题的答案句。

　　● 下载地址：

　　https://opendatalab.com/WikiQA

　　● 发布方：EleutherAI

　　● 发布时间：2020

　　● 简介：

　　The Pile 是一个 825 GiB 多样化的开源语言建模数据集，由 22 个较小的高质量数据集组合在一起组成。

　　● 下载地址：

　　https://opendatalab.com/The_Pile

　　● 发布方：多伦多大学 · 麻省理工学院

　　● 发布时间：2015

　　● 简介：

　　BookCorpus是由未出版的作者撰写的大量免费小说书籍，其中包含16种不同子流派 (例如，浪漫，历史，冒险等) 的11,038本书 (约74m句子和1g单词)。

　　● 下载地址：

　　https://opendatalab.org.cn/BookCorpus

　　● 发布方：北京大学 · 宾夕法尼亚州立大学 · 中山大学

　　● 发布时间：2020

　　● 简介：

　　EXEQ-300k 数据集包含 290,479 个详细问题以及来自数学堆栈交换的相应数学标题。该数据集可用于从详细的数学问题中生成简洁的数学标题。

　　● 下载地址：

　　https://opendatalab.org.cn/EXEQ-300k

　　● 发布方：马里兰大学

　　● 发布时间：2008

　　● 简介：

　　Pubmed 数据集包含来自 PubMed 数据库的 19717 篇与糖尿病相关的科学出版物，分为三类之一。引文网络由 44338 个链接组成。数据集中的每个出版物都由字典中的 TF/IDF 加权词向量描述，该字典由 500 个唯一词组成。

　　● 下载地址：

　　https://opendatalab.org.cn/Pubmed

　　● 发布方：伊利诺伊大学厄巴纳香槟分校 · 滴滴实验室 · 伦斯勒理工学院 · 北卡罗来纳大学教堂山分校 · 华盛顿大学

　　● 发布时间：2019

　　● 简介：

　　该数据集从 PubMed 收集了 14,857 个实体、133 个关系以及对应于标记化文本的实体。它包含 875,698 个训练对、109,462 个开发对和 109,462 个测试对。

　　● 下载地址：

　　https://opendatalab.org.cn/PubMed_Paper_Reading_Dataset

　　● 发布方：Adobe Research · 麻省理工学院

　　● 发布时间：2017

　　● 简介：

　　PubMed 200k RCT 是基于 PubMed 的用于顺序句子分类的新数据集。该数据集由大约 200,000 个随机对照试验摘要组成，总计 230 万个句子。每个摘要的每个句子都使用以下类别之一标记其在摘要中的角色：背景、目标、方法、结果或结论。发布此数据集的目的是双重的。首先，用于顺序短文本分类（即对出现在序列中的短文本进行分类）的大多数数据集都很小：作者希望发布一个新的大型数据集将有助于为这项任务开发更准确的算法。其次，从应用的角度来看，研究人员需要更好的工具来有效地浏览文献。自动对摘要中的每个句子进行分类将有助于研究人员更有效地阅读摘要，尤其是在摘要可能很长的领域，例如医学领域。

　　● 下载地址：

　　https://opendatalab.org.cn/PubMed_RCT

　　● 发布方：伦敦大学学院 · Bloomsbury AI

　　● 发布时间：2018

　　● 简介：

　　与 WikiHop 格式相同，MedHop 数据集基于 PubMed 的研究论文摘要，查询是关于药物对之间的相互作用。必须通过结合来自药物和蛋白质的一系列反应的信息来推断出正确的答案。

　　● 下载地址：

　　https://opendatalab.org.cn/MedHop

　　● 发布方：Facebook · 伦敦大学学院 · DeepMind

　　● 发布时间：2020

　　● 简介：

　　ArxivPapers 数据集是 2007 年至 2020 年间在 arXiv.org 上发表的超过 104K 篇与机器学习相关的未标记论文集合。该数据集包括大约 94K 篇论文（可以使用 LaTeX 源代码），这些论文采用结构化形式，其中论文分为标题、摘要、部分、段落和参考文献。此外，该数据集包含从 LaTeX 论文中提取的超过 277K 表。由于论文许可，数据集作为元数据和开源管道发布，可用于获取和转换论文。

　　● 下载地址：

　　https://opendatalab.org.cn/ArxivPapers

　　● 发布方：Karlsruhe Institute of Technology

　　● 发布时间：2020

　　● 简介：

　　包含出版物全文、带注释的文本引用和元数据链接的学术数据集。unarXive 数据集包含 100 万篇纯文本论文 6300 万引文上下文 3900 万参考字符串 1600 万个连接的引文网络数据来自 1991 年至 2020/07 年期间 arXiv 上的所有 LaTeX 源，因此质量高于生成的数据从 PDF 文件。此外，由于所有施引论文均以全文形式提供，因此可以提取任意大小的引文上下文。数据集的典型用途是引文推荐中的方法引文上下文分析参考字符串解析生成数据集的代码是公开的。

　　● 下载地址：

　　https://opendatalab.org.cn/unarXive

　　● 发布方：Georgetown University · Adobe Research

　　● 发布时间：2018

　　● 简介：

　　这是一个用于评估研究论文摘要方法的数据集。

　　● 下载地址：

　　https://opendatalab.org.cn/arXiv_Summarization_Dataset

　　● 发布方：宾夕法尼亚州立大学

　　● 发布时间：2021

　　● 简介：

　　SciCap一种基于计算机科学arXiv论文的大型图形字幕数据集，2010年发表，2020年。SCICAP包含超过416k个图形，这些图形集中在从290,000多篇论文中提取的一个显性图形类型-图形图。

　　● 下载地址：

　　https://opendatalab.org.cn/SCICAP

　　● 发布方：康斯坦茨大学 · 美国国家标准技术研究所

　　● 发布时间：2017

　　● 简介：

　　MathMLben 是用于数学格式转换（LaTeX ? MathML ? CAS）的评估工具的基准。它包含从 NTCIR 11/12 arXiv 和 Wikipedia 任务/数据集、NIST 数学函数数字图书馆 (DLMF) 和使用 AnnoMathTeX 公式和标识符名称推荐系统 (https://annomathtex.wmflabs.组织）。

　　● 下载地址：

　　https://opendatalab.org.cn/MathMLben

　　● 发布方：华盛顿大学 · Facebook AI Research

　　● 发布时间：2019

　　● 简介：

　　OpenWebText 是 WebText 语料库的开源再造。该文本是从 Reddit 上共享的 URL 中提取的 Web 内容，至少获得了 3 次赞成（38GB）。

　　● 下载地址：

　　https://opendatalab.org.cn/OpenWebText

　　● 发布方：Google Research

　　● 发布时间：2020

　　● 简介：

　　C4 是 Common Crawl 的网络爬虫语料库的一个巨大的、干净的版本。它基于 Common Crawl 数据集：https://commoncrawl.org。它用于训练 T5 文本到文本的 Transformer 模型。可以从 allennlp 以预处理的形式下载数据集。

　　● 下载地址：

　　https://opendatalab.com/C4

　　● 发布方：法国国家信息与自动化研究所 · 索邦大学

　　● 发布时间：2019

　　● 简介：

　　Common Crawl 语料库包含在 12 年的网络爬取过程中收集的 PB 级数据。语料库包含原始网页数据、元数据提取和文本提取。Common Crawl 数据存储在 Amazon Web Services 的公共数据集和全球多个学术云平台上。

　　● 下载地址：

　　https://opendatalab.org.cn/Common_Crawl

　　● 发布方：微软研究院 · GitHub

　　● 发布时间：2020

　　● 简介：

　　CodeSearchNet 语料库是一个大型函数数据集，其中包含来自 GitHub 上的开源项目的用 Go、Java、JavaScript、PHP、Python 和 Ruby 编写的相关文档。CodeSearchNet 语料库包括：* 总共 600 万个方法 * 其中 200 万个方法具有相关文档（文档字符串、JavaDoc 等） * 指示找到数据的原始位置（例如存储库或行号）的元数据。

　　● 下载地址：

　　https://opendatalab.org.cn/CodeSearchNet

　　● 发布方：俄亥俄州立大学 · 华盛顿大学 · 富士通研究所

　　● 发布时间：2018

　　● 简介：

　　StaQC（Stack Overflow 问题代码对）是迄今为止最大的数据集，大约有 148K Python 和 120K SQL 域问题代码对，它们是使用 Bi-View Hierarchical Neural Network 从 Stack Overflow 中自动挖掘出来的。

　　● 下载地址：

　　https://opendatalab.org.cn/StaQC

　　● 发布方：北京航空航天大学 · 微软研究院 · 多伦多大学

　　● 发布时间：2022

　　● 简介：

　　我们提供了一个python代码-docstring语料库CodeExp，其中包含 (1) 2.3的大分区百万原始代码-docstring对，(2) 一个介质 158,000对的分区从使用学习的过滤器的原始语料库，以及 (3) 具有严格的人类13,000对的分区注释。我们的数据收集过程利用了从人类那里学到的注释模型自动过滤高质量的注释来自原始GitHub数据集的代码-docstring对。

　　● 下载地址：

　　https://opendatalab.org.cn/CodeExp

　　● 发布方：印度科学理工学院 · Google AI Research

　　● 发布时间：2020

　　● 简介：

　　来自 GitHub 的 740 万个 Python 文件的大规模去重语料库。

　　● 下载地址：

　　https://opendatalab.org.cn/ETH_Py150_Open

　　● 发布方：Google Research

　　● 发布时间：2022

　　● 简介：

　　数据由所有问题和答案的正文组成。Body被解析成句子，任何少于 100 个句子的用户都会从数据中删除。最少的预处理如下进行：小写文本，对 HTML 符号进行转义，删除非ASCII符号，单独的标点符号作为单独的标记（撇号和连字符除外），去除多余的空白，用特殊标记替换 URLS。此外，还提供以下元数据：创建日期问题标题问题标签问题分数类型（“问题”或“答案”）。

　　● 下载地址：

　　https://opendatalab.org.cn/Federated_Stack_Overflow

　　● 发布方：卡内基梅隆大学

　　● 发布时间：2017

　　● 简介：

　　搜索和阅读问答（QUASAR）是一个由QUASAR-S和QUASAR-T组成的大规模数据集。这些数据集中的每一个都旨在专注于评估旨在理解自然语言查询、大量文本语料库并从语料库中提取问题答案的系统。具体来说，QUASAR-S 包含 37,012 个填空题，这些问题是使用实体标签从流行的网站 Stack Overflow 收集的。QUASAR-T 数据集包含从各种互联网资源收集的 43,012 个开放域问题。该数据集中每个问题的候选文档是从基于 Apache Lucene 的搜索引擎中检索的，该搜索引擎构建在 ClueWeb09 数据集之上。

　　● 下载地址：

　　https://opendatalab.org.cn/QUASAR

　　● 发布方：卡内基梅隆大学

　　● 发布时间：2017

　　● 简介：

　　发布的 GIF 回复数据集包含 1,562,701 次 Twitter 上的真实文本 - GIF 对话。在这些对话中，使用了 115,586 个独特的 GIF。元数据，包括 OCR 提取的文本、带注释的标签和对象名称，也可用于该数据集中的一些 GIF。

　　● 下载地址：

　　https://opendatalab.org.cn/GIF_Reply_Dataset

　　● 发布方：北卡罗来纳大学教堂山分校

　　● 发布时间：2020

　　● 简介：

　　电视节目 Caption 是一个大规模的多模态字幕数据集，包含 261,490 个字幕描述和 108,965 个短视频片段。TVC 是独一无二的，因为它的字幕也可以描述对话/字幕，而其他数据集中的字幕仅描述视觉内容。

　　● 下载地址：

　　https://opendatalab.org.cn/TVC

　　以上就是本次分享，因为篇幅有限，更多数据集，请访问OpenDataLab官网：https://opendatalab.org.cn/