用于文本分类的10大开源数据集-文本数据库

[[319364]]

【51CTO.com快译】文本分类是热门的研究领域之一，这是一种分析文本数据以获得宝贵信息的方法。据消息人士声称，预计全球文本分析市场在2020年至2024年的年复合增长率(CAGR)将超过20%。文本分类可用于许多应用领域，比如自动执行CRM任务、改善上网浏览和电子商务等。

本文列出了可用于文本分类的10个开源数据集，按首字母顺序介绍。

1. Amazon Reviews Dataset(亚马逊评论数据库)

Amazon Review Dataset包含数百万条亚马逊客户评论(输入文本)和星级评定(输出标签)，用于了解如何训练fastText用于情感分析。该数据集的大小为493MB。

2. Enron Email Dataset(安然电子邮件数据集)

Enron Email Dataset包含来自大约150个用户的电子邮件数据，这些用户大多是安然公司的高级管理层。该数据集由CALO项目(拥有学习和组织功能的认知助手)收集和准备，总共含有约50万则邮件。

相关链接：https://www.cs.cmu.edu/~./enron/

3. Goodreads Book Reviews(Goodreads书评)

该数据集包含Goodreads书评网站上的评论以及描述图书的众多属性，包括评论、阅读、评论操作及书籍属性等。图书总数包括1561465本。

4. IMDB Dataset(IMDB数据集)

IMDB数据集包含用于自然语言处理或文本分析的5万条影评。这是用于二进制情绪分类的数据集，包括用于训练的25000条观点鲜明的影评和用于测试的25000条影评。

5. MovieLens Latest Datasets(MovieLens最新数据集)

该数据集是电影、评论、所作标签和用户的集合。该数据有两组数据集，它们是在一段时间内收集的。小数据集包括100000条评论和600个用户为9000部电影所作的3600个标签，而大数据集包括27000000条评论和280000个用户为58000部电影所作的1100000个标签。大数据集还包括标签基因组数据，涉及1100个标签。

6. OpinRank Dataset(OpinRank数据集)

该数据集包含从Tripadvisor和Edmunds收集的汽车和酒店的完整评论。该数据集包含10个不同城市的酒店的完整评论，以及2007年、2008年和2009年款汽车的完整评论。在数据集中，汽车评论的总数约42230条，酒店评论的总数约259000条。

7. SMS Spam Collection(垃圾短信数据集)

SMS Spam Collection是含有垃圾短信的公共数据集，它们被收集用于手机垃圾短信方面的研究。该数据集有一个集合由5574条真实和未编码的英文短信组成，根据合法或垃圾短信加以标记。该数据集有明文格式和ARFF格式两种。

8. The Blog Authorship Corpus(博客作者语料库)

The Blog Authorship Corpus包含2004年8月从blogger.com收集的19320个博客作者的帖子。该语料库包含总共681288个帖子，超过1.4亿个单词，相当于每人约35个帖子和7250个单词。在该数据集中，每个博客以一个单独的文件加以显示，文件名表示博客作者ID#以及博客作者自己提供的性别、年龄、行业和星座。

9. WordNet(词网)

WordNet是一个大型的英语词汇数据库，其中名词、动词、形容词和副词被分组为不同的认知同义词(同义词集)，每一组表示不同的概念。在该数据集中，同义词集的总数是117000，每个同义词集通过少量概念关系与其他同义词集关联起来。

相关链接：https://wordnet.princeton.edu/

10. Yelp Reviews(Yelp评论)

Yelp数据集是用于学习的通用数据集，它是Yelp的一小部分商家、评论和用户数据，可用于个人、教育和学术等用途。该数据集包括来自10个大都市区的6685900条评论、200000张图片和192609户商家。

相关链接：https://www.yelp.com/dataset

原文标题：10 Open-Source Datasets For Text Classification，作者：Ambika Choudhury

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】