用于文本分类的10大开源数据集

译文
开源
文本分类是热门的研究领域之一,这是一种分析文本数据以获得宝贵信息的方法。据消息人士声称,预计全球文本分析市场在2020年至2024年的年复合增长率(CAGR)将超过20%。文本分类可用于许多应用领域,比如自动执行CRM任务、改善上网浏览和电子商务等。

[[319364]]

【51CTO.com快译】文本分类是热门的研究领域之一,这是一种分析文本数据以获得宝贵信息的方法。据消息人士声称,预计全球文本分析市场在2020年至2024年的年复合增长率(CAGR)将超过20%。文本分类可用于许多应用领域,比如自动执行CRM任务、改善上网浏览和电子商务等。

本文列出了可用于文本分类的10个开源数据集,按首字母顺序介绍。

1. Amazon Reviews Dataset(亚马逊评论数据库)

Amazon Review Dataset包含数百万条亚马逊客户评论(输入文本)和星级评定(输出标签),用于了解如何训练fastText用于情感分析。该数据集的大小为493MB。

相关链接:https://www.kaggle.com/bittlingmayer/amazonreviews

2. Enron Email Dataset(安然电子邮件数据集)

Enron Email Dataset包含来自大约150个用户的电子邮件数据,这些用户大多是安然公司的高级管理层。该数据集由CALO项目(拥有学习和组织功能的认知助手)收集和准备,总共含有约50万则邮件。

相关链接:https://www.cs.cmu.edu/~./enron/

3. Goodreads Book Reviews(Goodreads书评)

该数据集包含Goodreads书评网站上的评论以及描述图书的众多属性,包括评论、阅读、评论操作及书籍属性等。图书总数包括1561465本。

相关链接:https://cseweb.ucsd.edu/~jmcauley/datasets.html#goodreads

4. IMDB Dataset(IMDB数据集)

IMDB数据集包含用于自然语言处理或文本分析的5万条影评。这是用于二进制情绪分类的数据集,包括用于训练的25000条观点鲜明的影评和用于测试的25000条影评。

相关链接:http://ai.stanford.edu/~amaas/data/sentiment/

5. MovieLens Latest Datasets(MovieLens最新数据集)

该数据集是电影、评论、所作标签和用户的集合。该数据有两组数据集,它们是在一段时间内收集的。小数据集包括100000条评论和600个用户为9000部电影所作的3600个标签,而大数据集包括27000000条评论和280000个用户为58000部电影所作的1100000个标签。大数据集还包括标签基因组数据,涉及1100个标签。

相关链接:https://grouplens.org/datasets/movielens/latest/

6. OpinRank Dataset(OpinRank数据集)

该数据集包含从Tripadvisor和Edmunds收集的汽车和酒店的完整评论。该数据集包含10个不同城市的酒店的完整评论,以及2007年、2008年和2009年款汽车的完整评论。在数据集中,汽车评论的总数约42230条,酒店评论的总数约259000条。

相关链接:https://github.com/kavgan/OpinRank/tree/master

7. SMS Spam Collection(垃圾短信数据集)

SMS Spam Collection是含有垃圾短信的公共数据集,它们被收集用于手机垃圾短信方面的研究。该数据集有一个集合由5574条真实和未编码的英文短信组成,根据合法或垃圾短信加以标记。该数据集有明文格式和ARFF格式两种。

相关链接:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

8. The Blog Authorship Corpus(博客作者语料库)

The Blog Authorship Corpus包含2004年8月从blogger.com收集的19320个博客作者的帖子。该语料库包含总共681288个帖子,超过1.4亿个单词,相当于每人约35个帖子和7250个单词。在该数据集中,每个博客以一个单独的文件加以显示,文件名表示博客作者ID#以及博客作者自己提供的性别、年龄、行业和星座。

相关链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

9. WordNet(词网)

WordNet是一个大型的英语词汇数据库,其中名词、动词、形容词和副词被分组为不同的认知同义词(同义词集),每一组表示不同的概念。在该数据集中,同义词集的总数是117000,每个同义词集通过少量概念关系与其他同义词集关联起来。

相关链接:https://wordnet.princeton.edu/

10. Yelp Reviews(Yelp评论)

Yelp数据集是用于学习的通用数据集,它是Yelp的一小部分商家、评论和用户数据,可用于个人、教育和学术等用途。该数据集包括来自10个大都市区的6685900条评论、200000张图片和192609户商家。

相关链接:https://www.yelp.com/dataset

原文标题:10 Open-Source Datasets For Text Classification,作者:Ambika Choudhury

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

 

责任编辑:庞桂玉 来源: 51CTO
相关推荐

2021-08-30 09:00:00

人工智能计算机视觉机器学习

2022-10-09 08:00:00

机器学习文本分类算法

2019-03-25 22:03:40

开源自然语言NLP

2020-04-28 08:34:08

KubernetesDocker开源工具

2022-03-21 09:25:50

Kubernetes开源DevSecOps

2018-10-09 14:34:58

开源KubernetesGit

2009-08-12 09:09:04

2009-12-28 09:36:00

开源软件Chrome OS

2018-07-04 15:17:07

CNNNLP模型

2019-05-09 08:29:34

开源安全SIEM工具

2018-08-10 14:44:01

Python数据工具

2016-12-15 13:51:30

开源数据可视化

2018-03-07 11:11:46

微信开源小程序

2020-03-24 14:35:24

开源工具Joplin

2023-05-17 08:00:00

ChatGPT人工智能

2023-11-14 09:00:00

向量数据库ChromaMilvus

2017-08-04 14:23:04

机器学习神经网络TensorFlow

2009-11-02 09:38:07

开源ESB

2022-05-06 11:11:53

ARVR开源

2013-07-05 09:33:33

开源云平台OpenStackCloudStack
点赞
收藏

51CTO技术栈公众号