|
|
51CTO旗下网站
|
|
移动端

用于文本分类的10大开源数据集

文本分类是热门的研究领域之一,这是一种分析文本数据以获得宝贵信息的方法。据消息人士声称,预计全球文本分析市场在2020年至2024年的年复合增长率(CAGR)将超过20%。文本分类可用于许多应用领域,比如自动执行CRM任务、改善上网浏览和电子商务等。

作者:布加迪编译来源:51CTO|2020-03-23 08:00

用于文本分类的10大开源数据集

【51CTO.com快译】文本分类是热门的研究领域之一,这是一种分析文本数据以获得宝贵信息的方法。据消息人士声称,预计全球文本分析市场在2020年至2024年的年复合增长率(CAGR)将超过20%。文本分类可用于许多应用领域,比如自动执行CRM任务、改善上网浏览和电子商务等。

本文列出了可用于文本分类的10个开源数据集,按首字母顺序介绍。

1. Amazon Reviews Dataset(亚马逊评论数据库)

Amazon Review Dataset包含数百万条亚马逊客户评论(输入文本)和星级评定(输出标签),用于了解如何训练fastText用于情感分析。该数据集的大小为493MB。

相关链接:https://www.kaggle.com/bittlingmayer/amazonreviews

2. Enron Email Dataset(安然电子邮件数据集)

Enron Email Dataset包含来自大约150个用户的电子邮件数据,这些用户大多是安然公司的高级管理层。该数据集由CALO项目(拥有学习和组织功能的认知助手)收集和准备,总共含有约50万则邮件。

相关链接:https://www.cs.cmu.edu/~./enron/

3. Goodreads Book Reviews(Goodreads书评)

该数据集包含Goodreads书评网站上的评论以及描述图书的众多属性,包括评论、阅读、评论操作及书籍属性等。图书总数包括1561465本。

相关链接:https://cseweb.ucsd.edu/~jmcauley/datasets.html#goodreads

4. IMDB Dataset(IMDB数据集)

IMDB数据集包含用于自然语言处理或文本分析的5万条影评。这是用于二进制情绪分类的数据集,包括用于训练的25000条观点鲜明的影评和用于测试的25000条影评。

相关链接:http://ai.stanford.edu/~amaas/data/sentiment/

5. MovieLens Latest Datasets(MovieLens最新数据集)

该数据集是电影、评论、所作标签和用户的集合。该数据有两组数据集,它们是在一段时间内收集的。小数据集包括100000条评论和600个用户为9000部电影所作的3600个标签,而大数据集包括27000000条评论和280000个用户为58000部电影所作的1100000个标签。大数据集还包括标签基因组数据,涉及1100个标签。

相关链接:https://grouplens.org/datasets/movielens/latest/

6. OpinRank Dataset(OpinRank数据集)

该数据集包含从Tripadvisor和Edmunds收集的汽车和酒店的完整评论。该数据集包含10个不同城市的酒店的完整评论,以及2007年、2008年和2009年款汽车的完整评论。在数据集中,汽车评论的总数约42230条,酒店评论的总数约259000条。

相关链接:https://github.com/kavgan/OpinRank/tree/master

7. SMS Spam Collection(垃圾短信数据集)

SMS Spam Collection是含有垃圾短信的公共数据集,它们被收集用于手机垃圾短信方面的研究。该数据集有一个集合由5574条真实和未编码的英文短信组成,根据合法或垃圾短信加以标记。该数据集有明文格式和ARFF格式两种。

相关链接:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

8. The Blog Authorship Corpus(博客作者语料库)

The Blog Authorship Corpus包含2004年8月从blogger.com收集的19320个博客作者的帖子。该语料库包含总共681288个帖子,超过1.4亿个单词,相当于每人约35个帖子和7250个单词。在该数据集中,每个博客以一个单独的文件加以显示,文件名表示博客作者ID#以及博客作者自己提供的性别、年龄、行业和星座。

相关链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

9. WordNet(词网)

WordNet是一个大型的英语词汇数据库,其中名词、动词、形容词和副词被分组为不同的认知同义词(同义词集),每一组表示不同的概念。在该数据集中,同义词集的总数是117000,每个同义词集通过少量概念关系与其他同义词集关联起来。

相关链接:https://wordnet.princeton.edu/

10. Yelp Reviews(Yelp评论)

Yelp数据集是用于学习的通用数据集,它是Yelp的一小部分商家、评论和用户数据,可用于个人、教育和学术等用途。该数据集包括来自10个大都市区的6685900条评论、200000张图片和192609户商家。

相关链接:https://www.yelp.com/dataset

原文标题:10 Open-Source Datasets For Text Classification,作者:Ambika Choudhury

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

【编辑推荐】

  1. 去年开源软件漏洞同比增长近50%,有6000多个
  2. 总模型仅17M!这个超轻量中文OCR开源项目在Github火了
  3. GitHub 收购 npm:天下开源是一家,有个爸爸叫微软
  4. Uber 开源 Piranha,可自动删除过时代码
  5. 共享、免费还是公有?开源软件的真正定义
【责任编辑:庞桂玉 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

秒杀高并发白话实战

秒杀高并发白话实战

主流高并发架构
共15章 | 51CTO崔皓

56人订阅学习

网络排障一点通

网络排障一点通

网络排障及优化调整案例
共20章 | 捷哥CCIE

454人订阅学习

VMware NSX 入门到实战

VMware NSX 入门到实战

网络虚拟化革命性技术
共16章 | Cloud袁

226人订阅学习

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微