机器学习和数据科学最佳数据集

来源：B座17楼公众号

中美在AI和数据科学之间的实力比较，绝非美国自谦地夸赞我们的那么强！我们的脑袋热了，表面假象还没有戳破，那是因为硬件等底层技术的缺失还没有到影响应用的阶段。

参考苹果竟然用封闭的生态实现芯片到应用商城的全方位无死角地覆盖核心技术，封闭系统竟然成功吸引无数开发者，开源的安卓生态似乎丧失信心，失去开源精神吸引freelance的天生优越感。

职场风向标

最近一个很强烈的感受，半导体这一轮较大幅度的涨薪，都是互联网企业进军芯片大幅挖人的缘故！

高通的alumni现在已经是散落的满天星，都在Google/Meta/Msft高升了！

Google才刚落脚没多久，Amazon最近也在San Diego UTC开建新site，预计要挖高通700人！应该是为了驱动

1.大厂会底层驱动的coder可能断层了，或者跟不上硬件驱动更新速度，业务场景没法落地实现，为了更好的适配，AMD是个典型的例子。

2.想把底层驱动集成在自己包里，自己直接收集隐私信息，卖广告挣钱，miui现在卖点都是隐私安全了，可想大厂为了隐私有多努力!

数据科学的“原油”在哪里？

我也看不懂国内的数据集质量和数量如何，还是先学习再说吧！

数据集搜索器

- 谷歌数据集搜索

与谷歌学术的工作方式类似，数据集搜索可以让你在任何地方找到数据集，无论是出版商的网站、数字图书馆还是作者的网页。这是一个惊人的数据集搜索器，它包含超过2500万个数据集。

https://toolbox.google.com/datasetsearch

- Kaggle

Kaggle提供了一个庞大的数据集容器，足以满足爱好者和专家的需求。

https://www.kaggle.com/

- UCI机器学习资源库

UCI的机器学习库提供了一个最新的开源数据集资源。

http://mlr.cs.umass.edu/ml/

- VisualData

按类别发现计算机视觉数据集；它允许可搜索的查询。

https://www.visualdata.io/

- CMU库

由于CMU的Huajin Wang的收集，发现高质量的数据集。

https://guides.library.cmu.edu/machine-learning/datasets

- The Big Bad NLP Database

https://datasets.quantumstat.com/

这个很酷的数据集列表包含各种自然语言处理任务的数据集，由Quantum Stat创建和策划。

房屋数据集

波士顿住房数据集。包含由美国人口普查局收集的关于波士顿地区住房的信息。它是从StatLib档案中获得的，并在整个文献中被广泛地用来作为算法的基准。

https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

地理数据集

Google-Landmarks-v2

https://www.kaggle.com/xiuchengwang/python-dataset-download

一个用于地标识别和检索的改进的数据集。这个数据集包含来自世界各地的20000多个地标的500多万张图片，由Wiki Commons社区提供资源和注释。

机器学习数据集

商场客户数据集。购物中心客户数据集包含了关于在特定城市访问购物中心的人的信息。该数据集由各种列组成，如性别、客户ID、年龄、年收入和消费分数。它一般用于根据客户的年龄、收入和兴趣来细分客户。

https://www.kaggle.com/shwetabh123/mall-customers

IRIS数据集。鸢尾花数据集是一个简单且适合初学者的数据集，包含了花瓣和萼片宽度的信息。该数据被分为三类，每类有50行。它一般用于分类和回归建模。

https://archive.ics.uci.edu/ml/datasets/Iris

MNIST数据集。这是一个手写数字的数据库。它包含60,000张训练图像和10,000张测试图像。这是一个完美的数据集，可以开始实施图像分类，你可以将一个数字从0到9进行分类。

http://yann.lecun.com/exdb/mnist/

波士顿住房数据集。包含美国人口普查局收集的关于波士顿地区的住房信息。它是从StatLib档案中获得的，并在整个文献中被广泛用于衡量算法的基准。

https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

虚假新闻检测数据集。它是一个CSV文件，有7796行，四列。有四列：新闻、标题、新闻文本、结果。

https://www.kaggle.com/c/fake-news/data

葡萄酒质量数据集。该数据集包含关于葡萄酒的不同化学信息。该数据集适用于分类和回归任务。

https://archive.ics.uci.edu/ml/datasets/wine+quality

SOCR数据--高度和权重数据集。这是一个适合初学者的基本数据集。它只包含25,000名18岁的不同人类的身高和体重。这个数据集可以用来建立一个可以预测人的身高或体重的模型。

http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights

泰坦尼克号数据集。该数据集包含姓名、年龄、性别、船上兄弟姐妹人数等信息，训练集中有891名乘客，测试集中有418名乘客。

https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html

信用卡欺诈检测数据集。该数据集包含由信用卡进行的交易；它们被标记为欺诈性或真实性。这对于拥有交易系统的公司建立检测欺诈活动的模型非常重要。

https://www.kaggle.com/mlg-ulb/creditcardfraud

计算机视觉数据集

xView：

xView是最大规模的公开可用的高空图像数据集之一。它包含了来自世界各地复杂场景的图像，并使用边界框进行了注释。

http://xviewdataset.org/#dataset

ImageNet

最大的计算机视觉的图像数据集。它提供了一个可访问的图像数据库，根据WordNet分层次地组织。

http://image-net.org/

Kinetics-700

一个来自Youtube的大规模视频URL数据集。包括以人为本的行动。它包含超过700,000个视频。

https://deepmind.com/research/open-source/open-source-datasets/kinetics/

谷歌的开放图像

来自谷歌AI的一个庞大的数据集，包含超过1000万张图片。

https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

城市景观数据集

这是一个用于计算机视觉项目的开源数据集。它包含在50个不同城市街道拍摄的视频序列的高质量像素级注释。该数据集在语义分割和训练深度神经网络以理解城市场景方面非常有用。

https://www.cityscapes-dataset.com/

IMDB-Wiki数据集

IMDB-Wiki数据集是最广泛的开源数据集之一，用于标记性别和年龄的面部图像。这些图像是从IMDB和维基百科收集的。它有500多万张标记的图像。

https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/

颜色检测数据集

该数据集包含一个CSV文件，其中有865个颜色名称及其相应的RGB（红、绿、蓝）颜色值。它也有颜色的十六进制值。

https://github.com/codebrainz/color-names/blob/master/output/colors.csv

斯坦福狗数据集

它包含20,580张图片和120个不同的狗品种类别。

http://vision.stanford.edu/aditya86/ImageNetDogs/

情感分析数据集

Lexicoder情感字典。这个数据集是专门用于情绪分析的。该数据集包含3000多个负面词汇和2000多个正面情绪词汇。

http://www.lexicoder.com/

IMDB评论

一个有趣的数据集，包含来自Kaggle的50,000多条电影评论。

https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews

Stanford Sentiment Treebank

带有情感注释的标准情感数据集。

http://nlp.stanford.edu/sentiment/code.html

推特美国航空公司情绪

2015年2月关于美国航空公司的Twitter数据，分为正面、负面和中性推文。

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然语言处理（NLP）数据集

The Big Bad NLP Database:

很酷的数据集列表包含各种自然语言处理任务的数据集，由Quantum Stat创建和策划。

https://datasets.quantumstat.com/

HotspotQA数据集。问题回答数据集，以自然的、多跳的问题为特色，对支持性的事实进行密集监督，以实现更多可解释的问题回答系统。

https://hotpotqa.github.io/

亚马逊评论

一个来自亚马逊的庞大数据集，包含了

HotspotQA数据集。以自然的、多跳的问题为特征的问题回答数据集，对支持性的事实进行严格的监督，以使问题回答系统更有解释力。

亚马逊评论。来自亚马逊的庞大数据集，包含超过4500万条亚马逊评论。

https://snap.stanford.edu/data/web-Amazon.html

烂番茄评论。超过480,000条评论（新鲜或腐烂）的档案。

https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view

英文短信垃圾收集。一个由5,574条英文短信组成的数据集。

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

安然公司电子邮件数据集。它包含150多个用户的约50万封电子邮件。

https://www.cs.cmu.edu/~enron/

推荐系统数据集

它包含来自流行网站的各种数据集，如Goodreads书评、亚马逊产品评论、调酒数据、社交媒体的数据等，用于建立推荐系统。

https://cseweb.ucsd.edu/~jmcauley/datasets.html

UCI Spambase数据集。将电子邮件分类为垃圾邮件或非垃圾邮件是一项普遍而有用的任务。该数据集包含4601封电子邮件和57条关于电子邮件的元信息。你可以建立模型来过滤掉垃圾邮件。

https://archive.ics.uci.edu/ml/datasets/Spambase

IMDB评论。大型电影评论数据集由来自IMDB网站的电影评论组成，有超过25000条评论用于训练，25000条用于测试集。

http://ai.stanford.edu/~amaas/data/sentiment/

自动驾驶（Autonomous Driving）数据集

Waymo开放数据集。这是Waymo公司的人提供的一个奇妙的数据集资源。包括一个庞大的自动驾驶数据集，足以从零开始训练深度网。

https://waymo.com/open/

Berkeley DeepDrive BDD100k

最大的自动驾驶汽车数据集之一，包含超过2000小时的纽约和加州的驾驶经验。

http://bdd-data.berkeley.edu/

博世交通灯数据集。用于深度学习的小型交通灯数据集。

https://hci.iwr.uni-heidelberg.de/node/6132

LaRa交通灯识别。另一个交通灯的数据集。这个数据集收集自巴黎。

http://www.lara.prd.fr/benchmarks/trafficlightsrecognition

WPI数据集。用于交通灯、行人和车道检测的数据集。

http://computing.wpi.edu/dataset.html

Comma.ai：它包含汽车的速度、加速度、转向角和GPS坐标等细节。

https://archive.org/details/comma-dataset

麻省理工学院AGE实验室。在AgeLab收集的1000多个小时的多传感器驾驶数据集的一个样本。

http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

LISA：加州大学圣地亚哥分校智能与安全汽车实验室数据集。这个数据集包括交通标志、车辆检测、交通灯和轨迹模式。

http://cvrr.ucsd.edu/LISA/datasets.html

城市景观数据集。这是一个广泛的数据集，有50个不同城市的街道场景。

https://www.cityscapes-dataset.com/

临床数据集

MaskedFace-Net

MaskedFace-Net是一个真实的数据集，包含有正确和不正确佩戴面具的人脸。它包含超过137k张图像，这些图像是基于Flick-Faces-HQ数据集[21]。关于该数据集及其用途的更多细节，请访问Github上的文档。

https://github.com/cabani/MaskedFace-Net

COVID-19数据集。艾伦人工智能研究所发布了一个庞大的研究数据集，包括超过45000篇关于COVID-19的学术文章。

https://www.semanticscholar.org/cord19

MIMIC-III：由麻省理工学院计算生理学实验室开发的公开数据集，包括与约4万名危重病人相关的去识别化健康数据。它包括人口统计学、生命体征、实验室测试、药物等等。

https://mimic.physionet.org/

推荐系统的数据集

MovieLens：它包含来自MovieLens网站的评分数据集。

https://grouplens.org/datasets/movielens/

Jester

它包含来自73,421个用户对100个笑话的410万个连续评分（-10.00到+10.00）。它主要用于协作式过滤器。

http://www.ieor.berkeley.edu/~goldberg/jester-data/

百万歌曲数据集。它既可用于协作式过滤，也可用于基于内容的过滤。

https://www.kaggle.com/c/msdchallenge#description

如果你知道其他高质量的免费数据集，你推荐给人们用于机器学习、深度学习、数据科学等的研究和应用。请随时在下面的评论中推荐它们！请在评论区告诉我们你使用这些数据集的经验。学习愉快!

鸣谢。

作者要感谢Lionbridge的成员和最大的人工智能社区的巨大支持，以及在准备这个资源时的建设性的批评。

免责声明：本文所表达的观点仅代表作者本人，不代表卡内基梅隆大学的观点。这些文章并不打算成为最终产品，而是反映当前的想法，同时也是讨论和改进的催化剂。

免责声明：本号所载内容均为原创、投稿、授权转载或网络公开资料搜集整理，仅供读者交流学习使用，版权归原作者所有，且仅代表作者个人观点，与本号立场无关。若所引用的图片、数据、文字等来源标注有误或涉及侵权，烦请及时联系删除。

首页 ꄲ 科普专栏 ꄲ 科普知识 ꄲ 机器学习和数据科学最佳数据集

ꄴ前一个：无

ꄲ后一个：无

创建时间：2022-05-13 10:40

浏览量：0