Sklearn提供的常用数据集

摘要:
5) 波士顿房价数据集:load Boston():回归任务的经典数据集6)健身训练数据集:load liner ud():多元回归任务的典型数据集。fetch_ olivetti_ Faces:olivetti人脸图像数据集。

一、自带的小数据集(packageddataset):sklearn.datasets.load_<name>

1)        鸢尾花数据集:load_iris():用于分类任务的数据集

2)        手写数字数据集:load_digits():用于分类任务或者降维任务的数据集

3)        乳腺癌数据集load-barest-cancer():简单经典的用于二分类任务的数据集

4)        糖尿病数据集:load-diabetes():经典的用于回归认为的数据集,值得注意的是,这10个特征中的每个特征都已经被处理成0均值,方差归一化的特征值。

5)        波士顿房价数据集:load-boston():经典的用于回归任务的数据集

6)        体能训练数据集:load-linnerud():经典的用于多变量回归任务的数据集。

二、可在线下载的数据集:sklearn.datasets.fetch_<name>,一般规模较大(DownloadedDataset)。

fetch_olivetti_faces(data_home=None, shuffle=False, random_state=0,download_if_missing=True):Olivetti 脸部图片数据集。

三、计算机生成的数据集(GeneratedDataset):sklearn.datasets.make_<name>

1)        make_blobs:多类单标签数据集,为每个类分配一个或多个正太分布的点集

2)        make_classification:多类单标签数据集,为每个类分配一个或多个正太分布的点集,提供了为数据添加噪声的方式,包括维度相关性,无效特征以及冗余特征等

3)        make_gaussian-quantiles:将一个单高斯分布的点集划分为两个数量均等的点集,作为两类

4)        make_hastie-10-2:产生一个相似的二元分类数据集,有10个维度

5)        make_circle和make_moom产生二维二元分类数据集来测试某些算法的性能,可以为数据集添加噪声,可以为二元分类器产生一些球形判决界面的数据。

四、svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(...)

from sklearn.datasets importload_svmlight_file

x_train,y_train=load_svmlight_file("/path/to/train_dataset.txt","")#如果要加在多个数据的时候,可以用逗号隔开

svmlight/libsvm的每一行样本的存放格式:

 <label><feature-id>:<feature-value> <feature-id>:<feature-value>....

五、data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(...)

from sklearn.datasets.mldata import fetch_mldata
import tempfile
test_data_home = tempfile.mkdtemp()
iris = fetch_mldata('iris', data_home=test_data_home)
print(iris);print(iris.target.shape);print(iris.data.shape)

原文链接:https://blog.csdn.net/weixin_42039090/java/article/details/80614918

免责声明:文章转载自《Sklearn提供的常用数据集》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇linux下tomcat部署get请求乱码问题解决方法PL/SQL developer(绿色版)安装及配置下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

sqlserver 获取实例上用户数据库的数据字典

原理很简单:将获取数据字典信息(通过动态视图获取)存入到目标表(数据字典表)中即可。 本人自用实例 1)创建相关的字典表 useYWMonitor GO SET ANSI_NULLS ON GO SET QUOTED_IDENTIFIER ON GO SET ANSI_PADDING ON GO if not exists (select * fro...

性能提升40%!阿里云神龙大数据加速引擎获TPCxBB世界排名第一

​简介:神龙大数据加速引擎,针对大数据常用组件,如Spark、Hadoop、Alluxio等,结合阿里云神龙架构的特性,进行软硬一体化优化,形成独一无二的性能优势,最终,使复杂SQL查询场景性能相比社区版spark提升2-3倍,使用eRDMA加速Spark性能提升30%。 近日,Benchmark Express-BigBench(简称TPCx-BB)公布...

C# 连接Oracle数据库,免安装oracle客户端

一、方案1 首先下面的内容,有待我的进一步测试和证实。18.12.20 被证实了,还需要安装Oracle客户端,或者本机上安装oracle数据库软件。 18.12.20 1.下载Oracle.ManagedDataAccess.dll 2.添加到C#引用 3.命名空间引用 using Oracle.ManagedDataAccess.Client; 4....

【数据分析&amp;amp;数据挖掘】非数值型数据的哑变量转化、连续型数据离散化——等宽分组&amp;amp;等频分组

1 importpandas as pd 2 importnumpy as np 3 4 #加载数据 5 detail = pd.read_excel("../day05/meal_order_detail.xlsx") 6 #print("detail :", detail) 7 print("detail 的列索引:", detail.columns...

结构化数据、半结构化数据、非结构化数据——Hadoop处理非结构化数据

刚开始接触Hadoop ,指南中说Hadoop处理非结构化数据,学习数据库的时候,老师总提结构化数据,就是一张二维表,那非结构化数据是什么呢?难道是文本那样的文件?经过上网搜索,感觉这个帖子不错 网址:http://blog.sina.com.cn/s/blog_49c1385f01014bf6.html 1. 结构化数据(structured data)...

神通数据库简单创建

今天要到了 神通数据库的安装文件. 然后在龙芯上面进行数据库的 静默安装 安装很快捷,但是发现没有启动脚本与原厂的工程师联系了下进行相关工作如下是处理过程 第一步查看数据库是否创建完成.  设置环境变量 source /etc/profile 第二步查看数据库相关信息 oscar -e "list database" 第三步可以使用命令直接启动 也可以注...