Kaggle大数据竞赛平台入门

摘要:
Kaggle大数据竞赛平台入门大数据竞赛平台,国内主要是天池大数据竞赛和DataCastle,国外主要就是Kaggle.Kaggle是一个数据挖掘的竞赛平台,网站为:https://www.kaggle.com/.很多的机构,企业将问题,描述,期望发布在Kaggle上,以竞赛的方式向广大的数据科学家征集解决方案,体现了集体智慧这一思想.每个人在网站上注册后,都可以下载感兴趣项目的数据集,分析数据,

Kaggle大数据竞赛平台入门

大数据竞赛平台,国内主要是天池大数据竞赛和DataCastle,国外主要就是Kaggle.Kaggle是一个数据挖掘的竞赛平台,网站为:https://www.kaggle.com/.很多的机构,企业将问题,描述,期望发布在Kaggle上,以竞赛的方式向广大的数据科学家征集解决方案,体现了集体智慧这一思想.每个人在网站上注册后,都可以下载感兴趣项目的数据集,分析数据,构造模型,解决问题提交结果.按照结果的好坏会有一个排名,成绩优异者还可能获得奖金/面试机会等.

图1展示了进入Kaggle官网后显示的正在进行的比赛,这些比赛的类型是不同的,可以进行筛选显示,有All Categories,Faatured,Recruitment,Research,Playground,Getting Started,In Class这7个选项.显示为Featured的比赛(左侧有粉红色条条)一般奖金比较丰厚,竞争也比较大;显示为Research的比赛(左侧有黄色条条),奖金少一些;显示为Recruitment的比赛,虽然没有奖金,但是却可以获得发布项目公司的实习/面试机会,这也给企业招聘人才提供了另外一种方式.显示为Playground的为练习赛,主要用于初学者练手,对于初学者,建议从这里开始.Getting Started里面手把手教你一步一步地进行数据挖掘,是很好的入门教程.除了这些公开比赛,Kaggle还会想活跃的参与者提供私下的比赛,以及为大学团体提供Kaggle-In-Class项目.Kaggle的博客No Free Hunch也是一个好的学习去处,提供了Data Science News,Kaggle News,Kernels,Tutorials,以及Winner's Interviews这些栏目.

Kaggle大数据竞赛平台入门第1张

图1 Kaggle首页

比赛流程:

1.进去感兴趣的竞赛项目,下载数据集(csv格式),数据集中一般包括训练数据集和测试数据集,查看数据描述和任务描述,明确需求;

2.用你擅长的任何语言或者算法来构建模型,用训练集来训练,然后用训练好的模型推测测试集的labels,生成一个测试集labels作为最终的提交文件;

3.系统会从所提交文件中选取25%的数据进行初评,根据评测结果得到准确率和排名.在比赛结束时,采用剩下的75%的数据进行终评,作为最后的准确率.

Kaggle大数据竞赛平台入门第2张Kaggle大数据竞赛平台入门第3张

Kernels:

Kernels提供了数据分析的环境,数据集,代码和输出样式,点击进去是下面这样的: 这类似于Jupyper Notebook.在这里面可以直接编译python,可以在code和markdown之间自由切换,可以很方便地复现和分享.还有一点就是你可能不需要将数据集下载下来,也不需要配置本地的python以及各种库(比如pandas,numpy等),直接在网页上进行数据挖掘.Kernel上还可以分享代码(初学者好的学习去处),在Forum(论坛)回答问题还可以积分.

Kaggle大数据竞赛平台入门第4张

参考文献:

[1] Kaggle机器学习竞赛冠军及优胜者的源代码汇总:http://suanfazu.com/t/kaggle/230

[2] Approaching (Almost) Any Machine Learning Problem | Abhishek Thakur

免责声明:文章转载自《Kaggle大数据竞赛平台入门》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇注解 @Deprecated的使用、说明进程间传递文件描述符的方法下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

可视化机器学习工具软件的比较分析研究

可视化机器学习工具软件的比较分析研究 Ø 摘要 近年来,随着人脸识别、语音识别等技术的突破性进展,隐藏在它们背后的底层技术也引起工程和研究人员的高度重视,譬如机器学习。然而,机器学习是一个入门门槛相对比较高的技术领域,大部分的工程技术人员和业务人员都聚焦在业务领域的特征提取,算法选择,参数调优和模型验证上,因此一个方便高效的可视化工具,对于降低用户的机器...

简单粗暴将sqlserver表以及数据迁移到oracle

1.利用sqlserver工具查询出表中所有数据,全选,右键 -连同标题一起复制。 2.将数据保存到excel文件,数据 时间类型(yyyy--MM--dd HH:mm:ss)最好处理一下,需要将id这列复制一份作为oracle中的序列 3.在oracle创建相同表。全选excel数据(不要标题,前面复制可以不要标题的)粘贴到plsql中...

自主驱动发展 创新引领未来丨第九届数据技术嘉年华大会全议程精彩呈现

简介 时光荏苒,转眼又到了一年一度的总结时刻。第八届数据技术嘉年华大会的精彩演讲还历历在目, 第九届数据技术嘉年华大会在紧锣密鼓的筹备中,即将拉开帷幕。本次大会于2019年11月15日-16日在北京新云南皇冠假日酒店盛大开启,期待现场与大家共畅技术之美。 2019年,对于数据库行业,注定是不平凡的一年。在墨天轮数据库流行度的排行榜上,Oracle 依旧保持...

转载:数据库 ' 库名' 已打开,并且一次只能有一个用户访问。 (Microsoft SQL Server,错误: 924)

USE master; GO DECLARE @SQL VARCHAR(MAX); SET @SQL='' SELECT @SQL=@SQL+'; KILL '+RTRIM(SPID) FROM master..sysprocesses WHERE dbid=DB_ID('库名'); EXEC(@SQL); GO ALTER DATABASE 库名 SET...

SqlServer2012数据导入

  1、选择数据库,右击【任务】-->【导入数据】:      2、选择对应的数据源,和数据文件,下一步:      3、填写服务器地址,和数据库的登录信息,选择数据库名称:      4、复制一个或多个表或试图的数据:      5、将原表和目标表相匹配:      6、查看映射信息:      7、将 【出错时】和【截断时】更改为[忽略]:  ...

Sqlite数据库完整性检测

/************************************************************************************************* * 函数名称: IntegrityCheck * 功能描述: 数据库完整性检测 * 输入参数: 无 * 输出参数: 无 * 返 回 值: 0:完整...