R语言基础-数据转换

摘要:
数据方法功能用于判断是否可以查看所有转换方法。

一、基本转换

读取Excel数据

R语言基础-数据转换第1张
R语言基础-数据转换第2张
methods(is) 函数可以查看所有 is 的方法。用于判断数据
methods(as) 函数可以查看所有的转换方法。

二、对大数据集,取数据子集

1.读数据

R语言基础-数据转换第3张
R语言基础-数据转换第4张
R语言基础-数据转换第5张

两种写法

R语言基础-数据转换第6张
R语言基础-数据转换第7张

2.随机抽样函数 sample()

对向量抽样

R语言基础-数据转换第8张

对数据框抽样,取子集

R语言基础-数据转换第9张

3.删除特定数据

原数据 mtcars

R语言基础-数据转换第10张

删除1-5列

R语言基础-数据转换第11张

删除mpg列

R语言基础-数据转换第12张

4.合并不同的数据集

美国50个州的数据

R语言基础-数据转换第13张

每个周的分区

R语言基础-数据转换第14张

合并后的数据集

R语言基础-数据转换第15张
或者
R语言基础-数据转换第16张

合并前20行和后20行

R语言基础-数据转换第17张

注意:

使用 cbind() 和 rbind() 函数合并矩阵时必须要有相同的行和列数

5.去除重复行

使用 duplicated() 函数判断是否为重复值

R语言基础-数据转换第18张

使用 unique() 函数直接对数据集去重

三、数据框的翻转

使用 t() 函数对mtcars数据进行行和列的翻转

R语言基础-数据转换第19张

使用 rev() 函数实现向量倒置

R语言基础-数据转换第20张

通过翻转数据框索引的方式实现 women 数据的翻转

R语言基础-数据转换第21张

四、数据框数据的替换

使用 transform() 函数修改列的值

R语言基础-数据转换第22张
R语言基础-数据转换第23张

或者
  women$height <- women$height*2.54

五、数据框的排序

1.sort() 函数,对向量进行排序

R语言基础-数据转换第24张
R语言基础-数据转换第25张

通过列名对数据框排序

R语言基础-数据转换第26张

2.order() 函数,也可对向量进行排序,不过返回的值是索引

R语言基础-数据转换第27张

对mtcars数据框中的mpg列进行排序

R语言基础-数据转换第28张

反排

R语言基础-数据转换第29张

对多个列进行排序

R语言基础-数据转换第30张

六、对数据框进行运算

1.apply() 函数,用于数据框或者矩阵

R语言基础-数据转换第31张

lapply() 函数,运算后返回的值是列表

sapply() 函数,运算后的值返回的是向量

使用state.center 列表数据
R语言基础-数据转换第32张

tapply() 函数,第二个参数是因子

查看区域有多少个州

R语言基础-数据转换第33张

七、数据的去中心化和去标准化处理,消除量纲对数据结构的影响

数据中心化:

指数据集中的各项数据减去数据集的均值

数据标准化:

指在中心化之后再除以数据集的标准差,即数据集中的各项数据减去数据集的均值再除以数据集的标准差。
R语言基础-数据转换第34张

1.案例,对 state.x77 数据绘制热图

  heatmap(state.x77)

非常的不明显,没有意义

R语言基础-数据转换第35张

2.使用scale() 函数,实现去中心化和去标准化

R语言基础-数据转换第36张
R语言基础-数据转换第37张

免责声明:文章转载自《R语言基础-数据转换》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇(转)PHP正则表达式匹配嵌套HTML标签的方法和技巧Mysql log_slave_updates 参数下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

常用数据清洗方法大盘点

本文来自网易云社区 数据清洗是将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或者删除,最后整理成为我们可以进一步加工、使用的数据。 所谓的数据清洗,也就是ETL处理,包含抽取Extract、转换Transform、加载load这三大法宝。在大数据挖掘过程中,面对的至少是G级别的数据量,包括用户基本数据、行为数据、交易数据、资金流数据以...

软考笔记第三天之数据库系统

三级模式-两级映射 数据库模型(概念模式[用户视图]、外模式[DBA视图]、内模式[内部视图]) 外模式-概念模式映射,概念模式-内模式映射 E-R模型,实体-联系图(Entity Relationship Diagram),提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。 集成的方法: 多个局部E-R图一次集成。 逐步集成,用累加的...

Repeater控件中点击按钮后获取某一行的数据!

其实和GridView差不多的,如果模板中是有按钮之类的可以设置CommandName值的,可直接在ItemCommand事件中获取CommandName或者CommandArgument, 如果是模板中有文本框之类的,把文件框的AutoPostBack属性设置为True,然后在TextChanged事件中编写如下代码: C#代码 TextBoxt=(...

简便删除已经存在的oracle数据库用户UPAY3LINGXI_YS

简便删除已经存在的oracle数据库用户UPAY3LINGXI_YS:1.Toad工具用oracle最大权限用户登录system2.查看正在使用UPAY3LINGXI_YS的进程select * from v$session where username='UPAY3LINGXI_YS'3.停掉所有使用UPAY3LINGXI_YS的进程4.删除表空间(dr...

Python数据挖掘-词云美化

1、语料库构建 由于不像之前是对很多个文件进行词频统计,所以不需要使用os.walk()方法遍历每一个文件; 只需使用codecs.open()打开相应的文件,(记得close); 然后使用jieba模块中的load_userdict()方法导入词库 importjieba importnumpy importcodecs importpandas fi...

Python:爬取中国各市的疫情数据并存储到数据库

import requests import pymysql import json def create(): # 连接数据库 db = pymysql.connect(host = 'localhost', user = 'root', password ='258000', database = 'yiqing',charset...