特征处理:常见数据类型的处理

摘要:
数字类型1。统计值max、min、mean、stdSeries。描述(百分比=[0.05,.25,.75,.95])2。离散化会将连续值排序为间隔,然后将它们视为列属性中的类别。一个热编码可以在panda中执行。pd.cut(arr,n)可以平分arr n,也可以平分,为什么要使用pd.qcut()来处理这个问题:用户购买的商品价格可能只有固定的小部分

 

数值型

1、统计值max,min,mean,std

Series.describe(percentiles=[.05, .25, .75, .95])

2、离散化

将连续值排序后分成一个个区间,然后进行将列属性当中类别型对待,可以进行one-hot编码

在pandas中pd.cut(arr, n)可以将arr进行n等分,也可以进行不均等切分,使用pd.qcut()

为何这样处理:用户购买的商品价格可能只在某一个固定小区间,与其他区间所成的比例不同

离散化可以带来一些非线性的特征

离散化的方法:

1)等宽法

2)等频法

3)基于聚类分析的方法

3、幅度调整

一般在最后处理,将数值幅度调整到[0,1]

类别型

1、one-hot编码 又叫哑变量

可以使用pd.get_dummies()

2、hash与聚类处理

 特征处理:常见数据类型的处理第1张

3、统计每个类别变量下各个target比例,转成数字型

举例:histogram映射

 特征处理:常见数据类型的处理第2张

男生人数3,女生人数2,爱好类别3(决定向量维数是3,分别是散步,足球,看电视剧)

男生中爱好的类别数2,女生爱好的类别数1

à男[1/3, 2/3, 0]  女[0, 0, 1],表示有100%的女生喜欢看电视剧,其他爱好的人数为0

时间型

既可以看成连续值,也可以看成离散值

1)连续值

持续时间(单页浏览时长)

间隔时间(上次购买/点击离现在的时间)

2)离散值

一天中哪个时间段

一周中星期几

一年中哪个星期

一年中哪个季度

工作日/周末

文本型

1、词袋(bag of words

1)单词以词频表示

先获得单词列表,然后将每个文档表示成单词表长度的向量

from sklearn.feature_extraction.txt import CountVectorizer

#将文本向量表示

vectorizer = CountVectorizer(min_df=1)

corpus = [

    'This is the first document.',

    'This is the second second document.',

    'And the third one.',

    'Is this the first document?'  ]

X = vectorizer.fit_transform(corpus)

X.shape = (4, 9)  #4表示有4个句子,9表示单词表长度是9                            

2)单词以ti-idf权重表示

TF(t) = (词t在当前文中出现次数)/(t在全部文档中出现次数)

IDF(t) = ln(总文档数/含t 的文档数)

TF-IDF权重=TF(t)×IDF(t)

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(min_df=1)

vectorizer.fit_transform(corpus)

3)把词袋中的词扩充到n-gram

CountVectorizer(ngram_range=(1, 2))

2word2vec

word2vec将每个词映射到一个稠密向量

免责声明:文章转载自《特征处理:常见数据类型的处理》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇PL SQL显示的字段长度不全Eclipse 导入文件夹的project和package问题下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

随便看看

PLSQL常用配置之窗口/版面保存、SQL格式化/美化、SQL注释去掉注释等快捷键配置、登陆历史修改配置

//Blog.csdn.net/eyeidolon/article/details/8251791 PLSQL常用配置的快捷键配置,如窗口/布局保存、SQL格式化/美化和SQL注释删除,以及登录历史修改1的配置。PL/SQLDeveloper记住登录密码当使用PL/SQLDeveloper时,默认情况下PL/SQLDeveloper会执行此窗口中的所有SQL...

Kafka监控工具——Kafka-Eagle

Kafka监控工具官网https://www.kafka-eagle.org/是什么KafkaEagle是一款用于监控和管理ApacheKafka的完全开源系统,目前托管在Github,由笔者和一些开源爱好者共同维护。而且,在使用消费者API时,尽量#客户端KafkaAPI版本和Kafka服务端的版本保持#一致性。...

ERROR [IM002] [Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序

使用C#生成应用程序以及读取和写入dbfs时,打开方法error[IM002][Microsoft][ODBC驱动程序管理器]中发生错误。找不到数据源名称,也未指定默认驱动程序。这个程序以前使用得很好。升级和修改后,在测试中发现了问题。为了追踪来源,我曾经是一个32位操作系统。现在我安装了一个win764位操作系统。从控制面板到管理工具再到ODBC驱动程序,...

SecureCRT优化调整、永久设置、保护眼睛和配色方案

您可以根据个人喜好调整字体大小。我已经习惯了4号字体。到目前为止,SecureCRT优化已经完成。...

Ubuntu 18.04 安装微信(附企业微信)

Ubuntu软件市场也是有的,所以安全性不用担心开源地址:https://github.com/geeeeeeeeek/electronic-wechat下面介绍几种安装的方式:1.直接解压运行先选择你系统版本:解压一下:tar-zxvfxxx.tar.gz算了,还是简单为新手分析一下==》tar命令可以解包.tar和.tar.gz。为啥我的没有微信图标?...

制作多合一安装U盘(Windows + Linux + macOS)精解

在此,我给大家讲解一下,如何制作多系统安装U盘。首先,本教程用到的工具如下:1.WinSetupFromUSB1.9下载链接:https://share.weiyun.com/5gtbB3y密码:vector2.分区助手专业版下载链接:http://www2.aomeisoftware.com/download/pacn/PAClean.zip3.各类Win...