机器学习算法-白红宇

机器学习算法

阅读量：4298 次

发布时间：2019-05-27

本文共 5295 字，大约阅读时间需要 17 分钟。

数据集的组成

目标值+特征值

行索引：可以称为样本

列索引：可以称为特征值

重复值在机器学习中不需要处理，

特征工程在机器学习中有非常重要的作用

特征工程的含义：是将原始数据转换为更好的代表预测模型的潜在问题的特征的过程，提高对未知数据的预测的准确性

特征工程的意义：直接影响预测结果

使用scikit-learn库

sklearn特征抽取API

命令：sklearn.feature_extraction

作用：对字典进行特征值化

类： sklearn.feature_extration.Dictvectorizer-------------vectorizer：向量化

特征抽取对文本等数据进行特征值化，把字典中的一些类别数据，分别转化成特征数字类型。

One-Hot编码，将特征转变成一组特征，数据表中，如果该条数据符合该特征，则赋值为1，否则为0

# 导入包,sklearn    特征提取               字典数字化from sklearn.feature_extraction import DictVectorizerif __name__ == '__main__':    '''    字典数据抽取    '''    # 实例化一个对象    # sparse 是一种数据格式    dict = DictVectorizer(sparse=False)    dict = DictVectorizer(sparse=True)    # 调用fit_transform    L_city = [{
   "city":"北京","temperature":100},{
   "city":"上海","temperature":80},{
   "city":"广州","temperature":200}]    data = dict.fit_transform(L_city)    print(dict.inverse_transform(data))    #[{'city=北京': 1.0, 'temperature': 100.0}, {'city=上海': 1.0, 'temperature': 80.0}, 	 # {'city=广州': 1.0, 'temperature': 200.0}]    print(dict.get_feature_names())    # ['city=上海', 'city=北京', 'city=广州', 'temperature']    print(data)    #(0, 1)	1.0    #(0, 3)	100.0     #(1, 0)	1.0    #(1, 3)	80.0    #(2, 2)	1.0    #(2, 3)	200.0

文本特征抽取

第一种文本特征抽取：Count

对文本数据进行特征值化

类： sklearn.feature_extarction.text.CountVectorizer

CountVectorizer()
- 返回词频矩阵
- CountVectorizer.fit_transform(x)
  - x: 文本或者包含文字字符串的可迭代对象
  - 返回值：返回sparse矩阵
- CountVectorizer.inverse_transform(x)
  - x:array数组或者sparse矩阵
  - 返回值：转换之前数据格式
- CountVectorizer.get_feature_names()
  - 返回：单词列表

# 对文本进行特征值化def text_count():    '''文本数据抽取'''    # 1. 实例化CountVectorizer    text = CountVectorizer()    # 2. 调用fit_transform 方法输入数据并转换    text_test = ['life is short, I like python','life is too long, I dislike python']    data = text.fit_transform(text_test)    data_array = data.toarray()# 将sparse矩阵转换成为array矩阵    print(data,data_array)    print(text.inverse_transform(data))# 对象.inverse_transform：将sparse矩阵转换成为原来的                                        # 数据格式    print(text.get_feature_names())# 统计文章中所有的词，重复的只记录一次，2，对每篇文章，在词的                                    # 列表里进行统计每个词出现的次数    # 对于单个英文字符不进行统计

文本特征抽取的使用场景：Count。文本分类，情感分析等

对于中文文本的分析，默认是不进行分词的

处理方法：对中文文字进行分词，使用jieba工具，

jieba使用方法：1.import jieba

jieba.cut(要切割的字符串)

注意：返回值是一个词语生成器，注意返回值的格式转换

第二种特征提取 TF–IDF

主要思想：如果某个词或者短语在一篇文章中出现的概率高，并且在其它文章中很少出现，则认为词或者短语据有很好的类别区分能力，适合用来分类。

TF-IDF作用：用以评估一个词对于一个文件集或一个语料库中的其它一份文件的重要性

TF : term frequency ：词的频率出现的次数

IDF： inverse document frequency 逆向频率 log（总文档数量/该次出现的文档数量）：输入的值越小，结果越小

类： sklearn.feature_extraction.text.TfidfVectorizer

该方法的调用和Count的方法相同，使用的类不同

得到的结果，toarray之后，数值表示的是该值的重要性

TF-IDF作用：用以评估一字词对于一个文件集或者一个语料库中的其中的一份文件的重要程度

对于文本，我们想要获得文本的主题，就要获取文本中的高频特征词汇，文本特征抽取Count方法智能对词汇进行特征化，不能实现上面所说的需求，所以此处要用到tf idf

TF： term frequency ：词的频率统计出现的次数

idf：逆文档频率：inverse document frequency log（总文档数量/该词出现的文档数量），log（输入的值越小，值越小）

tf* idf：乘积的结果我们称之为重要性

类：sklearn

图片处理

特征的预处理：对数据进行处理

特征预处理要做的事情

通过特定的统计方法，将数据转换成算法要求的数据：

了解算法要求的数据格式

两种处理方法

数值型数据：标准缩放
- 归一化
- 标准化
- 缺失值

类别型数据：one-hot编码

时间类型：时间的切分

特征预处理的API

sklearn.preprocessing: 所有预处理的函数都在这个模块里

归一化

特点：通过对原始数据进行变化，把数据映射到0-1之间

公式：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2vWo056c-1591709847317)(C:\Users\sang\AppData\Roaming\Typora\typora-user-images\image-20200115212508593.png)]

归一化的步骤

归一化API： sklearn.preprocessing.MinMaxScalar(大小缩放)
- MinMaxScalar(feature_range=())
  - 每个特征缩放到给定范围，默认是0-1
  - MinMaxScalar.fit_transform(x)
    - x:numpy array 格式的数据[n_samples,n_features]
    - 返回值：转换后的形状相同的array