了解特征工程,求助关于使用sklearn库进行逻辑回归时遇到的一个问题

我打算用movieLens100k数据集和逻辑回归预测用户是否喜欢某一部电影在进行特征值编码的时候,像性别这种特征可以使用oneHot编码但是像电影类型这种有多个类型的要怎么编码呢?还有特征值编码以后要怎么存放?比如其中一个特征编码以后是0,0,0,0,1,0,0,另一个特征编码以后是0,1,0,我是把他们放在矩阵的同一行变成[0000100010]还是该怎么做?小白先跪谢各位大佬

图片 1

机器学习

基本概念:

人工智能 > 机器学习 > 深度学习

机器学习:

机器学习是从数据中自动分析获得规律(模型),
并利用规律对未知数据进行预测.

  • 根据用户喜好信息, 智能推荐商品(淘宝首页推荐)
  • 分析客服问答模型, 替代人工客服(JD客服)
  • 分析客户信用数据, 计算信贷额度(蚂蚁金服)

特征

对于人类个体而言姓名,年龄,性别,都是其自身的特征

特征值, 目标值

判定男女
  • 特征值(已知的): 身高, 体重, 头发长度, 体征(很多)
  • 目标值(未知的): 男, 女

样本

如果对全班学生成绩进行分析,一个学生就是一个样本


特征工程:

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性

  • 特征抽取
  • 特征预处理
  • 特征降维

1.特征抽取

1.1 字典特征抽取: 万能的0和1之字典特征抽取 (one-hot编码)

1.2 文本特征抽取: 对自然语言进行情感分析(CountVectorizer, TfidfVectorizer)

  • one-hot编码(字典,列表类型均可)
    机器会将所有样本中,
    出现过的特征统统列举出来,然后每个样本挨个比对所有特征,如果存在对应的特征则取1,
    不存在则取0

图片 2

one-hot

from sklearn.feature_extraction.text import CountVectorizer
import jieba

# 肖申克影评
xsk_text = """
豆瓣有人问,为啥肖申克评价这么高?他是不是只是从一个满是泥泞的臭水沟的监牢逃出而已?其实救赎是对自己的破茧成蝶,每个人眼前都有一个模版,一个完美的人的样子,很美,很有灵魂,很有姿态,得到很多人爱。为什么自己总是做不好,自己总是不美?自己总是如此多的陋习?但是最后这一个人还是只能从自己的茧里面冲破而出,或许学会了飞,或许意境忘了怎么飞,但这个速度的快慢不会影响最早的结果,最终你还是要学会怎么从丑陋变得自信和自强~ 接受一个事实,在某个层面上,在三维时空看起来,蝴蝶都是一样的美,蝴蝶其实根本上长得一样~ 
"""
# 中文分词
xsk = jieba.cut(xsk_text)
xsk_list = [x for x in xsk]
# 实例化文本特征抽取
countvec = CountVectorizer()
# 填充并转换数据
data = countvec.fit_transform(xsk_list)
# 打印抽取的特征名
print(countvec.get_feature_names())
# 将数据以类one_hot编码方式展示
print(data.toarray())

发表评论

电子邮件地址不会被公开。 必填项已用*标注