简述r编码的使用

结果乱码遇到这种情况怎么使鼡write.table在后面加上指定参数改变编码格式?


当我们在使用xgboost或者lightgbm等机器学习包時这些包的输入数据默认都是全数值形式的矩阵,但是我们的原始数据中有可能出现分类变量等非数值型变量那么如何使用R放入数据包进行one-hot编码是一件很重要的事情

其中cut,colorclarity都是因子型变量,接下来以cut为例演示如何进行one-hot编码:

函数格式为(~你想编码的列名-1数据集名称),我們来观察一下返回数据结果:

结果产生了新的数据,列的命名方式都是原始列名+因子类型接下来将只包含有数值型的数据集和编码之后嘚数据集合并,就可以得到新的数据集

这样经过one-hot编码的数据集就产生了其余的变量以此类推即可

3、在弹1653出的编码中选择UTF-8编码。

4、点击OK然后再点击OK,保存设置

我要回帖

 

随机推荐