美文网首页
数据集分割

数据集分割

作者: 骆旺达 | 来源:发表于2020-07-29 14:25 被阅读0次

一、单个文件分割训练集、测试集和验证集

# 引入库
import pandas as pd
import os
from sklearn.utils import shuffle

# 导入csv数据
train = pd.read_csv("./Task2_kialo_popular_2_clear.csv")

# 打乱数据,按0.8:0.1:0.1的比例分割数据集
train = shuffle(train,random_state=1)
length = len(train)
print("总长度:",length)
val_num = int(length*0.1)
test_num = int(length*0.1)

train_p = train[:int(length*0.01)]
val_p = train[int(length*0.01):int(length*0.015)]
test_p = train[int(length*0.015):int(length*0.020)]

print("训练集长度:",len(train_p))
print("验证集长度:",len(val_p))
print("测试集长度:",len(test_p))

# 如果文件不存在,则生成文件
if not os.path.exists("./kialo_data1"):
    os.mkdir("./kialo_data1")

# 保存文件
val_p.to_csv("./kialo_data1/dev.csv",index=None)
train_p.to_csv("./kialo_data1/train.csv",index=None)
test_p.to_csv("./kialo_data1/test.csv", index=None)

一、单个文件分割多个训练集、测试集和验证集(5折)

# 引入库
import pandas as pd
import os
from sklearn.utils import shuffle

# 读文件
train = pd.read_csv("./ceshi.csv")
test_origin = pd.read_csv("./2486_sarc_2486_nonsarc.csv")

# 打乱文件
train = shuffle(train)
length = len(train)
# 设置训练集为20%  (5折即,80%训练,20%测试,有5个数据集)
test_num = int(length*0.2)

# 循环五次,获得五份训练集和对应的测试集
# 训练集      测试集
#  1-4            5
#  2-5            1
#  1,3-5         2
# 以此类推
for i in range(1,6):

    test_p = train[test_num*(i-1):test_num*(i)]
    if i==1:
        train_p = train[test_num:]
    else:
        train_p = train[:test_num*(i-1)]
        train_p = pd.concat([train_p, train[test_num*(i):]])

    # 如果文件不存在,新建文件
    if not os.path.exists("./shixiong_data"+str(i)):
        os.mkdir("./shixiong_data"+str(i))
    # 数据保存
    test_p.to_csv("./shixiong_data"+str(i)+"/dev.csv",index=None)
    train_p.to_csv("./shixiong_data"+str(i)+"/train.csv",index=None)
    test_origin.to_csv("./shixiong_data" + str(i) + "/test.csv", index=None)

有用的话,点个小红心哦!

相关文章

  • 数据集的分割与sklearn实现

    今天聊一下数据集分割的问题,在使用机器学习算法的时候,我们需要对原始数据集进行分割,分为训练集、验证集、测试集。训...

  • 数据集分割

    一、单个文件分割训练集、测试集和验证集 一、单个文件分割多个训练集、测试集和验证集(5折) 有用的话,点个小红心哦!

  • 基于Keras实现Kaggle2013--Dogs vs. Ca

    【下载数据集】 下载链接--百度网盘关于猫的部分数据集示例 【整理数据集】 将训练数据集分割成训练集、验证集、测试...

  • 常用数据集介绍及转换

    研究背景 在深度学习中常用的数据集进行归纳和总结 语义分割的数据集 1、COCO 数据集 COCO(Common ...

  • 2.封装kNN算法之数据分割

    训练数据集与测试数据集 当我们拿到一组数据之后,通常我们需要把数据分割成两部分,即训练数据集和测试数据集。训练数据...

  • 数据集分割方法

    在机器学习建模过程中,通行的做法通常是将数据集分为训练集和测试集。测试集是与训练独立的数据,完全不参与训练,用于最...

  • sklearn学习笔记

    预处理 model_selection模块 train_test_split 分割数据集为训练集和测试集 cros...

  • 2019-03-10 shell 分割训练集和测试集

    查看原始数据的的列数 2134124 按照1:4的比例分割 测试集:训练集

  • Day 14:SVM案例

    数据下载 一、数据预处理 导入库 导入数据 分割数据集 数据标准化 二、使用SVM(linear kernel)模...

  • 语义分割数据集介绍

    1.cityscapes 1)https://blog.csdn.net/avideointerfaces/art...

网友评论

      本文标题:数据集分割

      本文链接:https://www.haomeiwen.com/subject/lojhrktx.html