代码拉取完成,页面将自动刷新
同步操作将从 mynameisi/书法体识别APP 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
# 0. 引入必要的包
import glob
import time
import numpy as np
from tqdm import tqdm
from util import get,dump,preprocess_image
from sklearn.model_selection import train_test_split
# 1. 读取配置文件中的信息
train_dir = get("train") # 获取 训练数据路径
char_styles = get("char_styles") # 获取 字符样式列表,注意: 必须是列标
new_size = get("new_size") # 获取 新图像大小元组, 注意: 必须包含h和w
# 2. 生成X,y
print("# 读取训练数据并进行预处理,")
linspace_list = np.linspace(0, 0, 1000)
X = []
y = []
image_files = [glob.glob(f"{train_dir}/train_{category}*") for category in char_styles]
for i in range(5):
for element in tqdm(image_files[i], desc=f"处理 {char_styles[i]} 图像", unit="it"):
label = element.split('_')[1]
X.append(preprocess_image(element, new_size))
y.append(char_styles.index(label))
time.sleep(0.1)
X = np.array(X).astype(float)
y = np.array(y).astype(int)
# 3. 分割测试集和训练集
print("# 将数据按 80% 和 20% 的比例分割")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# 4. 打印样本维度和类型信息
print("X_train: ", X_train.shape, X_train.dtype) # 训练集特征的维度和类型
print("X_test: ", X_test.shape, X_test.dtype) # 测试集特征的维度和类型
print("y_train: ", y_train.shape, y_train.dtype) # 训练集标签的维度和类型
print("y_test: ", y_test.shape, y_test.dtype) # 测试集标签的维度和类型
# 5. 序列化分割后的训练和测试样本
obj=(X_train,X_test,y_train,y_test)
objname=["X_train","X_test","y_train","y_test"]
dump(obj,"(X_train,X_test,y_train,y_test)",f'{get("Xy_root")}/Xy')
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。