DAY 24 元组和OS模块

技术文档

内容：

元组
可迭代对象
os模块

元组

元组的特点：

1. 有序，可以重复，这一点和列表一样

2. 元组中的元素不能修改，这一点非常重要，深度学习场景中很多参数、形状定义好了确保后续不能被修改。

很多流行的 ML/DL 库（如 TensorFlow, PyTorch, NumPy）在其 API 中都广泛使用了元组来表示形状、配置等。

可以看到，元组最重要的功能是在列表之上，增加了不可修改这个需求

元组的创建

# 元组的创建my_tuple1 = (1, 2, 3)my_tuple2 = (\'a\', \'b\', \'c\')my_tuple3 = (1, \'hello\', 3.14, [4, 5]) # 可以包含不同类型的元素print(my_tuple1)print(my_tuple2)print(my_tuple3)# (1, 2, 3)# (\'a\', \'b\', \'c\')# (1, \'hello\', 3.14, [4, 5])# 可以省略括号my_tuple4 = 10, 20, \'thirty\' # 逗号是关键print(my_tuple4)print(type(my_tuple4)) # 看看它的类型# (10, 20, \'thirty\')# # 创建空元组empty_tuple = ()# 或者使用 tuple() 函数empty_tuple2 = tuple()print(empty_tuple)print(empty_tuple2)# ()# ()

元组的常见用法

# 元组的索引my_tuple = (\'P\', \'y\', \'t\', \'h\', \'o\', \'n\')print(my_tuple[0]) # 第一个元素print(my_tuple[2]) # 第三个元素print(my_tuple[-1]) # 最后一个元素# P# t# n# 元组的切片my_tuple = (0, 1, 2, 3, 4, 5)print(my_tuple[1:4]) # 从索引 1 到 3 (不包括 4)print(my_tuple[:3]) # 从开头到索引 2print(my_tuple[3:]) # 从索引 3 到结尾print(my_tuple[::2]) # 每隔一个元素取一个# (1, 2, 3)# (0, 1, 2)# (3, 4, 5)# (0, 2, 4)# 元组的长度获取my_tuple = (1, 2, 3)print(len(my_tuple))

管道工程中pipeline类接收的是一个包含多个小元组的列表作为输入。

可以这样理解这个结构：

1. 列表 []: 定义了步骤执行的先后顺序。Pipeline 会按照列表中的顺序依次处理数据。之所以用列表，是未来可以对这个列表进行修改。

2. 元组 (): 用于将每个步骤的名称和处理对象捆绑在一起。名称用于在后续访问或设置参数时引用该步骤，而对象则是实际执行数据转换或模型训练的工具。固定了操作名+操作

不用字典因为字典是无序的。

from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import LogisticRegressionfrom sklearn.pipeline import Pipelinefrom sklearn.metrics import accuracy_score# 1. 加载数据iris = load_iris()X = iris.datay = iris.target# 2. 划分训练集和测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 3. 构建管道# 管道按顺序执行以下步骤：# - StandardScaler(): 标准化数据（移除均值并缩放到单位方差）# - LogisticRegression(): 逻辑回归分类器pipeline = Pipeline([ (\'scaler\', StandardScaler()), (\'logreg\', LogisticRegression())])# 4. 训练模型pipeline.fit(X_train, y_train)# 5. 预测y_pred = pipeline.predict(X_test)# 6. 评估模型accuracy = accuracy_score(y_test, y_pred)print(f\"模型在测试集上的准确率: {accuracy:.2f}\")

可迭代对象

可迭代对象 (Iterable) 是 Python 中一个非常核心的概念。简单来说，一个可迭代对象就是指那些能够一次返回其成员（元素）的对象，让你可以在一个循环（比如 for 循环）中遍历它们。

Python 中有很多内置的可迭代对象，目前我们见过的类型包括：

序列类型 (Sequence Types):

list (列表)
tuple (元组)
str (字符串)
range (范围)

集合类型 (Set Types):

set (集合)

字典类型 (Mapping Types):

dict (字典) - 迭代时返回键 (keys)

文件对象 (File objects)

生成器 (Generators)

迭代器 (Iterators) 本身

# 列表 (list)print(\"迭代列表:\")my_list = [1, 2, 3, 4, 5]for item in my_list: print(item)# 迭代列表:# 1# 2# 3# 4# 5# 元组 (tuple)print(\"迭代元组:\")my_tuple = (\'a\', \'b\', \'c\')for item in my_tuple: print(item)# 迭代元组:# a# b# c# 字符串 (str)print(\"迭代字符串:\")my_string = \"hello\"for char in my_string: print(char)# 迭代字符串:# h# e# l# l# o# range (范围)print(\"迭代 range:\")for number in range(5): # 生成 0, 1, 2, 3, 4 print(number)# 迭代 range:# 0# 1# 2# 3# 4# 集合类型 (Set Types)# 集合 (set) - 注意集合是无序的，所以每次迭代的顺序可能不同print(\"迭代集合:\")my_set = {3, 1, 4, 1, 5, 9}for item in my_set: print(item)# 迭代集合:# 1# 3# 4# 5# 9# 字典 (dict) - 默认迭代时返回键 (keys)print(\"迭代字典 (默认迭代键):\")my_dict = {\'name\': \'Alice\', \'age\': 30, \'city\': \'Singapore\'}for key in my_dict: print(key)# 迭代字典 (默认迭代键):# name# age# city# 迭代字典的值 (values)print(\"迭代字典的值:\")for value in my_dict.values(): print(value)# 迭代字典的值:# Alice# 30# Singapore# 迭代字典的键值对 (items)print(\"迭代字典的键值对:\")for key, value in my_dict.items(): # items方法很好用 print(f\"Key: {key}, Value: {value}\")# 迭代字典的键值对:# Key: name, Value: Alice# Key: age, Value: 30# Key: city, Value: Singapore

OS模块

随着深度学习项目变得越来越大、数据量越来越多、代码结构越来越复杂，你会越来越频繁地用到 os 模块来管理文件、目录、路径，以及进行一些基本的操作系统交互。虽然深度学习的核心在于模型构建和训练，但数据和模型的有效管理是项目成功的关键环节，而 os 模块为此提供了重要的工具。

在简单的入门级项目中，你可能只需要使用 pd.read_csv() 加载数据，而不需要直接操作文件路径。但是，当你开始处理图像数据集、自定义数据加载流程、保存和加载复杂的模型结构时，os 模块就会变得非常有用。

好的代码组织和有效的文件管理是大型深度学习项目的基石。os 模块是实现这些目标的重要组成部分。

# os模块import os# os是系统内置模块，无需安装

获取当前工作目录

print(os.getcwd()) # get current working directory 获取当前工作目录的绝对路径# D:\\python60-days-challenge-master

获取当前工作目录下的文件列表

print(os.listdir()) # list directory 获取当前工作目录下的文件列表# [\'.vscode\', \'daka\', \'python60-days-challenge-master\', \'submission.csv\']

# 我们使用 r\'\' 原始字符串，这样就不需要写双反斜杠 \\\\，因为\\会涉及到转义问题path_a = r\'C:\\Users\\YourUsername\\Documents\' # r\'\'这个写法是写给python解释器看，他只会读取引号内的内容，不用在意r的存在会不会影响拼接path_b = \'MyProjectData\'file = \'results.csv\'# 使用 os.path.join 将它们安全地拼接起来，os.path.join 会自动使用 Windows 的反斜杠 \'\\\' 作为分隔符file_path = os.path.join(path_a , path_b, file)print(file_path)# C:\\Users\\YourUsername\\Documents\\MyProjectData\\results.csv

环境变量方法

# os.environ 表现得像一个字典，包含所有的环境变量print(os.environ)# 使用 .items() 方法可以方便地同时获取变量名（键）和变量值，之前已经提过字典的items()方法，可以取出来键和值# os.environ是可迭代对象for variable_name, value in os.environ.items(): # 直接打印出变量名和对应的值 print(f\"{variable_name}={value}\")# 你也可以选择性地打印总数print(f\"\\n--- 总共检测到 {len(os.environ)} 个环境变量 ---\")

目录树

os.walk() 是 Python os 模块中一个非常有用的函数，它用于遍历（或称“行走”）一个目录树。

核心功能：

os.walk(top, topdown=True, οnerrοr=None, followlinks=False) 会为一个目录树生成文件名。对于树中的每个目录（包括 top 目录本身），它会 yield（产生）一个包含三个元素的元组 (tuple)：

(dirpath, dirnames, filenames)

1. dirpath: 一个字符串，表示当前正在访问的目录的路径。

2. dirnames: 一个列表（list），包含了 dirpath 目录下所有子目录的名称（不包括 . 和 ..）。

3. filenames: 一个列表（list），包含了 dirpath 目录下所有非目录文件的名称。

注：dirnames 和 filenames 的顺序可能因操作系统或文件系统而略有不同，但遍历的深度优先逻辑是一致的

总结:

os.walk会首先访问起始目录 (my_project)，然后它会选择第一个子目录 (data) 并深入进去，访问 data 目录本身，然后继续深入它的子目录 (processed -> raw)。只有当 data 分支下的所有内容都被访问完毕后，它才会回到 my_project 这一层，去访问下一个子目录 (src)，并对 src 分支重复深度优先的探索。

它不是按层级（先访问所有第一层，再访问所有第二层）进行的，而是按分支深度进行的。这种策略被称之为深度优先

import osstart_directory = os.getcwd() # 假设这个目录在当前工作目录下print(f\"--- 开始遍历目录: {start_directory} ---\")for dirpath, dirnames, filenames in os.walk(start_directory): print(f\" 当前访问目录 (dirpath): {dirpath}\") print(f\" 子目录列表 (dirnames): {dirnames}\") print(f\" 文件列表 (filenames): {filenames}\")

介绍这个方法，是因为在你面临云服务器时候，往往只能通过命令行和代码块中函数来查看，无法像电脑一样在界面中查看，所以，这个方法可以让你直接在代码块中查看。

@浙大疏锦行

DAY 24 元组和OS模块

元组

元组的创建

元组的常见用法

可迭代对象

OS模块

获取当前工作目录

获取当前工作目录下的文件列表

环境变量方法

目录树

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

DAY 24 元组和OS模块

元组

元组的创建

元组的常见用法

可迭代对象

OS模块

获取当前工作目录

获取当前工作目录下的文件列表

环境变量方法

目录树

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签