1. 核心数值计算与数据处理
NumPy:提供高性能的多维数组对象和数学函数,是几乎所有机器学习库的基础,用于数值计算、矩阵运算等底层操作。
Pandas:专注于结构化数据处理,提供 DataFrame 数据结构,方便进行数据清洗、转换、聚合和分析,是数据预处理的核心工具。
2. 机器学习算法库
Scikit-learn:包含了几乎所有经典的机器学习算法(如线性回归、决策树、SVM、随机森林、K-Means 等),提供统一的 API 接口,支持数据分割、特征选择、模型评估等完整流程,适合快速构建基线模型和中小型项目。
XGBoost/LightGBM/CatBoost:高性能的梯度提升树库,在分类、回归等任务中表现优异,尤其适合处理结构化数据,常用于竞赛和工业界。
3. 深度学习框架
TensorFlow:由 Google 开发的开源深度学习框架,支持静态计算图,适合构建复杂的神经网络模型(如 CNN、RNN、Transformer 等),扩展性强,适合生产环境部署。
PyTorch:由 Facebook 开发,采用动态计算图,灵活性高,调试方便,更受学术界青睐,适合快速原型开发和研究。
Keras:基于 TensorFlow/PyTorch 等后端的高层神经网络 API,语法简洁,适合快速搭建和训练深度学习模型,对初学者友好。
4. 数据可视化
Matplotlib:基础的绘图库,支持线图、散点图、直方图等多种图表,可高度定制化,适合生成 publication 级别的图形。
Seaborn:基于 Matplotlib,提供更美观的默认样式和高级统计绘图功能(如热图、小提琴图),适合数据分布和关系的可视化。
Plotly:支持交互式可视化,可生成动态图表、3D 图形等,适合构建仪表盘和 Web 应用中的可视化组件。
5. 自然语言处理(NLP)
NLTK:自然语言处理基础库,包含语料库、分词、词性标注、句法分析等工具,适合入门学习。
SpaCy:工业级 NLP 库,支持高效的分词、命名实体识别(NER)、依存句法分析等,模型训练和部署便捷。
Hugging Face Transformers:提供大量预训练的 NLP 模型(如 BERT、GPT、T5 等),支持文本分类、翻译、摘要等任务,开箱即用。
6. 计算机视觉(CV)
OpenCV:开源计算机视觉库,支持图像读取、预处理、特征提取、目标检测等,广泛应用于实时图像处理。
Pillow:Python 图像处理库,提供图像打开、裁剪、旋转、滤镜等基本操作,接口简单易用。
TorchVision/TensorFlow Datasets:分别与 PyTorch、TensorFlow 配套,包含常用的 CV 数据集(如 MNIST、CIFAR-10)和预训练模型(如 ResNet、VGG)。
7. 模型部署与优化
ONNX:开放神经网络交换格式,实现不同框架间的模型转换(如 PyTorch 转 TensorFlow),便于跨平台部署。
TensorRT:NVIDIA 的深度学习推理优化器,可加速模型在 GPU 上的推理速度,适合生产环境部署。
Flask/FastAPI:轻量级 Web 框架,用于将训练好的模型封装为 API 服务,实现模型的在线调用。
评论前必须登录!
注册