
pandas批量读取大型数据集指南
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本指南详细介绍了使用Python的Pandas库高效处理大规模数据的方法与技巧,包括分批读取、内存优化及性能调优策略。
如果你的电脑内存较小,在本地做一些事情会有很大局限性(哭丧脸)。比如你想要参加Kaggle上的竞赛来练习技能,你会发现多数训练数据集都是几GB甚至几十GB大小,而你的小破电脑根本跑不起来。行吧,假设别人有8000万条样本的数据量很牛逼,我就取400万条出来运行总可以了吧(狡猾脸)。2015年Kaggle上有一个CTR预估比赛的数据集:原始数据集中train部分就有6GB大小,经过特征工程后会变得多大?那我只用这400万行来训练吧。为了节省时间和完整介绍分批读入数据的功能,这里以test数据集为例演示。其实就是使用pandas读取数据时加入参数chunksize来实现按批次读取,可以通过设置chunksize的大小控制每次加载的数据量。
全部评论 (0)
还没有任何评论哟~


