1.anaconda的安装与使用
在官网下载anaconda的客户端,因为python有2和3之分,所以有两个版本可以供选择,由于该课程使用2作为开发工具,选择anaconda2下载安装。
安装好之后,可以使用 conda update conda 来进行对anaconda进行更新。
2.启动jupyter notebook
在anaconda2的命令窗口上使用cd命令进入放“.ipynb”文件的目录,然后使用 jupyter notebook xx.ipynb 命令启动jupyter。(使用tab键可以补全)
3.如何使用jupyter notebook
jupyter notebook 作为课程教学之用非常方便,可以编辑文档,可以运行代码,掌握jupyter notebook 的使用方法和快捷键可以帮你事半功倍。
jupyter notebook 的快捷键,在界面中,按“H”键可以查看有哪些快捷键。
4.打开csv文件,进行数据处理
在处理csv文件时,我们需要进行模块导入,使用unicodecsv模块
然后定义一个reader函数,读取csv文件,例如:
def reader(file_csv):
with open(file_csv,'rb') as f:
reader = unicodecsv.DictReader(f)
return list(reader)
enrollments = reader('enrollments.csv')
之后对读取的数据进行预处理:
from datetime import datetime as dt
# 将字符串格式的时间转为 Python datetime 类型的时间。
# 如果没有时间字符串传入,返回 None
def parse_date(date):
if date == '':
return None
else:
return dt.strptime(date, '%Y-%m-%d')
# 将可能是空字符串或字符串类型的数据转为 整型 或 None。
def parse_maybe_int(i):
if i == '':
return None
else:
return int(i)
# 清理 enrollments 表格中的数据类型
for enrollment in enrollments:
enrollment['cancel_date'] = parse_date(enrollment['cancel_date'])
enrollment['days_to_cancel'] = parse_maybe_int(enrollment['days_to_cancel'])
enrollment['is_canceled'] = enrollment['is_canceled'] == 'True'
enrollment['is_udacity'] = enrollment['is_udacity'] == 'True'
enrollment['join_date'] = parse_date(enrollment['join_date'])