
資料內(nèi)容:
1-1,結(jié)構(gòu)化數(shù)據(jù)建模流程范例
一,準(zhǔn)備數(shù)據(jù)
titanic 數(shù)據(jù)集的目標(biāo)是根據(jù)乘客信息預(yù)測(cè)他們?cè)?Titanic 號(hào)撞擊冰山沉沒(méi)后能
否生存。 結(jié)構(gòu)化數(shù)據(jù)一般會(huì)使用 Pandas 中的 DataFrame 進(jìn)行預(yù)處理。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras import models,layers
dftrain_raw = pd.read_csv('./data/titanic/train.csv')
dftest_raw = pd.read_csv('./data/titanic/test.csv')
dftrain_raw.head(10)
• Survived:0 代表死亡,1 代表存活【y 標(biāo)簽】
• Pclass:乘客所持票類,有三種值(1,2,3) 【轉(zhuǎn)換成 onehot 編碼】
• Name:乘客姓名 【舍去】
• Sex:乘客性別 【轉(zhuǎn)換成 bool 特征】
• Age:乘客年齡(有缺失) 【數(shù)值特征,添加“年齡是否缺失”作為輔助特征】
• SibSp:乘客兄弟姐妹/配偶的個(gè)數(shù)(整數(shù)值) 【數(shù)值特征】
• Parch:乘客父母/孩子的個(gè)數(shù)(整數(shù)值)【數(shù)值特征】
• Ticket:票號(hào)(字符串)【舍去】
• Fare:乘客所持票的價(jià)格(浮點(diǎn)數(shù),0-500 不等) 【數(shù)值特征】
• Cabin:乘客所在船艙(有缺失) 【添加“所在船艙是否缺失”作為輔助特征】
• Embarked:乘客登船港口:S、C、Q(有缺失)【轉(zhuǎn)換成 onehot 編碼,四維度
S,C,Q,nan】
利用 Pandas 的數(shù)據(jù)可視化功能我們可以簡(jiǎn)單地進(jìn)行探索性數(shù)據(jù)分析 EDA
(Exploratory Data Analysis)。