要求:
1、時間:第 15 周課堂交作業
2、內容:提交相關 R 代碼(.r 文件)、分析報告(word 文件),打包在同壹個壓縮文件內,並以學號命名此壓縮文件。
作業二
文件“Smarket.csv” 為 2001~2005 年 S&P 500 指數的日交易情況。其中,lag1,lag2,lag3,lag4, lag5 為對於交易日當天相對前 5 個連續交易日中每個交易日的漲跌數額、Volume 為前壹交易日的交易量、Today 為交易日當天的漲跌數額、Direction 為交易日當天的“漲”或“跌”情況。請使用 R 讀取該數據文件中的數據及構建線性回歸模型,並回答下列問題:
1、以 lag1,lag2,lag3, lag5 和Volume 為特征,使用 K 折交叉驗證方法(K=10) 計算 k-NN 模型參數 k 在不同取值情況下的模型的準確率。
2、繪制不同 k 值下的準確率的變化曲線。
3、說明當 k-NN 算法參數 k 為多少時,模型的準確率最高?並計算其對應的準確率和混淆矩陣。
4、采用隨機抽樣的方法對此數據集進行 5 次抽樣,將數據集劃分為訓練數據和測試數據(其中訓練數據約占 3/4、測試數據約占 1/4),分別用訓練數據和測試數據對上述 10 折交叉驗證方法所得到最佳模型計算其準確率平均值,並說明是否有過擬合發生。
5、簡述如何增加或降低模型的彈性?為什麽?是否可以通過增加模型“彈性”的方法提高模型的性能。
6、、采用數據可視化方法分析此數據集中各輸入特征與輸出類別之間的相關性,並基於相關性和模型結果說明各特征的有效性,以及妳對此次數據分析的結論性概括。