🧠 單元四:機器學習技術理論
📌 機器學習運作模式
監督式學習的應用類型
| 類型 |
說明 |
範例 |
| 分類 |
預測類別標籤 |
垃圾郵件過濾、物件辨識 |
| 迴歸 |
預測連續數值 |
房價預測、銷售預測 |
| 聚類 |
將資料分組(非監督式) |
客戶分群、文件分類 |
特徵與標籤
- 特徵 (Features/X):用於預測的屬性/變數(例如房屋面積、地段、屋齡)
- 標籤 (Labels/y):目標輸出(例如房價、是否為垃圾郵件)
- 好的特徵選擇能提高準確率、縮短訓練時間
📌 深度學習架構
神經網路基本結構
輸入層 → 隱藏層 (多層) → 輸出層
- 每層處理不同層次的資訊
- 計算:weight × input + bias
- 啟動函數決定輸出
重要深度學習模型
| 模型 |
擅長領域 |
說明 |
| CNN |
圖像處理 |
卷積運算提取局部特徵,池化層降維 |
| RNN |
序列資料 |
處理時間序列,有記憶能力 |
| LSTM |
長序列 |
解決 RNN 梯度消失問題 |
| GRU |
長序列 |
LSTM 的簡化版 |
| GAN |
生成資料 |
生成器 vs 判別器對抗訓練 |
| Transformer |
NLP/多模態 |
自注意力機制,GPT 的基礎架構 |
📌 常見演算法
- 線性搜尋:逐一比對,O(n)
- 二元搜尋:排序後對半搜尋,O(log n)
- DFS/BFS:深度優先/廣度優先搜尋
- 線性迴歸:找出最佳擬合直線
- 邏輯迴歸:二元分類(是/否)
- KNN:根據最近鄰居投票分類
📌 訓練與驗證
資料分割
- 訓練集:用來訓練模型
- 驗證集:調整超參數
- 測試集:最終評估模型效能
交叉驗證 (Cross-validation)
將資料分成 K 折,輪流作為驗證集,確保評估結果穩定。
常見問題
| 問題 |
原因 |
解法 |
| 過擬合 |
模型太複雜,記住訓練資料 |
正則化、Dropout、增加資料 |
| 欠擬合 |
模型太簡單 |
增加模型複雜度、更多特徵 |
💡 考試重點:CNN vs RNN 的差異、特徵與標籤的定義、過擬合/欠擬合概念、交叉驗證原理