✨ 單元六:生成式 AI 的原理與應用
📌 NLP 自然語言處理服務
Azure AI Language 服務提供:
- 情感分析、關鍵片語擷取、文字摘要、語言理解
📌 關鍵片語擷取 (Key Phrase Extraction)
透過統計分析找出文本中的重要術語。
- 應用:會議記錄分析、文件重點擷取
📌 命名實體辨識 (NER)
識別文本中的人名、地名、日期、組織等。
三種技術途徑
| 途徑 | 技術 | 特點 |
|---|---|---|
| 規則式 | 正規表達式 | 簡單但缺乏彈性 |
| 機器學習 | CRF、SVM | 需要標記資料 |
| 深度學習 | LSTM、Transformer | 效果最好但需大量資料 |
特殊應用
- PHI(受保護健康資訊)偵測
- PII(個人可識別資訊)偵測
📌 情感分析
- 單標籤分類 vs 多標籤分類
- SVM 用於製造瑕疵分類
- CRF 用於序列標記(例如電商產品屬性擷取)
📌 Transformer 模型架構
GPT、BERT 等大型語言模型的基礎:
輸入 → 編碼器 (Encoder) → 解碼器 (Decoder) → 輸出
↑ ↑
自注意力機制 自注意力機制
- 自注意力 (Self-Attention):評估序列中所有 token 之間的關係
- 編碼器輸出嵌入向量(語義向量)
- 解碼器生成自然語言輸出
📌 文字摘要
| 類型 | 方法 | 特點 |
|---|---|---|
| 擷取式 | 從原文選取關鍵句 | 忠於原文,但可能不流暢 |
| 生成式 | 產生全新的精簡句子 | 流暢自然,但可能偏離原意 |
📌 大型語言模型 (LLM)
- Token by token 生成,非確定性輸出
- 功能:程式碼生成、內容創作、翻譯、問答、推薦
Prompt Engineering 提示工程
- 清晰性:明確的指令
- 具體性:給予足夠上下文
- Temperature 參數:控制隨機性(低=保守,高=創意)
- Top-k / Nucleus Sampling:控制輸出品質
📌 語音服務
- 語音辨識:即時與批量模式
- 語音合成:文字轉語音
- 翻譯:支援批量翻譯、自訂詞彙、自動語言偵測
📌 生成式 AI 安全
分層防護:
- 模型層級安全
- 安全系統
- Meta-prompts / Grounding
- 使用者體驗層
💡 考試重點:Transformer 自注意力機制、擷取式 vs 生成式摘要、Prompt Engineering 原則、Temperature 參數作用