本播客是洪毅李教授的講座,主題為生成式人工智慧的能力檢定。講座從模型使用者和開發者的角度出發,探討了評估生成式人工智慧能力的重要性,並深入分析了多種評估方法,如 Exact Match、計算相似程度(BLEU, ROUGE, Burr Score)等。同時,講座也提醒聽眾不要過度迷信評估分數,並探討了在沒有標準答案的情況下,如何通過人類評估來衡量模型的好壞。此外,還討論了語言模型的偏見、惡意使用(Jailbreak, Prompt Injection Attack)以及如何防範等問題,強調了在實際應用中需要考慮速度、價格等多個面向,並非僅僅關注模型輸出的內容好壞。
Sign in to continue reading, translating and more.
Continue