promptbench:微软发布评估大型语言模型LLMs性能的框架,可评测不同数据集、不同提示词、不同任务等在不同大模型下的表现,可用于llm应用基座选择场景 | AIGCLINK | Podwise