OpenAI 自家的提示詞工具 Playground 最近又更新啦,相比我們幾個月前介紹的舊版本,在最近一次的更新裡面,他不只介面整個大翻新,要做A/B test以及一次跑多組測試都變得更方便,讓使用者可以精準地控制和掌握模型的輸出結果。
首先,我們一樣到它的 palyground 入口網址:https://platform.openai.com/playground ,登入後即可看到以下畫面 (如果沒有成功跳轉,也可以在左側頁籤的 Prompt 分類當中找到它)。

新增 Responses API 的選項
這次新版本的頂部功能表當中,除了保留了原先版本當中的 Code、Compare、History 這些圖示的位置之外,另外新增了可以選擇 API 服務狀態的選單:

Chat Completions API
它是一個完全「無狀態」的 API,意思就是每次對話都需要我們另外再手動帶上歷史訊息。雖然它支援 function calling 和 JSON mode 等功能,但並沒有內建 web search 或 file search 等工具。如果你只是想要進行基本的聊天互動,或是已經在現有程式碼中使用舊版 API,可以考慮選擇這個。
Responses API(預設選項)
至於這個新推出的 Responses API ,則是屬於「有狀態」的。它結合了 Chat Completions 和 Assistants 的優點,可以讓對話記錄自動保持連續性。內建 web search、file search 和 functions 等實用工具,適合拿來開發代理 (agent) 類型的專案。
Prompts 設定與預覽界面更新
這次改版把 prompt 的各項設定與對話預覽的位置左右調換了,所以現在選擇預存的prompt範本、model版本、和微調參數的位置都改成在左欄,但 System message 的位置沒有跟著對話預覽移到右欄,而是改放在左欄下方,並且從預設摺疊改成展開的文字方框,更方便一邊預覽對話一邊改。
除此之外,根據我們選的 API 服務狀態的不同,在介面上顯示的選項也會有些不一樣:

參數調整
在模型參數方面,根據不同模型會有不同的可調整選項,這些參數的調整能讓我們更精確地控制模型的輸出風格和品質,這些數值的設置沒有絕對的好壞,還是要根據當下實際的需求多加測試,才能找出最適合的組合。
比較常見的是 Temperature (溫度)、Top P (取樣機率)、以及Max tokens (最大生成長度) 這三種:
- Temperature:介於 0-2 之間,數值越高代表回應越具創意性,但也可能較不精確。預設是 0.5。
- Top P :控制每次取樣時考慮的詞彙範圍,數值越低則回應越集中且保守。預設是 1。
- Max tokens:限制模型一次能生成的最大字元數。根據不同模型有不同上限。
其他還有設定輸出的格式、是否顯示推理過程(需通過組織驗證)、以及設定推理的努力程度等。而在舊版本裡面的Presence penalty (重複懲罰) 和 Frequency penalty (頻率懲罰) 的設定,在現在的版本裡面則已經拿掉了。
A/B Test
接下來,點選上方的 Compare 圖示,就可以開啟比較模式,同時使用不同的模型或參數設定來產生回應。這樣我們就能輕鬆地比較不同設定下的輸出結果,找出最適合的組合。除此之外,History 功能也能讓我們追蹤和回顧之前的測試記錄,方便進行更細緻的調整。
比如我在這裡簡單設置一個user message為「建立一個顯示近12個月來每個月平均國際金價與三大原油指數的表格」,在 compare+history 上看起來就會是這樣的效果:

Playground 的其他功能
除了Prompt 工具之外,現在 Playground 還有 Images、Realtime、Assistants、TTS 這些新的輔助功能可以使用,每一個功能都很有趣,而且都有其獨特的應用場景。但一次講不完,之後再跟大家分享更多有趣的玩法吧!
