谷歌推出了其最新版本的文本生成圖像模型 Imagen 4,并推出了高端版本 Imagen 4 Ultra。與前代產品 Imagen 3 相比,此次更新旨在顯著提升文本渲染效果。目前,這兩個版本已上線 Gemini API 的付費預覽版,并在 Google AI Studio 提供有限的免費測試。
谷歌將 Imagen 4 定位為“適用于大多數任務”的通用模型,每張圖像為定價 0.04 美元(IT之家注:現匯率約合 0.29 元人民幣)。而 Imagen 4 Ultra 則被設計為能夠更精準地遵循文本提示詞的高端版本,其價格較普通版高出 50%,每張圖像收費 0.06 美元(現匯率約合 0.43 元人民幣)。谷歌聲稱,與 Dall-E 和 Midjourney 等其他圖像生成器相比,Imagen 4 Ultra 的輸出結果更為“出色(strong)”。
在展示環節中,谷歌展示了 Imagen 4 Ultra 生成的一系列圖像,包括一幅三格漫畫,內容是一艘小型宇宙飛船被一只巨大的藍色太空蜥蜴攻擊,漫畫中還配有“嘎吱”等音效,甚至出現了令人費解的“哈迪”字樣。該圖像完全按照文本提示詞生成,效果尚可,類似于 3D 應用程序中的卡通渲染效果。
Imagen 4 Ultra
另一個文本提示詞是“京都復古旅行明信片的正面:櫻花樹下的標志性寶塔,遠處的雪山,晴朗的藍天,鮮艷的色彩”。Imagen 4 Ultra 按照提示生成了圖像,雖然風格較為普通,但細節上基本符合要求。此外,還有展示登山情侶在巖石上揮手的圖像,以及一幅“前衛”風格的時尚攝影圖像。這些圖像質量確實不錯,也精準地符合了文本提示詞,但整體仍然顯得高度機械化。
盡管 Imagen 4 在性能上較前代有所提升,但其表現并未讓人眼前一亮,尤其是在與市場領導者 Dall-E 3 和 Midjourney 7 相比時。此外,在最初的熱情過后,公眾對 AI 藝術的興趣似乎正在消退,其主要應用場景似乎變成了社交媒體上的垃圾廣告。