韩国三级一区-韩国三级香港三级日本三级la-韩国三级香港三级日本三级-韩国三级视频网站-日韩欧美一及在线播放-日韩欧美一二三区

首頁|必讀|視頻|專訪|運營|制造|監管|芯片|物聯網|量子|低空經濟|智能汽車|特約記者
手機|互聯網|IT|5G|光通信|人工智能|云計算|大數據|報告|智慧城市|移動互聯網|會展
首頁 >> 終端 >> 正文

蘋果另辟蹊徑:利用“歸一化流”技術打造 AI 生圖模型

2025年6月24日 09:07  IT之家  作 者:漾仔

業界通常使用擴散模型或自回歸模型來研發 AI 生圖模型,蘋果公司近期發布的論文顯示該公司正在選擇一條被“遺忘”的歸一化流(Normalizing Flows)技術路線研發相應模型。

據介紹,這一“歸一化流”技術是一種通過學習數學變換的方式,將真實世界的數據(如圖像)轉換成結構化噪聲,并再將噪聲還原為圖像樣本的生成模型。其最大優勢是能夠精確計算生成圖像的概率,這是擴散模型無法做到的。這一特性使得歸一化流在對概率要求較高的任務中具有獨特吸引力。不過此類模型并不常見,原因在于其研發成本更高,同時早期采用相應技術生成的模型往往相對模糊、缺乏細節

參考蘋果公司《Normalizing Flows are Capable Generative Models》論文,其推出一種名為 TarFlow(Transformer AutoRegressive Flow)的新型歸一化流技術模型,該模型的核心思路是將一張待生成的大圖拆成“小區塊”,再以相應區塊為單位進行生成一系列像素值,每一塊圖像像素值的生成都依賴于前面已生成的部分,繼而形成完整的圖像,因此能夠有效避免圖像被壓縮為固定詞匯表時產生的質量損失與表現僵化的問題。

當然,TarFlow 在生成高分辨率圖像方面仍存在局限,這就引出了第二篇研究《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》。

參考這篇論文,蘋果在 TarFlow 的基礎上進一步提出了增強版本:STARFlow(Scalable Transformer AutoRegressive Flow)

該模型最大的改進在于,它不再直接在像素層面生成圖像,而是在“潛空間”(latent space)中工作,首先生成圖像的壓縮表示,再通過解碼器進行放大還原。因此模型可無須再預測數百萬個像素值,而是先處理圖像的大體結構,細節部分留給解碼器進行補充,從而在不損失質量的前提下提升生成效率

此外,STARFlow 還改進了對文本提示的處理方式。它不再內建專用文本編碼器,而是支持調用現有語言模型(例如谷歌推出的小語言模型 Gemma,理論上可以直接在設備上運行)來處理用戶的語言指令。這樣一來,模型的圖像生成部分可以專注于圖像細節的生成與優化。 

編 輯:章芳
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦新聞              
 
人物
韋樂平:大模型時代將開啟新一波“光進銅退”
精彩視頻
2025MWC上海丨中興通訊副總裁熊杰就AI萬兆全光園區話題進行交流
2025MWC上海|中國信科:全棧算力創新應用 為AI時代構筑數智基石
2025MWC上海丨智能加速度 中興通訊展臺直擊
2025MWC上海|京信通信:AI賦能5G-A 重構連接的價值
精彩專題
2025 MWC 上海
2025工業互聯網大會
2025世界電信和信息社會日大會
第八屆數字中國建設峰會
關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像