《科創(chuàng)板日報》7月7日訊(記者 黃心怡),在2023世界人工智能大會上,阿里云宣布AI繪畫創(chuàng)作大模型通義萬相開啟定向邀測,這意味著通義大模型首次開放了文生圖功能,在過去純語言處理的基礎(chǔ)上,增加了多模態(tài)能力。
此前,國內(nèi)僅有百度文心一言、360智腦等少數(shù)幾家企業(yè)開放了AI作圖功能。
《科創(chuàng)板日報》記者第一時間拿到了通義萬相的內(nèi)測碼。從官網(wǎng)來看,目前已上線文生圖、相似圖像生成、圖像風(fēng)格遷移三種功能。
(資料圖片)
在基礎(chǔ)文生圖功能中,可根據(jù)文字內(nèi)容生成水彩、扁平插畫、二次元、油畫、中國畫、3D卡通和素描等風(fēng)格圖像。
由于對中文詞匯理解的不足,AI作畫曾一度鬧出過不少笑話。《科創(chuàng)板日報》記者在通義萬相網(wǎng)站,對這些容易出錯的AI作圖進(jìn)行了測試。
提問:畫一個紅燒獅子頭
提問:畫一個胸有成竹的男人
提問:畫一幅畫,媽媽抱著寶寶、寶寶在哭泣,寶寶6個月左右
相比文心一言,通義萬相一次能給出四張圖片。除了第一張圖的“媽媽”明顯出錯,其他三張還算符合要求。
提問:畫一張車水馬龍的圖
提問:生成一張云計算的配圖
通義萬相理解了“云計算”這一科技詞匯的含義。此前的測試中,360智腦對于云計算圖片的生成曾出現(xiàn)過錯誤。
360智腦此前生成的云計算圖片接著,《科創(chuàng)板日報》記者讓通義萬相生成一張“小狗在草地上奔跑”,并生成油畫、卡通等不同風(fēng)格。
油畫
3D卡通
在相似圖片生成功能中,用戶上傳任意圖片后,可生成內(nèi)容、風(fēng)格相似的AI畫作。
記者上傳了一張風(fēng)景照,嘗試讓通義萬相生成相似的圖像。
在會后的采訪中,阿里云智能集團(tuán)首席技術(shù)官周靖人表示,“生成圖片的細(xì)節(jié)是不是能夠更加地逼真,更加地注重到很多細(xì)微差別,甚至對于模型的語義的理解,也是極為重要的。我們不僅解決這個方面的問題,甚至支持多語言,英文、中文等都是可以能夠?qū)?yīng)理解相關(guān)語義,生成相應(yīng)的圖片。”
《科創(chuàng)板日報》記者輸入英文來生成圖片談及后續(xù)的產(chǎn)品規(guī)劃時,周靖人稱,整個產(chǎn)品還不斷地迭代,不單通過語義生成圖片,更重要的是能夠控制怎么生成圖片,這也是接下來要提供的重要能力。
降低模型服務(wù)的成本也是阿里云較為關(guān)注的方向。
“我們在幫助模型的提供商不斷降低模型服務(wù)的成本,包括怎么做模型量化,服務(wù)的時候是不是可以有大小模型的協(xié)同,甚至模型服務(wù)的新架構(gòu)等等。今后幾個月大家會聽到新技術(shù)的發(fā)布,把模型服務(wù)的成本降低。”
對于國內(nèi)外大模型的差距,周靖人坦言,仍需要奮頭直追。
“我們看到的業(yè)界情況,各種創(chuàng)業(yè)公司的模型,其實離OpenAI等頂級模型之間依然存在一些差距。這個競爭不僅僅是模型、算法,還包括背后云的能力、數(shù)據(jù)體系的能力,還有邏輯思維相關(guān)一系列能力的不斷迭代和發(fā)展。在這個階段,我們還有長足的距離需要去追趕。
周靖人進(jìn)一步補(bǔ)充道,“大模型領(lǐng)域你追我趕的過程剛剛開始,大家還是要有一些耐心,整個技術(shù)的發(fā)展需要時間。我們對整個行業(yè)還是非常期待,但真正要做到全球領(lǐng)先,還需要很多的工作,不斷地嘗試和努力。”