新京報(bào)貝殼財(cái)經(jīng)訊(記者羅亦丹)“相信我,這是你能用到的最強(qiáng)大的視覺(jué)生成模型?!?月15日,快手高級(jí)副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤在可靈2.0模型發(fā)布會(huì)上說(shuō)。
這是在可靈1.0發(fā)布10個(gè)月后,快手方面對(duì)可靈全系模型的一次重要升級(jí),包括文生圖視頻“可圖大模型2.0”,以及視頻生成大模型“可靈大模型2.0”。蓋坤介紹,可靈2.0模型在動(dòng)態(tài)質(zhì)量、語(yǔ)義響應(yīng)、畫(huà)面美學(xué)等維度,保持全球領(lǐng)先;可圖2.0模型在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升。
貝殼財(cái)經(jīng)記者注意到,可靈2.0還上線了一種可以將文字、圖片、短視頻甚至MMW等不同格式文件結(jié)合起來(lái)一起編輯的新交互模式“MVL(Multi-modal Visual Language直譯為多模態(tài)視覺(jué)語(yǔ)言)”。
據(jù)了解,當(dāng)前視頻生成主要分文生視頻和圖生視頻兩種,快手副總裁、可靈AI負(fù)責(zé)人張迪就披露,85%的視頻創(chuàng)作通過(guò)圖生視頻完成。有AI創(chuàng)作者告訴記者,當(dāng)前業(yè)界主流的視頻制作方式是首先通過(guò)文字生成圖片,再通過(guò)圖片生成視頻。
而在蓋坤的演示中,通過(guò)MVL方式,用戶(hù)能夠結(jié)合圖像參考、視頻片段等多模態(tài)信息,將腦海中的多維度復(fù)雜創(chuàng)意傳達(dá)給AI,而不僅僅是文字的提示語(yǔ)句。如下圖所示,用戶(hù)使用AI生成視頻時(shí),在提示詞中也可以?shī)A帶圖片或視頻。
快手高級(jí)副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤演示多模態(tài)交互方式。新京報(bào)貝殼財(cái)經(jīng)記者羅亦丹/攝
“我們的理念是致力于研發(fā)很強(qiáng)大的基礎(chǔ)模型,同時(shí)致力于定義一個(gè)人和AI更完備的溝通方式,而這背后,我們的愿景是讓每個(gè)人都能用AI講出好故事,希望這個(gè)愿望早日成真。”蓋坤說(shuō)。
編輯 陳莉 校對(duì) 柳寶慶