首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
- 經濟 · 科技
- 社會 · 法治
- 文旅 · 體育
- 健康 · 生活
- 國際
- 軍事
- 港澳
- 台灣
- 教育
- 科普
觀點
互動
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陝
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網站
舉報專區
登錄

退出

人民網>>科普中國

生成文本、圖像、音頻、視頻……

2024年生成式人工智能進化成什麼樣了？

記者陳斯

2024年04月15日07:42 | 來源：北京青年報

小字號

自從人工智能技術開始涉足內容生產領域，通過算法和模型來生成文本、圖像、音頻等內容后，2024年王炸產品Sora的問世再度席卷視頻領域。

游戲中出現可互動的智能NPC（游戲中非玩家操控的游戲角色）、輸入文本可一鍵生成包括配音、字母的一段短視頻……得益於硬件算力的提升，AIGC（生成式人工智能）的核心算法和大模型訓練水平也在不斷提高，能夠更好地落地至應用或場景中。

盡管AIGC在互動行業的應用已經取得了巨大成功，但仍然存在一些挑戰和問題，法律風險和版權爭議仍然是需要不斷調整和完善的問題。

想象力轉化為動態畫面 AI開啟全新視覺敘事時代

上個世紀50年代，AI（人工智能）出現，隨著計算機技術的不斷進步和軟件算法的不斷優化，人工智能技術逐漸成為了當今科技領域的熱門話題和應用領域。互聯網的內容生產模式也逐漸經歷了三個發展階段：PGC（專家生產內容）、UGC（用戶生產內容）和AIGC（AI生產內容）。

到了2023年，以AIGC為代表的一系列技術創新再次燃起技術革命產業賦能和科技創新創業的熱情，人們見証了文生文、文生圖的進展速度。AIGC相關應用以驚人的速度滲透到各個國家，各個行業，各種場景和領域，新技術的有效性已經在多個領域被驗証和確認，人們有機會以全新的生產方式和生產關系完成現有的工作和任務。

2024年開年，OpenAI發布了王炸文生視頻大模型Sora，它僅僅根據提示詞，就能夠生成60s的連貫視頻，“碾壓”了行業目前大概隻有平均“4s”的視頻生成長度。

可以說，Sora的出現，預示著一個全新的視覺敘事時代的到來，它能夠將人們的想象力轉化為生動的動態畫面，將文字的魔力轉化為視覺的盛宴。在這個由數據和算法編織的未來，以Sora為代表的AIGC，正以其獨特的方式，重新定義著人們與數字世界的互動。

滲透醫療金融駕駛多領域 AI或將成為基礎設施

AIGC交互界面的用戶友好性、大模型開源及API（應用程序編程接口）價格的降低、插件服務帶來的應用生態繁榮等，都使得AI技術或將成為像水、電、網絡一樣的基礎設施，滲透並改變千行萬業。根據愛設計等多平台聯合發布的《2024年AIGC發展趨勢報告》，在醫療領域，AI的應用已能夠精准輔助診斷，例如Google Health的深度學習模型，在乳腺癌篩查中的准確率已超越人類專家。利用強大的圖像識別和模式分析能力，這些模型可以從成千上萬的X光片中識別出極易被人眼忽視的細微變化。

金融領域也經歷了由AI推動的變革。金融機構利用復雜的算法來預測市場趨勢、管理風險，甚至自動執行交易。機器學習技術能夠分析大規模的歷史數據，識別出人類難以察覺的模式。例如，通過深度學習，AI可以在高頻交易中捕捉到微小的市場變化，並在毫秒級做出反應，這是任何人類交易者所無法比擬的。

自動駕駛領域的AI應用，展示了AI能夠在高度復雜和動態的環境中執行任務的能力。特斯拉的Autopilot、谷歌的Waymo，這些自動駕駛系統使用了先進的傳感器陣列和AI算法，實現了車輛的自主導航和決策。它們的表現日益接近人類駕駛者，甚至在某些情境下超越了人類。

在娛樂和創意產業中，AI也為人類的創造力打開了新的維度。OpenAI的DALL·E能夠根據簡短的文本描述生成驚人的圖像作品，AI音樂程序能夠創作出動聽的旋律。這些AI工具不僅激發了創作者的靈感，也改變了藝術創作的方式。AI的這一創造性成果是前所未有的，它為人類文化的多樣性貢獻了新的元素。

AI“擅長”生產虛擬內容互動娛樂行業出現重大變革

以生產虛擬內容為主的互動娛樂行業受到了來自AIGC的強大影響。點點數據一份關於AIGC對互動娛樂行業影響趨勢的洞察報告認為，以游戲、視頻、網文、音頻等為主的互動娛樂行業，不僅在內容的生產方式上受AIGC影響產生了結構性的變化，並且內容本身的呈現形式也將出現巨大變革。

該報告列舉的案例中，國內一款結合AIGC功能打造的手機游戲《逆水寒》中首次出現了“智能NPC”。NPC之間會自主地產生交互，且不僅僅是隻限於文本內容的聊天，而是包含移動、送禮、交易，甚至決斗等行為，並且過程中玩家也可以隨時加入互動，從而影響NPC的行為。更讓玩家意外的是，NPC是具備“記憶”的。如果你對NPC示好，在下一次碰見時，他可能會主動叫住你，和你說一些悄悄話，或就之前的事情再次與你相聊甚歡﹔而如果玩家與NPC交惡，那NPC也會拒絕和玩家多聊天，甚至一言不合還會兵刃相見。

而游戲中除了智能NPC以外，NPC語音生成、NPC說話口型、玩家創建角色一鍵捏臉（輸入文本即可生成臉型）等系統，也都深度結合了AIGC功能，並為游戲貢獻了非常高的玩家粘性和話題熱度。

另外一款國產熱門游戲《蛋仔派對》，在2023年6月周年慶版本的更新中，新增了創意工坊“生成器”功能，提供了圖片牆（上傳的圖片自動生成像素圖）、像素文字（輸入文字生成像素圖）、花朵（輸入參數批量生成花朵）三類生成功能。而隨著后續的版本更新，生成器的功能也在不斷增加和完善，特別是去年12月更新的“萬能生成器”，更是再次突破了UGC創作上限。玩家隻需輸入提示詞，就能在游戲內直接生成對應的物品，並布置到場景之中。

被短視頻制作者熟知的“剪映”App，已可以提供從文案編輯、一鍵成文、視頻生成、AI作圖到最終剪輯成片的一站式服務，包括：基於用戶輸入的主題和內容要點生成文案﹔根據文案內容一鍵生成視頻並包含配音字幕等基礎視頻內容﹔用戶輸入提示詞即可生成視頻內需要的畫面和動圖﹔內置AI寫真、AI特效、AI作圖等功能方便用戶自制素材﹔人聲美化功能幫助用戶生成個人的音頻數字分身等等。這些功能都深度結合了AIGC，即提高了創作效率，也下放了創作門檻。從實際效果來看，雖然單個功能的效果可能目前很難以與ChatGPT、Midjourney、Stable Diffusion等專業的圖文生成軟件相媲美，但其提供的資源整合性、使用便利性以及生成素材直接用於視頻剪輯的一致性，讓用戶在使用過程中的實際體驗流暢且高效。

AI發展應尊重人類價值法律法規不斷完整完善

需要警醒的是，AI在特定領域中的成功，也揭示了其所面臨的限制。隨著AI從實驗室研究走向現實場景這一過程的推進，技術、法規、倫理以及社會接受度的挑戰逐漸浮現。要充分發揮AI的潛能，需要在這些方面尋找平衡，以確保AI技術能夠在尊重人類價值的同時，推動社會進步。

隨著越來越多的內容由AIGC生成，內容的准確性和可信度也就成為接下來的關鍵問題。可以預見，在未來，AIGC將會引入更多的算法和機制，以應對虛假信息、抄襲和其他違規行為的挑戰，確保生成內容的真實性、合法性。

企業層面，例如游戲和軟件平台Steam在2024年1月10日發布最新公告，對“AIGC+游戲”的態度做了大幅調整。將涉及AIGC的游戲分為了“預生成內容”和“實時生成內容”兩個大類，無論哪一類開發者都需要提交相關內容來闡述AIGC在游戲開發和運行過程中是如何被運用的，並且這些信息也會披露給玩家。與此同時，玩家也可以在游戲中隨時就AIGC相關內容進行舉報。這是首次由頭部游戲平台公開發表並明確對涉及AIGC相關產品的態度。

除了類似Steam這樣的平台在不斷調整策略外，全球各國在法律層面也在不斷完善相關法律法規。就互娛產品中最常見的圖片內容來看，韓國發布的《生成式AI著作權指南》，明確AIGC內容不受版權保護﹔而美國政府則認為由AIGC直接生成的作品不受法律保護，但通過與AIGC合作、並體現了人類創意成果的作品，是可以獲得版權保護的。

在我國，2023年7月13日，國家網信辦等七部門聯合發布《生成式人工智能服務管理暫行辦法》，旨在促進生成式人工智能的健康發展和規范應用，維護國家安全和社會公共利益，保護公民、法人和其他組織的合法權益。北京、上海等地也相繼出台相關規范和條例。

目前，關於AI的合規問題主要涉及數據、AI產品、個人服務和行業應用。國際數據公司IDC指出，在法律法規的框架下，所有大模型和AI生態廠商都必須認真對待新一代人工智能產業中的合法合規問題，特別是通過算法模型的優化，增強人工智能的可解釋性。