一個詞元的神奇旅程(延伸閱讀)
2026年04月03日08:02 | 來源:人民網-人民日報
訂閱已訂閱已收藏
收藏每次與人工智能對話時,你有沒有好奇過:冰冷的數據如何變成鮮活、智能的內容?要搞懂這背后的門道,得先了解詞元是如何“流動”的。
對人工智能來說,詞元就像一位“翻譯員”,在人類語言和機器數字之間搭起橋梁。所有喂給人工智能的數據,都需要先按規則切分成獨立的詞元,再轉換為數字編碼,才能被人工智能識別。比如你輸入“春節包餃子”,人工智能會切分為“春節/包/餃子”三個詞元,再從“字典”中找到匹配的編碼。
要想大規模批量處理這些詞元,離不開一座“詞元工廠”——數據中心。人工智能正式上崗前,需要經歷一個訓練的過程:數據中心消耗大量電力,開動算力引擎,把數十萬億級的詞元源源不斷地喂給人工智能。它要做的是挖掘並記住詞元間的關聯關系,比如當“春節/包/餃子”出現時,人工智能就能聯想到在學習材料中常與它們同框出現的“北方”和“傳統”等詞元。這些從海量詞元中沉澱下來的經驗,就是我們感知到的“智能”。
等到你向人工智能提問時,工廠再次運轉。問題被切分成詞元送給人工智能,龐大的算力群隨即驅動它進行一場“文字接龍”,也就是推理。人工智能根據輸入的詞元,依據之前學到的經驗規律,逐次預測下一個最可能出現的詞元,一步步拼接出完整內容,再翻譯回人類文字,於是屏幕上便躍出那句:“春節包餃子是北方的傳統。”
跳動的詞元背后是生產力的躍遷,使得人工智能可以從海量的數據中發現其中深層的關聯規律,極大地拓展了數據價值挖掘的空間。也正是一個個小小的詞元,串聯起數據與智能的橋梁,不僅讓數據擁有了溫度,也讓人工智能的每一次回應,都成為數據價值釋放的生動實踐。
(作者為國家數據發展研究院副院長,本報記者王雲杉採訪整理)
《 人民日報 》( 2026年04月03日 06 版)
(責編:邢鄭、孫娜)
分享讓更多人看到
- 評論
- 關注



































第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量