從「詞元」到「符元」:Token 中文譯名之認知爭辯
近日,全國科學技術名詞審定委員會公告推薦將人工智慧領域中的「Token」譯為「詞元」,並面向社會試用。隨後,《人民日報》刊發〈專家解讀 token 中文名為何定為「詞元」〉一文,從專業角度系統闡釋此一命名依據。

文中指出,「token」一詞源於古英語 tācen,意為「符號」或「標記」;在語言模型中,token 是文本經切分或位元組級編碼後所得之最小離散單元,可表現為詞、子詞、詞綴或字元等不同形式;模型即透過對 token 序列的建模展現初步智能能力。
該譯名在專家論證中被認為符合單義性、科學性、簡明性與協調性原則,亦具一定中文使用基礎。然而,若從計算本體、資訊結構、多模態演進及回譯一致性等維度深入檢視,其長期適配性仍存疑問。在此背景下,另一替代譯名——「符元」——正因其更強之結構一致性與跨語境穩定性,日益受到學界關注。
一、「詞元」混淆歷史路徑與結構本體
有觀點主張:Token 在 NLP 中初始角色為「語言基本語義單元」,故「詞元」貼近其本質。此說雖具歷史合理性,卻忽略當代技術已發生範式躍遷——Token 早已超越純文字處理,成為統一表徵文本、圖像、語音乃至物理信號的基礎計算單元。
其真實結構本體是「離散符號單元」(discrete symbolic unit),而非侷限於語言模態的「詞」。若依「初始應用場景」定名,則「Computer」應稱「電子計算手」,「Internet」應稱「冷戰軍用網」——此類命名僅捕捉技術的臨時職能,遮蔽其跨越時代的物理本體。
歷史路徑不等同於本質屬性。「符元」直指 Token 的跨模態符號本體,定義的不是它的「過去」,而是它的「真相」。
二、類比不可取代定義
部分解讀援引「詞雲」「詞袋」等語言學類比,將多模態離散單元理解為「廣義的詞」。此類比喻有助於初階理解,但若升格為命名依據,將導致概念邊界模糊與語義漂移。
「類比」旨在降低認知門檻,「定義」則須嚴謹劃定語義疆界。當「詞」被擴充至涵蓋圖像塊(patch)、語音片段、向量表示(embedding)乃至感知訊號時,其原有語言屬性已被大幅稀釋,語義錨點逐漸失焦。
舉例而言:科普中可將燈泡喻為「人造太陽」,但絕不會因此將電流單位「安培」改稱「光元」——前者為描述性隱喻,後者屬標準化度量定義,二者不可混同。
Token 已深度嵌入算力計費、模型訓練與學術度量體系,日均調用量達百億至萬億級。其命名承載的不僅是解釋功能,更是工程實踐與國際標準的基礎語義錨點。「符」作為中性、抽象、跨模態兼容的概念,無需額外解釋即可涵蓋多元資訊形態,因而「符元」在本體對齊上更具優勢。
三、語義锚定帶來系統性誤解
支持「詞元」者常強調其簡潔、符合中文習慣、易於傳播。然此判斷預設公眾能自然接受「詞」的跨模態延伸,卻忽視認知心理學的基本事實:「詞」對大眾而言具有極強的語義錨定效應——直覺必然指向語言系統,而非圖像、聲音或動作。
一旦「詞」被賦予廣義解釋,用戶首先建立的是「詞=語言單位」的錯誤直覺,而非「跨模態符號單元」的抽象框架。此類誤解非個案,而是由術語本身誘發的系統性偏差。
例如媒體報導「模型使用 10 萬億詞元訓練」,公眾極易解讀為「閱讀大量文本」,忽略其中包含海量圖像、語音等非語言資料。在工程實務中,視覺或語音模型內的離散單元若稱「詞」,亦易引發跨領域溝通摩擦。
「符」語義中性,不預先鎖定語言層級,雖初始理解門檻略高,卻有利於建構長期穩定、統一的認知框架,從根本降低整體解釋成本。
四、「單義性」幻覺:一詞兩義的風險
「詞元」在傳統語言學與 NLP 領域已有明確所指:對應英文 lemma,即詞的規範原形(如 is/am/are 的詞元為 be)。此用法在教材與論文中已成共識。
若將 Token 同樣譯作「詞元」,將造成災難性語義衝突。例如描述「NLP 中的詞形還原操作(lemmatize a token)」,中文即變成「對『詞元』進行『詞元化』」——既拗口,又使讀者無法分辨「詞元」究竟指離散切分單元,抑或詞的規範原形。
lemma 強調「還原」(語義層),token 強調「切分」(符號層),二者功能與維度截然不同。當一術語須仰賴語境解釋方能區辨含義,其實質已喪失「單義性」,淪為「解釋層面的統一」,而非「語義層面的穩定」。
「符元」在現有術語體系中無語義重疊,既保留 Token 的離散符號本體,亦避開與 lemma 的譯名衝突,語義清晰性與體系一致性俱佳。
五、回歸計算本體:Token 是「符號」,不是「詞」
從資訊理論與計算理論觀之,計算系統處理的基本對象並非「詞」,而是「符號」(symbol)。資訊本質在於消除不確定性,其度量單位為位元(bit),承載實體即離散符號——符號本身不負載語義,僅關聯機率分佈與編碼結構。
大模型底層並不「識字」,其運算對象為離散索引(ID):無論該 ID 對應漢字、圖像塊或音頻取樣點,在計算流程中皆以統一符號形式參與運算。Token 的本體位置在「符號層」,不在「語義層」。
「詞元」命名隱含語言中心主義導向,易模糊「符號計算」與「語義理解」之界限;「符元」則穩守符號層,準確反映其作為離散符號的計算屬性,亦避免將語義特徵不當引入本體定義,更契合資訊論與計算理論之基本架構。
六、回譯失效:跨語言映射的斷裂危機
衡量科技術語生命力,不僅看其中文表意能力,更須檢視其國際學術語境中的穩定映射能力。理想術語應具備「可逆性」:中英文之間語義一致往返。
「詞元」回譯缺乏唯一清晰路徑:還原為英文時,可能歧出為 word unit(無嚴格定義)、morpheme(語素)、lexeme(詞位)等,均無法精準覆蓋 Token 在計算語境下的完整內涵,反致範疇偏移。
「符元」則可自然對應 symbolic unit(符號單元),此概念於資訊理論、離散數學與多模態表徵領域均有明確理論基礎與穩定用法,中英文間易形成一對一映射,大幅提升國際學術交流效率與準確性。
七、統一≠同形:結構一致才是真統一
有觀點指出「詞元」與「嵌入」「注意力」等術語風格一致,簡潔抽象,符合中文技術語境。然術語體系之真正統一,應奠基於「概念同構」,而非表面「語言同形」。
「嵌入」直指向量映射機制,「注意力」直指權重分配機制,二者命名皆緊扣計算本質;「詞元」則屬解釋性命名,其合理性高度依賴「廣義詞」之類比框架——脫離解釋,即無自洽結構指向。
當「嵌入」「注意力」「詞元」並列出現,易製造「概念同層」錯覺;實則前二者為機制,後者為對象;前二者具嚴格定義,後者須仰賴語境說明。此類結構不對齊,將在認知體系中埋下隱性斷裂。
「符元」直接指向計算系統最基礎對象——符號(symbol),無需類比即可跨語境穩定運作。優良術語讓解釋逐漸消失,劣質術語令註釋不斷累積;當基礎概念偏離結構本體,整個術語體系便只能倚賴解釋支撐,而難以憑定義自洽。
結語:命名即塑形認知
術語選擇不僅是語言問題,更是對一個領域認知結構的早期塑形。若初始命名偏離其計算本體,後續體系將被迫持續透過解釋彌合裂隙,難以建構自洽的概念網絡。
在人工智慧邁向通用化與多模態融合的關鍵階段,一個能對齊計算本體、具備跨語境穩定性、兼顧技術嚴謹與認知清晰的術語,方能成為長效可靠的認知基石。「符元」以「符號單元」為核心,正展現出更均衡、更具未來適配性的譯名潛力。
Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 26291201 bytes) in /www/wwwroot/www_gamepluse_com/zb_system/function/lib/thumb.php on line 414
