首页幣資訊正文

從「詞元」到「符元」：Token 中文譯名之認知爭辯

幣資訊 2026-04-10 5

近日，全國科學技術名詞審定委員會公告推薦將人工智慧領域中的「Token」譯為「詞元」，並面向社會試用。隨後，《人民日報》刊發〈專家解讀 token 中文名為何定為「詞元」〉一文，從專業角度系統闡釋此一命名依據。

文中指出，「token」一詞源於古英語 tācen，意為「符號」或「標記」；在語言模型中，token 是文本經切分或位元組級編碼後所得之最小離散單元，可表現為詞、子詞、詞綴或字元等不同形式；模型即透過對 token 序列的建模展現初步智能能力。

該譯名在專家論證中被認為符合單義性、科學性、簡明性與協調性原則，亦具一定中文使用基礎。然而，若從計算本體、資訊結構、多模態演進及回譯一致性等維度深入檢視，其長期適配性仍存疑問。在此背景下，另一替代譯名——「符元」——正因其更強之結構一致性與跨語境穩定性，日益受到學界關注。

一、「詞元」混淆歷史路徑與結構本體

有觀點主張：Token 在 NLP 中初始角色為「語言基本語義單元」，故「詞元」貼近其本質。此說雖具歷史合理性，卻忽略當代技術已發生範式躍遷——Token 早已超越純文字處理，成為統一表徵文本、圖像、語音乃至物理信號的基礎計算單元。

其真實結構本體是「離散符號單元」（discrete symbolic unit），而非侷限於語言模態的「詞」。若依「初始應用場景」定名，則「Computer」應稱「電子計算手」，「Internet」應稱「冷戰軍用網」——此類命名僅捕捉技術的臨時職能，遮蔽其跨越時代的物理本體。

歷史路徑不等同於本質屬性。「符元」直指 Token 的跨模態符號本體，定義的不是它的「過去」，而是它的「真相」。

二、類比不可取代定義

部分解讀援引「詞雲」「詞袋」等語言學類比，將多模態離散單元理解為「廣義的詞」。此類比喻有助於初階理解，但若升格為命名依據，將導致概念邊界模糊與語義漂移。

「類比」旨在降低認知門檻，「定義」則須嚴謹劃定語義疆界。當「詞」被擴充至涵蓋圖像塊（patch）、語音片段、向量表示（embedding）乃至感知訊號時，其原有語言屬性已被大幅稀釋，語義錨點逐漸失焦。

舉例而言：科普中可將燈泡喻為「人造太陽」，但絕不會因此將電流單位「安培」改稱「光元」——前者為描述性隱喻，後者屬標準化度量定義，二者不可混同。

Token 已深度嵌入算力計費、模型訓練與學術度量體系，日均調用量達百億至萬億級。其命名承載的不僅是解釋功能，更是工程實踐與國際標準的基礎語義錨點。「符」作為中性、抽象、跨模態兼容的概念，無需額外解釋即可涵蓋多元資訊形態，因而「符元」在本體對齊上更具優勢。

三、語義锚定帶來系統性誤解

支持「詞元」者常強調其簡潔、符合中文習慣、易於傳播。然此判斷預設公眾能自然接受「詞」的跨模態延伸，卻忽視認知心理學的基本事實：「詞」對大眾而言具有極強的語義錨定效應——直覺必然指向語言系統，而非圖像、聲音或動作。

一旦「詞」被賦予廣義解釋，用戶首先建立的是「詞＝語言單位」的錯誤直覺，而非「跨模態符號單元」的抽象框架。此類誤解非個案，而是由術語本身誘發的系統性偏差。

例如媒體報導「模型使用 10 萬億詞元訓練」，公眾極易解讀為「閱讀大量文本」，忽略其中包含海量圖像、語音等非語言資料。在工程實務中，視覺或語音模型內的離散單元若稱「詞」，亦易引發跨領域溝通摩擦。

「符」語義中性，不預先鎖定語言層級，雖初始理解門檻略高，卻有利於建構長期穩定、統一的認知框架，從根本降低整體解釋成本。

四、「單義性」幻覺：一詞兩義的風險

「詞元」在傳統語言學與 NLP 領域已有明確所指：對應英文 lemma，即詞的規範原形（如 is/am/are 的詞元為 be）。此用法在教材與論文中已成共識。

若將 Token 同樣譯作「詞元」，將造成災難性語義衝突。例如描述「NLP 中的詞形還原操作（lemmatize a token）」，中文即變成「對『詞元』進行『詞元化』」——既拗口，又使讀者無法分辨「詞元」究竟指離散切分單元，抑或詞的規範原形。

lemma 強調「還原」（語義層），token 強調「切分」（符號層），二者功能與維度截然不同。當一術語須仰賴語境解釋方能區辨含義，其實質已喪失「單義性」，淪為「解釋層面的統一」，而非「語義層面的穩定」。

「符元」在現有術語體系中無語義重疊，既保留 Token 的離散符號本體，亦避開與 lemma 的譯名衝突，語義清晰性與體系一致性俱佳。

五、回歸計算本體：Token 是「符號」，不是「詞」

從資訊理論與計算理論觀之，計算系統處理的基本對象並非「詞」，而是「符號」（symbol）。資訊本質在於消除不確定性，其度量單位為位元（bit），承載實體即離散符號——符號本身不負載語義，僅關聯機率分佈與編碼結構。

大模型底層並不「識字」，其運算對象為離散索引（ID）：無論該 ID 對應漢字、圖像塊或音頻取樣點，在計算流程中皆以統一符號形式參與運算。Token 的本體位置在「符號層」，不在「語義層」。

「詞元」命名隱含語言中心主義導向，易模糊「符號計算」與「語義理解」之界限；「符元」則穩守符號層，準確反映其作為離散符號的計算屬性，亦避免將語義特徵不當引入本體定義，更契合資訊論與計算理論之基本架構。

六、回譯失效：跨語言映射的斷裂危機

衡量科技術語生命力，不僅看其中文表意能力，更須檢視其國際學術語境中的穩定映射能力。理想術語應具備「可逆性」：中英文之間語義一致往返。

「詞元」回譯缺乏唯一清晰路徑：還原為英文時，可能歧出為 word unit（無嚴格定義）、morpheme（語素）、lexeme（詞位）等，均無法精準覆蓋 Token 在計算語境下的完整內涵，反致範疇偏移。

「符元」則可自然對應 symbolic unit（符號單元），此概念於資訊理論、離散數學與多模態表徵領域均有明確理論基礎與穩定用法，中英文間易形成一對一映射，大幅提升國際學術交流效率與準確性。

七、統一≠同形：結構一致才是真統一

有觀點指出「詞元」與「嵌入」「注意力」等術語風格一致，簡潔抽象，符合中文技術語境。然術語體系之真正統一，應奠基於「概念同構」，而非表面「語言同形」。

「嵌入」直指向量映射機制，「注意力」直指權重分配機制，二者命名皆緊扣計算本質；「詞元」則屬解釋性命名，其合理性高度依賴「廣義詞」之類比框架——脫離解釋，即無自洽結構指向。

當「嵌入」「注意力」「詞元」並列出現，易製造「概念同層」錯覺；實則前二者為機制，後者為對象；前二者具嚴格定義，後者須仰賴語境說明。此類結構不對齊，將在認知體系中埋下隱性斷裂。

「符元」直接指向計算系統最基礎對象——符號（symbol），無需類比即可跨語境穩定運作。優良術語讓解釋逐漸消失，劣質術語令註釋不斷累積；當基礎概念偏離結構本體，整個術語體系便只能倚賴解釋支撐，而難以憑定義自洽。

結語：命名即塑形認知

術語選擇不僅是語言問題，更是對一個領域認知結構的早期塑形。若初始命名偏離其計算本體，後續體系將被迫持續透過解釋彌合裂隙，難以建構自洽的概念網絡。

在人工智慧邁向通用化與多模態融合的關鍵階段，一個能對齊計算本體、具備跨語境穩定性、兼顧技術嚴謹與認知清晰的術語，方能成為長效可靠的認知基石。「符元」以「符號單元」為核心，正展現出更均衡、更具未來適配性的譯名潛力。

Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 26291201 bytes) in /www/wwwroot/www_gamepluse_com/zb_system/function/lib/thumb.php on line 414