數發部:台灣主權AI訓練語料庫 拚下半年與民間合作中央社記者趙敏雅台北27日電 (2026-01-27 14:21:20)

台灣主權AI訓練語料庫上線逾1個月,數發部今天表示,政府機關持續新增內容,目前共逾3000筆資料集、超過11億詞元(Tokens),已有企業與學研界申請使用;第1季、第2季會邀集地方政府投入,目標今年下半年與民間團體合作。

數發部推動台灣主權AI訓練語料庫,第1階段以中央機關先行,收錄各機關具台灣文化特色的高品質資料集,涵蓋語言、文化、教育、生物、地理環境等領域,語料庫去年12月24日上線,AI模型訓練等需求者可上台灣主權AI訓練語料庫(https://taic.moda.gov.tw)申請。

數發部資料創新司司長莊明芬今天表示,中央機關持續上傳內容,提供高品質、具在地化特色的正體中文語料,語料庫詞元數量已翻倍成長,新增資料以文化、教育與歷史類為主,目前申請者多來自企業、學術界及大學。

莊明芬指出,數發部也與中研院、台灣文學館等單位洽談,未來希望資料量較豐沛的機關能進行盤點,釋出相關資料;地方政府擁有在地文化與歷史等內容,數發部預計第1季、第2季邀集地方政府投入,並將舉辦說明會向民間推廣,鼓勵民間主動參與,優先無償提供高品質語料,預計今年下半年與民間團體展開合作。

她也談及,在資料治理方面,政府資料開放平台運作至今已逾10年,累計超過5萬項資料集,資料可運用於多項創新應用。其中,「顯著有感地震報告」下載次數最高,累計近120萬次,其次為「小區域有感地震報告」,下載量累計逾62萬次。

另外,數發部數位政府司司長王誠明表示,今年起至民國119年,將推動智慧政府數位化精進發展計畫,由16個機關、31個子計畫組成,包含人工智慧(AI)試用場域與創新計畫、資料匯流、資料隱私強化等,預定投入經費約新台幣120億元,透過AI等技術驅動數位轉型,期盼增加便民服務並提升政府效能。

數發部說明,詞元(Token)簡單來說是AI模型的最小單位,AI不像人類可以一次讀完一句話再回應,而是一字字讀進去,再一字字產出。在這過程中,模型是以詞元(Token)為最小運算單位進行處理。
加密貨幣
比特幣BTC 69665.28 3,451.90 5.21%
以太幣ETH 2079.90 133.29 6.85%
瑞波幣XRP 1.46 0.10 7.19%
比特幣現金BCH 566.15 63.52 12.64%
萊特幣LTC 55.67 2.57 4.84%
卡達幣ADA 0.278506 0.01 5.41%
波場幣TRX 0.282371 0.00 0.94%
恆星幣XLM 0.170229 0.01 8.94%
投資訊息
相關網站
股市服務區
行動版 電腦版
系統合作: 精誠資訊股份有限公司
資訊提供: 精誠資訊股份有限公司
資料來源: 台灣證券交易所, 櫃買中心, 台灣期貨交易所
依證券主管機關規定,使用本網站股票、期貨等金融報價資訊之會員,務請詳細閱讀「資訊用戶權益暨使用同意聲明書」並建議會員使用本網站資訊, 在金融和投資等方面,能具有足夠知識及經驗以判斷投資的價值與風險,同時會員也同意本網站所提供之金融資訊, 係供參考,不能做為投資交易之依據;若引以進行交易時,仍應透過一般合法交易管道,並自行判斷市場價格與風險。
請遵守台灣證券交易所『交易資訊使用管理辦法』等交易資訊管理相關規定本資料僅供參考,所有資料以台灣證券交易所、櫃買中心公告為準。 因網路傳輸問題造成之資料更新延誤,精誠資訊不負交易損失責任。