Page 81 - 《toʉsvʉsvʉtʉ談論雜誌》4
P. 81
研究發展類 tuop’opa ho moemo’ausna
kemulikuz tu mezukat ti ya AI padames 隨著生成式 AI 技術突破性發展,
ti nengi paqeRaya tu senangian, padames 特別是以大型語言模型(LLM)為基礎
azuan na tu Raya ay qizuanan na sikawman 的 ChatGPT 的出現,為族語復振帶來
pazukat tu ChatGPT “qizuanan na sidadak 了新的想像與可能性。然而,要建置
kikay uwangcun” , manmu mazas paseRuz
tu sikawman tasu ay kenasianeman seRay 族語 AI 系統,首要面對的挑戰便是
pasi maken qanengi. wanayka, ngid paqiRi 語料的蒐集與整理。
tu AI, munna sapatungayawan simsukasan
tu nisapunan seRay nipasayan tu sikawman.
tuRangan paqemuwaza tu sikawman,
paqeseR tu nipaqiRian tu AI
充實語料,奠定 AI 基礎
hucuzen na pakingkiwan paqeRayan maqezi ta paqiRian tu nebian tu
na yenihuy ti Akiw temanhulam paqanas sikawman na yencumin siangatu, taninian
semanu, tangi yau ti ay AI keci, azu ay maRemaq anem na ngid qalazuk
qanengi muwaza nipazukatan qasemin mesuppaR tu sikawman, siangatu paqiRi
ya sikawman semangi tu qateteReq ay semangi tu daiyungan, wanayka padames
sinanaman, qanengi ti paqiRi tu azu semanu ti Akiw, kelawkawayan na nebian
AI ay qaRaya senangian tu sikawman, tu sikawman, yau a pasayan tu sikawman
“wamayka, ngid sapunan tu sikawman seRay pakinsan tu maqezaq uu qemuni,
na yencumin mai pamamangan, ta mai muman nani kisasan na menebi ya sikawman
qasemin ya sikawman, maqezaq ay umanan na tu “qanengi liyaman na kikay
sikawman qaninanan ma pasinanam tu ay sikawman” , zau nani qalabutan ay
AI, Raqana paqiRi ya yenihuy tu nebian kelawkawayan, azu “ta lawlawan menebi tu
tu sikawman na yencumin nazau ya sikawman na paRin” saqayaw ay nisapunan
anem sasiangatuan qaya.” na tu sikawman seRay nipaqiRi na tu
sikawman, meniz melaziw tu ulima tasawan.
原語會研究發展組副主任 Akiw
徐中文表示,以現有的 AI 技術來說, 自族語資料庫建置以來,各界都滿
如果能提供機器大量且足夠的語料進 懷期待能盡快取得語料,進行後續的開
行深度學習,就能建置 AI 語言模型, 發應用,但 Akiw 強調,資料庫的基礎
「但族語語料的蒐集取得並不容易, 工作,包括語料的整理和校對,並且需
在語料不足的情形下,語料的正確性 將語料格式再轉化成「可機讀語料」,
對 AI 訓練相對來說比較重要,因此也 是一項繁複且耗時的任務,如「臺灣客
是原語會建置族語資料庫的初衷。」 語語料庫」第一階段的語料蒐集及語料
庫建置,便花費了至少 5 年的時間。
79

