教育學習

【書評】技術報告：《跨域趨勢－臺灣華語文語料庫與能力基準整合應用系統》書評

上稿時間：2023/05/08
撰稿人：陳冠榮編撰：陳冠榮

每種語言背後都有其道理跟脈絡，但母語使用者多半只知其然，不知其所以然，因此對母語使用者來說，「說」華語不難，難的是「教」。國教院建置的臺灣華語文語料庫與能力基準整合應用系統，就花了許多功夫來解決問題。

文／陳冠榮

記得十多年前，全臺各院校紛紛冒出「華語文教學」的相關課程、學程、學系等等，那時「華語熱」正開始席捲全球，起因來自千禧年後，中國的經濟實力、外交勢力，讓全世界開始注意到中國傳統文化的迷人，以及商業合作的可能，並且亟欲學習中文。隸屬中國國務院教育部的國家漢語國際推廣領導小組辦公室，自2004年開始，在全球開始設立、管理「孔子學院」，至今超過160個國家（地區）、500所、180萬學員加入其中，而臺灣也在這波熱潮下，投注了更多資源在華語文教育和推廣上，這不僅只是因為中國的崛起，而是整個華語文化圈，包含新加坡、馬來西亞以及臺灣本身，都開始認真面對地球村世界的來臨。

對於中文本來就是母語使用者的我們來說，「說」不是問題，「教」才是問題。每種語言的背後都有其道理跟脈絡，但母語使用者多半只知其然，不知其所以然，不過這也不妨礙日常溝通，只是當我們要跟非母語使用者解釋，這個詞為什麼這樣用的時候，常常就說不清了：「我們都這樣說」、「老師都這樣教」、「就是這樣」……這不要說說服別人，連自己的很難說服啊！

注意到了嗎？身為一個母語使用者在讀這段文字的時候，有些不太常用的詞語或構句，我們可以電光石火間梳理出正確、合理的意思，比如前面提到的「這不要說說服別人」，因為中文的特殊性，為理解文意，應該將前後文拆開，讀成：「不要說」、「說服」。構詞的最小單位可以為一個字，有時還可以同字不同詞，當然也就會有不同的語義、語法，甚至還能連著組合在一起，構成短語，再組合成一個完整的句子。前些年在網路上爆紅，逼死外國人的中文句子──「我也想過過過兒過過的生活。」便是如此，據說這個創作是網友從描寫楊過與小龍女的武俠經典小說《神鵰俠侶》中找到的靈感。這個句子對中文的母語使用者來說，乍看不知道在寫什麼，但一讀出來，就完全明朗了。第一個和第二個過是連在一起讀的，意思就是「過一過」（那樣的生活）；第三個過，指的是楊過，親暱一點叫這個名，就是「過兒」；後頭兩個過也是連在一起讀的，意思就是「經歷過」。事實上母語使用者只需多讀幾次，便會從自身的語料庫裡檢索篩選出能放在句中，且文義通達的用法，但這對非母語使用者卻不是這麼一回事。

網路上還流傳著這句的加強版，那可真叫外國人崩潰了：「我想過過過兒過過的生活，沒有過過過兒過過的生活，那就不叫過過生活。」這還是同音不同義的字，如果遇上不同音、不同義的字，連母語使用者都要想想怎麼讀了：「人要是行，幹一行行一行，一行行行行行，行行行幹哪行都行。要是不行，幹一行不行一行，一行不行行行不行，行行不行幹哪行都不行。」

這充分體現的「查中文詞典」不只是把字打進去這麼簡單而已！

「臺灣華語文語料庫與能力基準整合應用系統」花了許多功夫來解決檢索的問題，而且不只是單純的「查詞典」而已，藉由不同的指令，可以檢索一個中文字元或重複中文字元或搭配其他字元，當然也可以是多個中文字元搭配多個中文字元來檢索，並可以限制詞性，這麼一來就能更精準的搜索到需要的詞，並予以運用、分析，還可以搭配「國教院語義場關聯詞查詢系統」的語料庫、分級詞表及詞彙等級，來提取近義詞的辨析，不僅可使學習者觸類旁通，對於教學者、研究者來說，也是很好運用的一項工具，如果以後者的角度來運用這套系統，其語料庫的基礎本質，在統計及歸納的能力上，會使得教學者及研究者，更清楚的進行相關工作。比如在使用萬用字元或CQP語法檢索之後，便可在介面看到各項基礎資料，如：筆數、文本、百萬詞頻等，如要看更細緻的統計，也只要點入「再查詢」，就能看見「語料隨機取樣」（Thin）、「頻率列表」（Frequency breakdown）、「詞彙分布」（Distribution）、「按前後文排序」（Sort）、「搭配詞統計」（Collocation）、「下載查詢結果」（Download）、「樣本分類標記」（Categorise）、「儲存關鍵字」（Save current set of hits）。這些都能讓電腦運算，省下許多時間，其中還有一項很特別的功能，是「作文錯別字自動批改系統」，無論是身為國文老師、中文老師，還是華語老師，改作文真的是非常辛苦的工作，自電腦發明以後，近代科技趨勢也走向人工智慧的開發，目前這套系統在報告自述中表示：「經過實際的驗證，錯別字批改的正確率可以達到78%，為目前線上華語文錯字批改系統中正確率最高的系統。」雖然不能說就此省下了78%的時間，但近八成的正確率，也意味者某些較為固定、有正確解答，但校對費時的工作，已可由電腦系統幫教學者省去大半時間了！

聽起來這套系統功能相當之多，操作起來會不會很困難呢？我只能說不同的系統皆有其系統本身的操作方式，如何進行檢索不難，但要如何進行「有效的檢索」這便是使用者需要先花些功夫，了解此系統要如何使用，才能準確地找出自己需要的解答，但這也不必太煩心，畢竟語料庫系統仍舊是要給人來使用，各章節也都有介紹如何設定指令，比如在「CQP檢索語法使用」一節中就有不同的範例，如將具有名詞跟量詞特性的「頭」字，透過指令[word="頭"&pos="Nf"]，就能將其詞性限定為量詞，若再加上不同的條件，比如指令[word="頭"&pos="Nf"] [pos="Na"]，就能限定「頭」（量詞）後接「名詞」，簡單的說，透過越詳細的指令，便能搜索出越精確的結果，但報告中也說：「為了要得出更加精準的結果，語法指令也會更加的複雜。」的確很複雜，因為語言本身就不是一件簡單的事啊！

許多學習人文學科的人遇到理工學科，就一言不和，「這個我不會啦！」、「太複雜了！」、「學華語還要學資料庫喔？」其實這並非什麼新鮮事，但重點不在於「和不和」，而是「合不合」，前者是一種情緒，後者是一種智慧，如何更有效率、更有系統的將語言文字編纂成為學習工具，古代稱為字書、辭書，現在我們則習慣稱為字典、辭典，不知道意思，就查字典、辭典，而隨著時代越來越進步，工具書都可以上網，進行電子檢索，只是當學習語言文字，又要借用資訊工程的工具時，就會讓學語言的人有些滯礙，其實資訊工程使用的也是語言──計算機語言，我們只要把其背後的邏輯弄懂了，就能運用不同的工具，進入「分級標準檢索系統」、「例句編輯輔助系統」，運用「雙語對照例句」、「語詞對應翻譯」、「搭配詞語的功能」……等等，都讓我們在學習、教學、研究上能事半功倍。

【書評】技術報告：《跨域趨勢－臺灣華語文語料庫與能力基準整合應用系統》書評

相關書籍