:::
教育學習

【書評】技術報告:《跨域趨勢-臺灣華語文語料庫與能力基準整合應用系統》書評

 上稿時間:2023/05/08   
撰稿人:陳冠榮     編撰:陳冠榮
【書評】技術報告:《跨域趨勢-臺灣華語文語料庫與能力基準整合應用系統》書評

每種語言背後都有其道理跟脈絡,但母語使用者多半只知其然,不知其所以然,因此對母語使用者來說,「說」華語不難,難的是「教」。國教院建置的臺灣華語文語料庫與能力基準整合應用系統,就花了許多功夫來解決問題。

文/陳冠榮

記得十多年前,全臺各院校紛紛冒出「華語文教學」的相關課程、學程、學系等等,那時「華語熱」正開始席捲全球,起因來自千禧年後,中國的經濟實力、外交勢力,讓全世界開始注意到中國傳統文化的迷人,以及商業合作的可能,並且亟欲學習中文。隸屬中國國務院教育部的國家漢語國際推廣領導小組辦公室,自2004年開始,在全球開始設立、管理「孔子學院」,至今超過160個國家(地區)、500所、180萬學員加入其中,而臺灣也在這波熱潮下,投注了更多資源在華語文教育和推廣上,這不僅只是因為中國的崛起,而是整個華語文化圈,包含新加坡、馬來西亞以及臺灣本身,都開始認真面對地球村世界的來臨。

對於中文本來就是母語使用者的我們來說,「說」不是問題,「教」才是問題。每種語言的背後都有其道理跟脈絡,但母語使用者多半只知其然,不知其所以然,不過這也不妨礙日常溝通,只是當我們要跟非母語使用者解釋,這個詞為什麼這樣用的時候,常常就說不清了:「我們都這樣說」、「老師都這樣教」、「就是這樣」……這不要說說服別人,連自己的很難說服啊!

注意到了嗎?身為一個母語使用者在讀這段文字的時候,有些不太常用的詞語或構句,我們可以電光石火間梳理出正確、合理的意思,比如前面提到的「這不要說說服別人」,因為中文的特殊性,為理解文意,應該將前後文拆開,讀成:「不要說」、「說服」。構詞的最小單位可以為一個字,有時還可以同字不同詞,當然也就會有不同的語義、語法,甚至還能連著組合在一起,構成短語,再組合成一個完整的句子。前些年在網路上爆紅,逼死外國人的中文句子──「我也想過過過兒過過的生活。」便是如此,據說這個創作是網友從描寫楊過與小龍女的武俠經典小說《神鵰俠侶》中找到的靈感。這個句子對中文的母語使用者來說,乍看不知道在寫什麼,但一讀出來,就完全明朗了。第一個和第二個過是連在一起讀的,意思就是「過一過」(那樣的生活);第三個過,指的是楊過,親暱一點叫這個名,就是「過兒」;後頭兩個過也是連在一起讀的,意思就是「經歷過」。事實上母語使用者只需多讀幾次,便會從自身的語料庫裡檢索篩選出能放在句中,且文義通達的用法,但這對非母語使用者卻不是這麼一回事。

網路上還流傳著這句的加強版,那可真叫外國人崩潰了:「我想過過過兒過過的生活,沒有過過過兒過過的生活,那就不叫過過生活。」這還是同音不同義的字,如果遇上不同音、不同義的字,連母語使用者都要想想怎麼讀了:「人要是行,幹一行行一行,一行行行行行,行行行幹哪行都行。要是不行,幹一行不行一行,一行不行行行不行,行行不行幹哪行都不行。」

這充分體現的「查中文詞典」不只是把字打進去這麼簡單而已!

「臺灣華語文語料庫與能力基準整合應用系統」花了許多功夫來解決檢索的問題,而且不只是單純的「查詞典」而已,藉由不同的指令,可以檢索一個中文字元或重複中文字元或搭配其他字元,當然也可以是多個中文字元搭配多個中文字元來檢索,並可以限制詞性,這麼一來就能更精準的搜索到需要的詞,並予以運用、分析,還可以搭配「國教院語義場關聯詞查詢系統」的語料庫、分級詞表及詞彙等級,來提取近義詞的辨析,不僅可使學習者觸類旁通,對於教學者、研究者來說,也是很好運用的一項工具,如果以後者的角度來運用這套系統,其語料庫的基礎本質,在統計及歸納的能力上,會使得教學者及研究者,更清楚的進行相關工作。比如在使用萬用字元或CQP語法檢索之後,便可在介面看到各項基礎資料,如:筆數、文本、百萬詞頻等,如要看更細緻的統計,也只要點入「再查詢」,就能看見「語料隨機取樣」(Thin)、「頻率列表」(Frequency breakdown)、「詞彙分布」(Distribution)、「按前後文排序」(Sort)、「搭配詞統計」(Collocation)、「下載查詢結果」(Download)、「樣本分類標記」(Categorise)、「儲存關鍵字」(Save current set of hits)。這些都能讓電腦運算,省下許多時間,其中還有一項很特別的功能,是「作文錯別字自動批改系統」,無論是身為國文老師、中文老師,還是華語老師,改作文真的是非常辛苦的工作,自電腦發明以後,近代科技趨勢也走向人工智慧的開發,目前這套系統在報告自述中表示:「經過實際的驗證,錯別字批改的正確率可以達到78%,為目前線上華語文錯字批改系統中正確率最高的系統。」雖然不能說就此省下了78%的時間,但近八成的正確率,也意味者某些較為固定、有正確解答,但校對費時的工作,已可由電腦系統幫教學者省去大半時間了!

聽起來這套系統功能相當之多,操作起來會不會很困難呢?我只能說不同的系統皆有其系統本身的操作方式,如何進行檢索不難,但要如何進行「有效的檢索」這便是使用者需要先花些功夫,了解此系統要如何使用,才能準確地找出自己需要的解答,但這也不必太煩心,畢竟語料庫系統仍舊是要給人來使用,各章節也都有介紹如何設定指令,比如在「CQP檢索語法使用」一節中就有不同的範例,如將具有名詞跟量詞特性的「頭」字,透過指令[word="頭"&pos="Nf"],就能將其詞性限定為量詞,若再加上不同的條件,比如指令[word="頭"&pos="Nf"] [pos="Na"],就能限定「頭」(量詞)後接「名詞」,簡單的說,透過越詳細的指令,便能搜索出越精確的結果,但報告中也說:「為了要得出更加精準的結果,語法指令也會更加的複雜。」的確很複雜,因為語言本身就不是一件簡單的事啊!

許多學習人文學科的人遇到理工學科,就一言不和,「這個我不會啦!」、「太複雜了!」、「學華語還要學資料庫喔?」其實這並非什麼新鮮事,但重點不在於「和不和」,而是「合不合」,前者是一種情緒,後者是一種智慧,如何更有效率、更有系統的將語言文字編纂成為學習工具,古代稱為字書、辭書,現在我們則習慣稱為字典、辭典,不知道意思,就查字典、辭典,而隨著時代越來越進步,工具書都可以上網,進行電子檢索,只是當學習語言文字,又要借用資訊工程的工具時,就會讓學語言的人有些滯礙,其實資訊工程使用的也是語言──計算機語言,我們只要把其背後的邏輯弄懂了,就能運用不同的工具,進入「分級標準檢索系統」、「例句編輯輔助系統」,運用「雙語對照例句」、「語詞對應翻譯」、「搭配詞語的功能」……等等,都讓我們在學習、教學、研究上能事半功倍。

相關書籍

a