前新竹市長、民進黨桃園市長參選人林智堅,在台大認定論文抄襲、撤銷其碩士學位後三天,正式宣佈退選。

同一時間,現任立委、國民黨南投縣長參選人許淑華,以及國民黨副發言人、台北士林北投區議員參選人林杏兒也都被檢舉抄襲,目前各大學已收到具名檢舉,已進入審定程序。

台灣,怎麼忽然變成論文抄襲之島?

每到選舉時節,原本堆在書庫中蒙塵的論文,忽然變得很重要,不斷被挖出來、送進各家論文比對系統,進進出出後,瞬間化成一把刀,刺向敵營、或是被刺。

「論文比對檢測有兩個旺季:畢業季跟選舉季。」推出論文比對系統「快刀」的雲書苑科技總經理林政宏苦笑著說。例如近日就是比對旺季。

他受訪時手機響個不停,各種查詢論文需求透過客服傳來:「如果全篇論文比對相似度偏高,能夠分章、或分段比對嗎?」、「如果文字不同,是不是可以說是引述失當,而非抄襲?」

隨著台灣如雨後春筍般成立的碩士班、在職專班,這類需求也大幅增高。

論文多,抄襲數也水漲船高。根據教育部數據統計,自2017年起至今五年間,加上林智堅遭撤銷學位案,台灣學位撤銷案件共計25件,然而這些還是經過具名檢舉、校方審定後的冰山一角,水面下的冰山究竟有多大,無人能知。

我們要如何防範抄襲?

要辨別學位論文是否抄襲,第一關是論文比對系統,然而這並不是過去台灣大專院校博碩士學位的標準配備,通常是亡了羊、才補牢。中山大學在國民黨高雄市市長補選參選人李眉蓁2020年因論文抄襲而被撤銷學位後,隔年才要求學生畢業時應繳交「經指導教授簽署之論文比對結果」及「恪遵學術倫理聲明書」,原創性比對的總相似度比重「不超過12%」。

無獨有偶,台灣大學也在今年林智堅論文抄襲事件發生後,火速要求全校「碩博士論文提交時均需進行原創性比對,經指導教授檢視結果才可離校」。由於正逢論文繳交期,許多研究生繳交前才忽然收到這一紙官令,導致申請帳號不及、或是系統過載當機,討論區中哀鴻遍野。

目前台灣使用的論文比對系統主要有外商開發之Turnitin、iThenticate系統。台灣本土的論文比對系統,大約從十年前開始發展,最早是雲書苑科技在2011年推出「快刀」系統,之後擁有龐大線上論文庫的華藝數位,也在2017年推出Symskan系統。

這些系統大多以學校、系所為單位申請,少數可申請個人版單篇比對,如快刀系統比對一篇6萬字上下的論文,收費為799元。

論文比對系統的優劣,第一在於文獻池(content pool)的完備、第二則是比對技術的聰明度。

然而台灣大專院校使用最多的Turnitin,卻是以英文文獻為主,繁體中文資料庫內只有簽約收錄期刊、學位論文除了少數主動上傳比對的論文,其他都僅有篇目資料、摘要。華藝數位副總經理楊長春指出,這個系統只對檢查英文抄襲有幫助,國人自行研發檢查中文抄襲較好的系統,卻沒受到重視。

其次,比對技術的聰明度,更是十年磨一劍。林政宏指出,早期的論文比對系統僅針對「字串」比對,但現在的系統在不斷研發下,已經可以運用AI技術,靠著抓出用字遣詞習慣,來比對文風,進而抓出抄襲。

「用詞習慣是不會騙人的。像紅樓夢的前八十回跟後四十回,我們用語意分析做落點圖,就可以清楚判斷那是不同人寫的。」林政宏說,以旗下快刀系統舉例,可以先把文章中的字句進行斷詞,分出名詞、人名、動詞等詞性,再進行比對,這樣不僅能抓出「直接複製貼上」的偷懶抄襲法,就連調換順序、或是換句話說也能抓出相似度。

然而道高一尺、魔高一丈,為了降低比對系統的相似度數字,學生現在也衍生出很多「解套法」。林政宏舉例,有學生在論文裡加入一個縮小文字框,看似一個小逗點,實際上是一個幾百萬字亂碼組成,將這些亂碼縮在文中,雖然文章的總字數會大量增加,但也可以同時稀釋掉整篇論文的抄襲比例。

雲書苑科技總經理林政宏。(攝影者:楊文財)

學生也發展出將抄襲文字轉成圖片,貼回WORD檔,在文字辨識時就不會被抓出;甚至將論文用翻譯軟體翻成三到四種語言,再翻回中文,重新組裝詞語和字句,試圖騙過比對系統。但隨著系統業者的修改增進,這些障眼法都已逐一被破解。

不過,兩家業者都強調,比對系統僅能抓出相似性,至於判斷抄襲與否,不能百分百參照比對系統,業者說,比對系統頂多只能完成90%的工作,其他10%仍必須交給主管機關人工判定。

最難應戰的對手始終是自己,未來是一場AI大戰。林政宏舉例,現在已有學生試圖以AI產生論文,雖然目前使用AI產生的論文讀起來還不通順,但隨著科技進步,難保未來不會變成「AI仙拚仙」的狀態。

教育部免費巨斧來襲 未來抄襲更有機可乘?

論文比對是個小眾市場,業者估計一年不超過億元。然而就在業者苦哈哈升級之際,教育部表明將會同國家圖書館開發「全國碩博士論文比對系統」,無償提供大學使用,作為審查學位論文的必備程序。

教育部這項作法立意良善,但看在已投入開發相關產品的民間業者眼中,卻成了扼殺產業發展的巨斧。「台灣不是沒有業者做,我們每年要投入上千萬元研發跟維護系統,政府提供免費服務,是在打擊比對產品服務的多元性。」楊長春說。

除了打擊產業外,更重要的是,教育部這項系統的資料庫不足。由於該系統的文獻池僅有台灣碩博士論文,卻忽略了期刊論文、政府報告、各類出版品等,也是可能被抄襲的對象。

「既然是教育部指定的免費版本,未來一定會成為畢業生比對報告主流。」有不具名學者指出:「有心想抄襲的學生只要越過碩博士論文去抄別的來源,教育部比對出抄襲的機率恐怕低於民間產品。」

抄襲技術日新月異,比對系統也必須持續投入開發。東吳大學法律系助理教授章忠信指出,政府貿然介入,極有可能使民間業者黯然退出市場、既有的成績一夕之間化為烏有。

此外,政府系統在無商業競爭壓力下,恐怕會僵化不前,比不過日益進化的AI論文產生器,這看似好意的政府投入,能否拯救台灣免於成為論文抄襲之島?還是未知之數。

他們都曾捲入抄襲爭議而黯然離開


核稿:劉佩修
編輯:林易萱