- 年份:2019 年
- 編號:84
- Topic分類:-1
- Topic分數:0.07601843718
- Publish:漢學研究通訊
- 作者:黃文德、廖箴
Keywords:以人工智慧演算及文字探勘技術,分析網頁、國家圖書館漢學研究中心
Abstract:隨著網際網路的發達及使用的普遍性,散佈在世界各國的漢學機構不再遙不可及,網際網路的高度易用性,促進了漢學網路資源的傳播利用,不僅能與使用者產生更直接的互動,也拓展了服務版圖。要得知全世界漢學家都做些什麼研究,將漢學機構網頁內容加以分析,探討國際漢學機構網站常出現的關鍵字,即得知哪個領域的研究是較為缺乏的,又哪些領域的研究是最熱門。藉由瞭解國際漢學研究發展趨勢,不僅可以拓展臺灣漢學界的國際視野,亦可展現國家的文化實力,使得臺灣主題的漢學研究成果,能藉此推向國際漢學界,吸引更多的國內外漢學研究學者投入。國家圖書館漢學研究中心於 2018 年啟動「文史哲學術趨勢分析系統」(http://trends.ncl.edu.tw/)第一期建置計畫,為提供使用者對國際漢學網站進行分析與探索,引導研究者使用數位方法發掘新研究議題的平臺。系統利用網頁資料蒐集程式,自動偵測世界各國漢學機構網頁或社群網站,以人工智慧演算及文字探勘技術,分析下載之網頁最新消息及活動報導,儲存於資料庫中,利用巨量資料分析,自動過濾出欲分析研究活動的相關資訊及,並結合地理資訊系統(GIS)在世界地圖標示各地區所發生學術消息,呈現在趨勢分析系統。
第一階段系統選定 223 個國內外學術機構網頁及社群媒體、討論區等作為分析方向,包含 185 個官方網站以及 38 個社群網頁,地區分布涵蓋臺灣 50 個、中國大陸 62 個、美洲 51 個、歐洲 36 個以及亞非大洋洲 21個。擷取的機構網頁內容主要為「最新消息」或「活動報導」,社群媒體部分則是以研究機構的 Facebook 或微博為主,討論區部分的形式較複雜,例如:「歷史學柑仔店」是以部落格形式;「故事:寫給所有人的歷史網站」是文章平臺;批踢踢(PTT)各看板則是論壇形式。網站語言之範圍以英文、繁體中文、簡體中文為主。資網站汲取範圍包含可公開接觸的網站,若為社群網站,資料結構與機構網頁所含資訊不同,但其特色是,在不侵犯隱私權的前提下,能夠挖掘較多量化資訊,除此之外,社群媒體所出現之內容,相較正式發表之論文具有更高的娛樂性、即時性,能夠更直接反映社會當下須注意之研究議題。
本系統自 107 年 1 月 1 日至 108 年 1 月 17 日共計擷取 17,692 則消息,平均每個月擷取 1,500 則消息,本計畫為四年計畫,預計至 109 年可擷取 500 個網頁,收錄超過 10 萬則消息,更能有效協助文史哲與社會科學研究人文學者創造更多元研究面向。
© All Rights LibAiRsystem.

