認認真真做學問、踏踏實實做開發(fā)、誠誠懇懇求合作">
電子報
電子報

漢語國際教育技術研發(fā)中心

認認真真做學問、踏踏實實做開發(fā)、誠誠懇懇求合作



















  一、漢語國際教育技術研發(fā)中心發(fā)展歷程
1987年,呂必松校長與著名人工智能專家馬希文教授,慧眼獨具地在我校創(chuàng)辦了全國第一個語言信息處理研究機構:北京語言大學語言信息處理研究所,馬希文教授親自擔任所長,拉開了我校信息科學發(fā)展的序幕。
  二十余載彈指一揮間,在歷屆校領導的大力支持下,研究所取得了巨大發(fā)展,衍生出包括信息科學學院在內的一批科研教學機構。2009年,為了擴展我校在漢語國際教育技術領域的科研實力,學校決定在語言信息處理研究所基礎上創(chuàng)建漢語國際教育技術研發(fā)中心,由所長宋柔教授擔任主任,荀恩東教授擔任副主任,將我校語言信息處理和漢語國際教育兩個優(yōu)勢學科緊密相連,立足北語,服務國家漢語國際教育發(fā)展,著力突破制約漢語國際教育發(fā)展的關鍵技術,提高漢語國際教育發(fā)展中的技術貢獻率,在國內外引領漢語國際教育的技術發(fā)展。從此,我校教育信息化和教育技術發(fā)展駛入快車道。
  中心所屬網站(nlp.blcu.edu.cn)上,常年維護有十余種漢語教學在線軟件和演示系統(tǒng),并提供多種軟件工具和資源的開放式下載,成為研發(fā)中心對外宣傳、展示的窗口。據(jù)統(tǒng)計,網站運行之初的一年時間里,累計訪問量達到幾十萬次,累計下載量超過一萬次,受到國內外幾十家研究單位的關注。至今為止,訪問研發(fā)中心網站的有來自北京大學、華中師范大學、暨南大學、墨西哥城華夏孔子學院、普吉孔子學院、日本早稻田大學、新加坡南洋理工大學、德國卡爾斯魯厄大學、IBM、微軟亞洲研究院等數(shù)十家海內外高校和研究機構。
  研發(fā)中心成立伊始就確立了自己的發(fā)展目標,提出“一個核心任務,兩個優(yōu)勢,三個技術突破方向”的總體發(fā)展思路,即堅持以發(fā)展語言教育技術為核心任務,依托學校已經具備的資源優(yōu)勢、技術優(yōu)勢,大力發(fā)展?jié)h語詞語計算技術、漢語字形計算技術以及漢語計算機輔助教育技術。圍繞發(fā)展目標,研發(fā)中心在成立短短幾年時間里,培養(yǎng)和催生了三個研究組,互為補充,有機結合,探索出一條在文科學校開展信息技術研究和開發(fā)的可行道路。
一個核心任務
研發(fā)中心堅持以發(fā)展語言教育技術為核心任務。以漢語國際教育為代表的語言教育,是我校傳統(tǒng)的優(yōu)勢學科,研發(fā)中心依托學校大環(huán)境,努力打造該領域內先進的科研技術研發(fā)平臺,占領和保持多項技術的領先地位,為語言教育教學提供基礎性支持技術和應用軟件技術,引領語言教育技術發(fā)展潮流,力爭成為國內語言教育技術領域領跑者。
兩個優(yōu)勢
研發(fā)中心具備語言數(shù)據(jù)資源和語言信息處理技術兩大優(yōu)勢。研發(fā)中心承襲了語言信息處理研究所多年積累的數(shù)據(jù)資源,經過幾年系統(tǒng)地整理和擴充,目前已經建成涵蓋多個語種、多種類型,規(guī)模大、質量高的大型綜合性多媒體語言數(shù)據(jù)庫,具備了大數(shù)據(jù)計算所需要的數(shù)據(jù)基礎。
三個技術突破方向
在核心技術方面,研發(fā)中心經過多年積累,在自然語言處理、字形處理和計算機輔助語言教學等多個方面,積累了一系列漢語教學所需的核心技術、研發(fā)了多種軟件和基于互聯(lián)網的學習系統(tǒng)。
  近幾年,隨著時代的不斷發(fā)展,互聯(lián)網應用迅速崛起,為研發(fā)中心的發(fā)展帶來巨大挑戰(zhàn)和機遇。為此,結合目前的發(fā)展趨勢,研發(fā)中心領導大膽提出三項未來發(fā)展的核心技術。集中所有科研力量,力爭在三個領域獲得技術突破。首先,在傳統(tǒng)的語言信息處理領域,針對目前漢語詞語計算問題,提出利用海量數(shù)據(jù)進行漢語詞語計算的構想,并細化為漢語“自然語塊”分析和漢語“復雜科技術語分析”兩項任務;其次,圍繞漢字書寫,提出“漢語字形計算”研究的科學問題和核心技術,將研究落腳為中小學生和留學生的手寫漢字書寫質量評判問題;第三,圍繞現(xiàn)在漢語教學中遇到的實際問題,研究漢語教學信息化技術,利用計算機輔助漢語學習,提出從課件制作、課件發(fā)布、學習狀態(tài)跟蹤、碎片化學習的一整套理論方法和應用技術。
  研發(fā)中心堅持以應用為驅動,所有研究目標均落腳為具體的應用技術。研發(fā)中心堅持學科交叉,以語言工程為視角,以計算機技術為手段,結合信息科學中的核心算法,在基礎研究方面不斷深入,在應用技術方面加大廣度,支持漢語教育、語言研究,力爭在語言信息處理數(shù)學模型、語言知識體系方面取得更大突破。
  研發(fā)中心的這些觀點也得到了學校各級領導的認同。在學?!笆濉币?guī)劃綱要中,首次將“出技術”列為發(fā)展要點之一。2012年,研發(fā)中心獲得學?!爸卮髮m楉椖俊敝С?,充分說明了研發(fā)中心在學校信息科學發(fā)展中的示范作用。
  近年來,依托信息科學學院,研發(fā)中心為我校獲得了一系列科研項目支持。在國家自然科學基金項目中,中心每年均有斬獲。2008年,荀恩東教授獲得面上項目“基于生成樹庫分析和一體化機器翻譯模型研究”;2011年,荀恩東教授再次獲得面上項目“漢字書寫規(guī)范性表征與評判”;宋柔教授獲得面上項目 “基于廣義話題的漢語篇章結構研究”;2012年,安維華老師獲得青年基金項目“漢字書寫質量的自動評測技術及應用研究”;2013年,于東老師獲得青年基金項目“基于海量語料自然標注信息的漢語自然語塊分析”。
  除此之外,研發(fā)中心還承擔了國家“863”計劃項目、國家語委科研項目、國家漢辦、教育部等多項國家級科研項目子課題的研究任務。同時與百度、富士通等知名企業(yè)保持緊密聯(lián)系,借助多方面力量推進研發(fā)中心的發(fā)展和壯大。
  自成立以來,研發(fā)中心在各級學術期刊、學術會議上發(fā)表多篇論文,其中包括 《中文信息學報》、《清華大學學報》、《北京大學學報》、《計算機科學》等業(yè)內知名期刊,多篇論文被EI、ISTP檢索,成為業(yè)內新興的優(yōu)秀科研團隊。
  在教學和學生培養(yǎng)方面,中心招收具有計算機應用技術專業(yè)和應用語言學專業(yè)背景的碩士研究生、博士研究生,并接收國內外高級進修人員,為漢語國際教育培養(yǎng)技術型高級專門人才。中心現(xiàn)有專職教師7人,其中教授2人,副教授2人,講師3人;學生21人,其中博士生2人,碩士生13人,本科生5人,外國碩士生1人。良好的實驗室氛圍和團隊合作精神,成為研發(fā)中心的優(yōu)良傳統(tǒng)。
  展望未來,研發(fā)中心將繼續(xù)堅持科研創(chuàng)新的理念,堅持面向應用的價值觀,努力探索新領域新知識,努力將應用技術轉化為實用產品,服務學校,服務漢語教學,服務社會,認認真真做學問,踏踏實實做開發(fā),誠誠懇懇求合作,爭取為我校的發(fā)展不斷做出實實在在的貢獻。
   二、互為補充、有機結合的三個研究組
語言信息處理研究組
語言信息處理組是研發(fā)中心研究歷史最悠久的團隊。多年來,研發(fā)中心歷任領導均非常重視該領域的研究工作,在詞語分析、中文分詞、語義理解、機器翻譯、語言資源建設等方面取得豐碩的科研成果。在此基礎上,研發(fā)中心大力開展技術應用與推廣,多項科研成果已被企事業(yè)和科研單位采用,取得良好的社會效應。成為支撐整個中心研發(fā)工作的骨干研究團隊。
  研發(fā)中心一直非常重視語言資源的建設,在中心師生的共同努力下,目前已經建設有漢語中介語語料庫、漢英雙語語料庫、漢日雙語語料庫、海量漢語語言語料庫、海量漢語科技術語語料庫以及漢語科技術語詞庫等一系列語言資源。領域類型涵蓋新聞、文學、科技、微博、博客、百科等方面,語料總量超過200G,包含約1000億漢字,規(guī)模大、門類全、質量高,為中心后續(xù)課題研究打下了堅實的基礎。
  研發(fā)中心專門面向大規(guī)模語料庫,研究用計算機技術提取語料庫中的自然標注信息的方法,并探索其應用特點。經過嚴謹論證和大膽設想,研究目標定位為針對海量語料中自然標注信息的提取和分析研究,具體研究內容包括如下兩點:通過對海量語料的運算,發(fā)現(xiàn)大規(guī)模語料庫中的自然標注信息,并研究對其中各種信息行之有效的挖掘方法;根據(jù)自然語言處理中的各種應用需求對自然標注信息進行分類,研究其各自的本體性質和應用特點。
  在鞏固原有研究領域的基礎上,研發(fā)中心一直積極擴展新的研究方向,使整個團隊保持旺盛的研究活力。2013年年初,在一次小組討論中,一個圍繞科技術語計算的新興研究計劃獲得大家的認可,正式啟動浮出水面??萍夹g語是科技發(fā)展的風向標,術語規(guī)模的大小、新術語產生數(shù)量、細分領域術語的豐富程度,直接反映了科技發(fā)展的真實狀態(tài)。然而多年以來,我國在術語學方面仍借鑒上世紀70年代俄羅斯術語學家的思路,在術語規(guī)范、術語管理法方面少有人涉足,在術語計算方面更是處于空白階段。
  在這樣的背景下,研發(fā)中心借助現(xiàn)有的科技語料庫資源優(yōu)勢,希望在相關領域拔得頭籌。經過半年多的籌備,在幾位老師和研究生的通力協(xié)作下,研發(fā)中心在“復雜術語計算”領域取得顯著進展。以“術語知識圖譜”為核心的一系列課題正在緊鑼密鼓的開展過程中。相信幾年時間里,研發(fā)中心必將在該領域取得突破性進展。
E-Learning研究開發(fā)組
近年來,信息技術的快速發(fā)展及其在學習領域的滲透對傳統(tǒng)的教學模式、學習資源和教學方法都帶來了深遠的影響。在對外漢語教學領域,利用信息技術不僅可以將教學資源數(shù)字化、輔助課堂教學、輔助發(fā)音矯正和漢字書寫,甚至還可以模擬學習者的認知過程。
  E-Learning研究開發(fā)組目前的研究方向是面向漢語國際教育的無縫學習模型、方法和關鍵技術。主要研究問題有:(1)移動學習環(huán)境下的資源組織模型。如今,各種數(shù)字化智能終端為教育教學活動提供了新的認知環(huán)境,為學習者提供了一種智能的、無縫的學習空間。而如何組織學習資源,使其滿足無處不在、按需提供、自適應呈現(xiàn)等學習需求則是一個新的研究問題。(2)創(chuàng)新學習模式?;诟鞣N計算設備的輔助學習常被看作是一種教室外的非正式學習活動。這兩年來,隨著大規(guī)模在線教育和終身學習概念的提出,參與這種非正式學習的人數(shù)呈現(xiàn)出了爆發(fā)式的增長。傳統(tǒng)的固定時間地點的、由老師授課的學習方式受到了前所未有的挑戰(zhàn),而社交化學習、協(xié)同學習、基于游戲的學習等逐步成為一種新的學習模式。(3)情境感知的個性化學習技術?,F(xiàn)在的學習者往往擁有多種不同的計算設備,每個學習者的背景、學習曲線、生活情境都不相同,他的學習是一個不斷進化的認知過程。情境感知的個性化學習就是要根據(jù)學習者所處的上下文信息(如:學習歷史、所處的場景、所使用的設備等等)主動推送適合的漢語知識,提供便捷易用的學習服務。
  E-Learning研究開發(fā)組的主要任務是利用信息技術,以第二語言習得、情境學習等理論為指導,開發(fā)面向語言學習尤其是漢語學習的網站、軟件和數(shù)字資源。中心成立以來,該小組先后研發(fā)了HSK數(shù)字化測試平臺、非母語漢語作文計算機評測平臺、圖書數(shù)字化制作平臺、跟我學漢字、跟我學拼音、漢語易錯字辨析、在線生成課文拼音、中介語語料庫協(xié)同標注、學習內容在線生成和發(fā)布等實用高效的網站和軟件,積累了大量的輔助漢語學習的數(shù)字化資源和查詢系統(tǒng),如漢字信息資源庫、漢語詞匯信息資源庫、留學生高等作文語料庫等等。
漢字書寫評測研究組
中國漢字有著悠久的發(fā)展歷史,并且記錄了中華文明幾千年的發(fā)展歷程。漢字書寫能力的培養(yǎng)對于民族文化的傳承具有十分重要的意義。然而隨著計算機的普及,鼠標鍵盤的操作代替了漢字的手寫工作,漢字書寫正在逐漸脫離我們的日常生活,漢字書寫水平的下降已成為一個不爭的事實。
  基于漢字書寫的現(xiàn)狀,漢字書寫評測組的定位在于,以學生在學習寫字的過程中所產生的手寫漢字作為研究對象,以數(shù)字媒體處理、模式識別、機器學習等信息技術作為輔助手段,對漢字書寫正確性和規(guī)范性的自動評測進行基礎理論和應用技術方面的研究。我們的最終目標在于,實現(xiàn)計算機輔助的、無人值守的漢字書寫教學和評測的自動化系統(tǒng)。
  本課題組的研究具有很高的學術價值和應用價值。一方面,它能夠探索和挖掘與書寫規(guī)范相關的漢字字形結構的本質特征;能夠更加深入地發(fā)展現(xiàn)有的漢字處理技術;能夠為漢字書寫習得理論的研究提供客觀、豐富的樣本數(shù)據(jù)。另一方面,它能夠改進傳統(tǒng)的漢字書寫教學方法,改善教學質量;能夠為各種漢字書寫考試的信息化提供技術基礎,提高自動化水平;而且能夠為漢語學習者提供一種漢字書寫自動評測的人性化工具,使?jié)h字書寫練習成為一種樂趣,從而為漢字文化傳承和漢語國際推廣起到推動作用。
  漢字書寫評測技術的未來發(fā)展應該以評測的全面化、精確化、智能化為主要目標,以多種學科技術的綜合應用為手段,以探索更加合理的漢字形式化描述方法和人機交互方法為主要任務。由此可見,本課題組將漢字書寫自動化評測技術作為研究目標具有一定的前瞻性。
  目前,本課題組重點研究的問題包括:離線手寫漢字的筆畫還原技術;在線手寫漢字的字形匹配技術;面向書寫評測的漢字形式化描述方法;漢字書寫評判側面的挖掘方法;漢字書寫評測的可視化反饋技術等。本課題組正在開發(fā)的應用系統(tǒng)包括:漢字筆順練習工具;漢字部件練習工具;留學生漢字書寫教學輔助系統(tǒng)等。
  經過近三年的積累,漢字書寫評測組已經積累了一定的成果,已成功申請國家自然科學基金項目兩項,發(fā)表學術論文10余篇,申請國家發(fā)明專利一項,培養(yǎng)博士生1人。