摘 要: 系統增加一種功能,即通過音標來查詢單詞,同時加入模糊查詢功能,使查詢方式更加靈活和全面。詳細地說明了系統的設計思想和實現技術。
關鍵詞: 按發音查詢 電子詞典 模糊查詢
目前的各類電子詞典系統在查詢速度、詞庫容量等方面都日趨完善。用戶在英文閱讀時,可以方便快捷地查找生詞的詞義、用法、同義詞或反義詞。然而,就使用方式來講,仍存在欠缺。當人們聽英語" title="英語">英語廣播、看英語節目或練習聽力時聽到一個詞的發音而又不知其含義時,又如何查到單詞的含義呢?按傳統的方法,只能先根據單詞發音猜測單詞的拼寫,然后再查詞典。由于英文單詞拼寫不規范,這種查詢的效率必然很低。
為此,應尋求另一種查詢途徑。旨在通過音標輸入,根據單詞發音直接進行查詢,并配合模糊查詢算法,從而為這一問題的解決找到一條途徑。整個設計涉及到音標的提取和輸入、范例數據庫的建立、模糊查詢算法、界面的設計等。
1 音標的提取和輸入
系統設計首先考慮音標字庫問題。Windows自帶的音標符號不全且不方便引入,而一些商用軟件,如金山公司的KingSoft Phonetic音標字體則包含了英式音標所需要的基本符號,可在開發中引入該字體。當然,要以合法方式獲得。其方法是在裝有金山詞霸的系統中找到Ksphonet.ttf,將其拷貝到開發系統中,安裝此字體即可。開發時,將窗口缺省字體設置為 KingSoft Phonetic;最后,在程序發布安裝過程中自動為目標機安裝該字體。
由于無論是建立樣例數據庫還是系統運行時進行查詢,都涉及到音標的錄入,而通過鍵盤進行錄入顯然不方便。所以在程序窗口中設置一個音標輸入面板,通過點擊面板中的按鈕來錄入對應的音標;還應對面板中的按鈕排列做規劃,例如,雙元音按鈕排列在一個區,方便錄入,見圖2。
2 樣例數據庫的設計
本電子詞典系統利用MS Access 2000建立了一個含500個單詞左右的樣例詞庫, 并使用MS Visual C++6.0作為前端工具,采用DAO技術實現對樣例數據庫的訪問。
雖然本詞庫的規模較小,但應當體現出詞典在詞語分布上的特點。所以,特根據《郎文英漢雙解詞典》做粗略統計,得出數據如表1所示。其中,x、z按所占比例算不足一詞,均按一詞計。
數據庫字段設計如下:
其中,Yinbiao 存放單詞的音標,并作為主關鍵字;Eword為英文單詞;Cword為單詞的中文釋義。
3 模糊查詢處理
3.1 實時匹配的處理
系統可以以兩種方式進行查詢:按詞查詢和按音標查詢。限于篇幅,本文只討論后者。樣例數據庫中以音標字段作為主鍵,對于每一輸入,系統都進行匹配,將相近的結果顯示出來。例如,用戶輸入" title="用戶輸入">用戶輸入:a:則列表提示:art, arm, army, artist, article…等;若用戶輸入:a:t,則列表提示:art,artist, article…等。如用戶的輸入無法完全匹配,則從列表中選擇第一個" title="第一個">第一個匹配作為查詢結果或提示用戶手動選擇相近的詞條。
3.2 重音的處理
英語中多音節單詞都有各類重音,在音標中用重音符號標記。重音符號完全可以參加匹配查詢,但考慮到查詢復雜度和實用性,不將重音符號作為查詢的一部分,即輸入的重音符號在查詢時經過預先處理過濾掉重音號。重音符號只用于建立樣例數據庫中的單詞條目,以便在查詢結果中正確地顯示單詞的完整音標。對于音標相同重音不同的單詞,同時給出釋義。
3.3 模糊查詢處理
基于音標的模糊查詢,類似于很多輸入法提供的“南方模糊音”功能,即以用戶潛在的由于音標讀音相似產生的輸入錯誤為基礎,對無法直接匹配的輸入進行相似的代換并對每一種代換進行查找。例如對于音標tr很容易與音標混淆,
與e有時也不容易辨別,因此對于可能出現的習慣上的錯誤對音標進行查詢的等價類劃分,本系統做了如下劃分:
需要說明的是,這種劃分只是來源于實際的經驗,衡量任何一種劃分成功與否必須通過音標的錯誤使用統計和用戶的反饋來確定。對于正常查詢無法查得的音標,用戶可以有選擇地應用以上的等價代換重新進行查找。但應用等價代換會非常顯著地降低查詢效率,因此必須對查詢的規模進行限制,如最多開啟三個等價集或者進行重新等價劃分等。
另外對于比較長的音標輸入,可以將音標輸入的前一半或者1/3長度作為模糊查詢的輸入依據,這樣模糊查詢的范圍雖然會有所擴大,但是卻節省了查詢浪費的時間。總之,以等價代換查詢為基礎,可以采用很多策略來限制查詢的復雜度,但是具體哪一種策略更好,需要對音標構成和用戶輸入習慣做大量的統計和實驗得出。查詢流程圖如圖1所示。
在具體的實現上,使用了遞歸" title="遞歸">遞歸函數,其基本算法如下:
FuzzySearch(CString str,int n){
Length=str.GetLength();
if(length<=n) {
ExactSearch(str); //完全匹配查找
return;
}
else {//對第n個字母進行搜索尋找等價代換;
//如果找到則從該等價集第一個字母開始進行代換;
//代換后的音標str2作為遞歸入口送入;
FuzzySearch(str2,n+1);
//同樣的str3、str4;
FuzzySearch(str3,n+1);
FuzzySearch(str4,n+1);
//對于雙元音代換,則是:
FuzzySearch(str5,n+2);
//如無法找到等價代換,則:
FuzzySearch(str,n+1);
}
}
對已輸入的音標先進行完全匹配,如完全匹配失敗則對已輸入音標(剛輸入的音標)進行等價集代換,并把模糊查詢的結果添加到列表,作為進一步模糊查詢的基礎。由于縮小了搜索范圍,在速度上有一定優勢。
4 界面設計
界面以及風格的設計已經成為Windows編程十分重要的一環,合理的設計會提高用戶使用效率。如果采用英式音標輸入,則至少需要44個音標按鈕。另一種方案是省略雙元音和某些由兩個音標符號組成的輔音(如 t?蘩),由用戶自行輸入t和?蘩,這樣可以減少面板上音標按鈕的數量。但多數人在學習音標時,習慣上是將雙元音作為一個整體來記憶,拆開后反而不自然。所以,面板排列由44個音標按鈕組成,為方便用戶快速錄入,將其按習慣分成三個區,即單元音區、雙元音區和輔音區,并將發音相似的音標排列在一起,如圖2所示。
本系統的設計與實現" title="設計與實現">設計與實現具有很強的實用價值。將本系統所帶的詞庫進行擴充,即可形成標準的電子詞典系統。若將本系統的算法加以固化,即可形成固件產品,具有很好的應用前景。
參考文獻
1 呂丹陽. Visual C++.NET數據庫開發指南.北京:清華大學出版社,2002
2 Microsoft Co.MSDN Library:Visual C++ Programmer′s Guide.Using CrichEditCtrl Chapter
3 Microsoft Co.MSDN Library: User Interface Design and Development.Resources Icons Chapter
4 Microsoft Co.MSDN Library: Win32 Platform SDK.Developer Notes>General
5 Davide Calabro.Flat buttons with text/icon.www.codeguru.com July 25, 2002
6 Microsoft Co. MSDN Library: Windows Development.CWnd Chapter
7 Franz Wong.Demonstrates the use of GfxListCtrl control, CHyperlink class.www.codeguru.com 2002
8 Erich Gamma.設計模:可復用面向對象軟件的基礎.北京:機械工業出版社, 2000.9
9 Microsoft Co. MSDN Library: Windows User Interface.Win-dowing. Windows
10 Microsoft Co. HOWTO: Programmatically Install a True Type Font.Microsoft Knowledge Base Article-186722.2003.2