您的目前位置:中文輸入法世界華通輸入法園地

免費軟件《香港中文字頻率統計資料庫》

李 祥

昕昕主持「中文輸入法世界」筆者一直支持,有限的資源估不到她竟然搞得有聲有色,小小的「中文輸入法論壇」,吸引了不少熱心於中文電腦及輸入法的朋友踴躍參加討論,不知不覺光顧「論壇」的網友兩個月有近一萬人次之多。最近有位發言者談到關於:中文字的常用次序。不少網友對中文字使用率有興趣,這些輸入法的發燒友眼光敏銳:香港中文字頻率統計對於香港十分有用,香港缺少一個公開的有權威的香港用字頻率的科學理據。

▽「中文用字統計程式」最新版
筆者曾開發「中文用字統計程式」,關於無條件免費使用「中文用字統計程式」一事曾知會過政府資訊科技署,可惜他們沒有興趣作統計。既然民間有人想作用中文字使用率之研究,筆者當然支持,經過修改其最新版定名為《香港中文字頻率統計資料庫》,免費提供給任何需要之人士使用。相信此小軟件對於香港學界、政府部門、輸入法愛好者會有所幫助。

《香港中文字頻率統計資料庫》免費軟件,適用於BIG5碼提供的13,053個字及香港字內碼區間。香港檔案名稱:static.exe,檔案大小:492KB。下載地址:http://shareware.foruto.com/freeware/download/chinese/static.zip

華通免費軟件在不修改程式內之任何檔案及不涉及商業行為狀態下,允許個人免費使用及任意複製,散播。如納入共享軟體CD,須寄給華通一片。

▽《香港中文字頻率統計資料庫》使用簡介
1).在電腦「桌面」開啟一個新的資料夾命名為“中文字頻率統計”(用其他命名亦可以)。將static.exe下載到此資料夾,即可進行你所需要的統計工作。

2).《香港中文字頻率統計資料庫》主視窗介面有三個按鈕,兩個設定,見【圖1】。

[開始統計(S)]鈕--是選取需要統計的純文字檔案 .txt。
[顯示結果(R)]鈕--初步顯示統計結果,進入提供三種儲存檔案。
[清除記錄(C)]鈕--清除歷次統計資料的記錄(一旦清除再也無法挽回)。
◎ 按內碼排序--顯示按BIG5碼排序之統計結果,並顯示出用字頻率。
◎按次數排序--顯示結果按中文出現頻率以遞減順序排列。

3).統計結果介面有二個選項,「檔案(F)」及「說明(H)」,見【圖2】。


按此放大

「檔案(F)」提供五項功能:儲存為純文字檔,便於其他資料庫軟件能夠使用。儲存為HTML檔:這種形式直接放上網,也許可以節省網友的時間。儲存為XLS檔,便於將統計資料於Excel作進一步分析處理。還有「列印(P)」、「預覽列印(R)」相信不需要筆者囉嗦大家都清楚其用法。

▽《香港中文字頻率統計資料庫》應用實例
我們不妨去「香港大公報」網站選取兩篇作統計的文章,分別將他們儲存為純文字.TXT檔,將它們存放在“中文字頻率統計”資料夾中就可開始電腦統計工作(儲存的方法很多,用你熟悉的就行了),如【圖3】類似。具體操作如下:


按此放大

步驟1:按一下[開始統計(S)]鈕,在「開啟舊檔」對話方塊中選取第一篇需要統計的文字檔,例如“社評.TXT”,按一下[開啟舊檔(O)]鈕,見【圖4】。一瞬間統計完畢,見到「提示方塊」按一下[OK]鈕。


按此放大

步驟2:再按一下[開始統計(S)]鈕,在「開啟舊檔」對話方塊中選取第二篇文字檔,例如“縱橫談.TXT”,按一下[開啟舊檔]鈕,開始再次統計……

步驟3:想看一看累積的統計結果,請按一下[顯示結果(R)]鈕(完成顯示統計結果的時間,視統計字數之多寡而定),此例大約需時半分鐘即可見到「統計結果」工作視窗,見【圖2】其結果是累計了上兩個純文字檔的中文字出現頻率……

步驟4:如需再作進一步處理,請選「儲存為XLS檔(X)」,可見到「檔案保存為Excel工作表」對話方塊,定出檔案名稱[存檔(S)]即可,見【圖5】。如按一下「預覽列印」,你可見到比較漂亮的但十分浪費的列印預覽效果,見【圖6】。

SW8-5_1.gif (3237 bytes)
按此放大

SW8-6_1.gif (3084 bytes)
按此放大

[[小貼士]]
如BIG5碼標準字庫提供的13,053個字中也找不到的字,則會在檔案report.txt中列出,見【圖7】,filename.dat、static.dat是《香港中文字頻率統計資料庫》的資料檔案可不必理會。


按此放大

此『中文輸入法世界』系列文章原登載香港大公報,本網頁將遲於大公報一星期登出,由於周刊篇幅關係本網頁不會與其完全相同。特此感謝香港大公報!


返回上頁