自从和SunPinyin整合后新版FIT for mac已经可以直接导入搜狗细胞词库了,但是个人词库由于格式问题不能直接导入。此前tianyu263已经给出一个细胞词库导入旧版FIT的方法[1],在此借用了一下,简化和修改了一些步骤,几句命令行就直接搞定了。
先直接上方法:
1. 在搜狗的设置页导出个人词库为txt格式;
2. 将txt的头几行注释去掉,然后保存为UTF-8格式并采用UNIX换行符(LF)。方法:Win上用Notepad++用编辑和格式菜单,或者Mac上用BBEdit或者TextWrangler在状态栏直接改;
3. 在Mac上开终端,定位到文件所在目录,这里假设输入文件为input.txt,输出文件为output.txt,输入
cat input.txt |awk '{ FS=" "; print substr($1,2)","$2; }' > output.txt
4. 将output.txt导入FIT即可。
其实原理就是使用了awk流编辑器,将拼音部分的第一个’号去掉,然后将拼音串与中文的分隔符改成,而已。这样原来导出的类似
'yu'wei'xi'huan 鱼尾喜欢
'yu'wei'xia'wu 鱼尾下午
'yu'wei'zhe'teng 鱼尾折腾
改成了
yu'wei'xi'huan,鱼尾喜欢
yu'wei'xia'wu,鱼尾下午
yu'wei'zhe'teng,鱼尾折腾
这样就符合了FIT的格式。
关于awk我也是现学现用,其实是完全不懂,对awk有兴趣的同学可以参考Jiayi的这篇教程[2]。
[1] 如何导入SCEL词库到FIT里. 风尘无限. http://hi.baidu.com/tianyu263/blog/item/ea2b30c4293b76a48226acdb.html
[2] awk教程(原创). JIAYI +1. http://www.jiayii.com/awk-tutorial/