现在的搜狗词库bin转换txt细胞词库导出的是bin格式的,有没有什么办法导出txt格式,或者把bin格式转化成txt格式呢?

Posts - 16,
Articles - 0,
Comments - 16
15:41 by 采药的蜗牛, ... 阅读,
参考:http://blog.csdn.net/zhangzhenhu/article/details/7014271
#!/usr/bin/python
# -*- coding: utf-8 -*-
import struct
import sys
#拼音表偏移,
startPy = 0x1540
#汉语词组表偏移
startChinese = 0x2628
#全局拼音表
GPy_Table = {}
#元组(词频,拼音,中文词组)的列表
GTable = []
def byte2str(data):
'''将原始字节码转为字符串'''
length = len(data)
while i & length:
x = data[i] + data[i+1]
t = unichr(struct.unpack('H',x)[0])
if t == u'\r':
ret += u'\n'
elif t != u' ':
return ret
#获取拼音表
def getPyTable(data):
if data[0:4] != "\x9D\x01\x00\x00":
return None
data = data[4:]
length = len(data)
while pos & length:
index = struct.unpack('H',data[pos]+data[pos+1])[0]
#print index,
l = struct.unpack('H',data[pos]+data[pos+1])[0]
py = byte2str(data[pos:pos+l])
GPy_Table[index]=py
#获取一个词组的拼音
def getWordPy(data):
length = len(data)
while pos & length:
index = struct.unpack('H',data[pos]+data[pos+1])[0]
ret += GPy_Table[index]
return ret
#获取一个词组
def getWord(data):
length = len(data)
while pos & length:
index = struct.unpack('H',data[pos]+data[pos+1])[0]
ret += GPy_Table[index]
return ret
#读取中文表
def getChinese(data):
#import pdb
#pdb.set_trace()
length = len(data)
while pos & length:
#同音词数量
same = struct.unpack('H',data[pos]+data[pos+1])[0]
#print '[same]:',same,
#拼音索引表长度
py_table_len = struct.unpack('H',data[pos]+data[pos+1])[0]
#拼音索引表
# py = getWordPy(data[pos: pos+py_table_len])
pos += py_table_len
for i in xrange(same):
#中文词组长度
c_len = struct.unpack('H',data[pos]+data[pos+1])[0]
word = byte2str(data[pos: pos + c_len])
#扩展数据长度
pos += c_len
ext_len = struct.unpack('H',data[pos]+data[pos+1])[0]
= struct.unpack('H',data[pos]+data[pos+1])[0]
# GTable.append((count,py,word))
GTable.append(word)
# 到下个词的偏移位置
pos += ext_len
def deal(file_name):
print '-'*60
f = open(file_name, 'rb')
data = f.read()
if data[0:12] != "\x40\x15\x00\x00\x44\x43\x53\x01\x01\x00\x00\x00":
print "确认你选择的是搜狗(.scel)词库?"
sys.exit(0)
#pdb.set_trace()
print u"词库名:" ,byte2str(data[0x130:0x338])#.encode('GB18030')
print u"词库类型:" ,byte2str(data[0x338:0x540])#.encode('GB18030')
print u"描述信息:" ,byte2str(data[0x540:0xd40])#.encode('GB18030')
# print u"词库示例:",byte2str(data[0xd40:startPy])#.encode('GB18030')
getPyTable(data[startPy:startChinese])
getChinese(data[startChinese:])
if __name__ == '__main__':
path1 = r'D:\myProject\textClassifier\inputfile1/'.replace('\\', '/')
path2 = r'D:\myProject\textClassifier\outputfile/'.replace('\\', '/')
for filename in os.listdir(path1):
print filename
deal(path1 + filename)
# 保存结果
f = open(path2 + 'sougou.txt', 'w')
# 删除相同元素
GTable_filter = sorted(set(GTable), key=GTable.index)
for word in GTable_filter:
f.write(unicode(word).encode('GB18030'))
f.write('\n')
有个问题没解决,就是在调用deal函数的时候,如果我这样调用的话,deal(filename)的话,就会显示IOError: [Errno 2] No such file or directory: 'IT\xbc\xc6\xcb\xe3\xbb\xfa.scel'这个错误,比如输入全路径才正确,很困惑。深蓝词库转换下载V2.1 绿色中文版_将搜狗细胞词库转换为其他输入法词库西西软件下载
西西软件下载最安全的下载网站、值得信赖的软件下载站!
相关软件 /中文/ /中文/ /中文/ /中文/ /中文/ /中文/ /中文/ /中文/ /中文/ /中文/顶好评:50%踩坏评:50请简要描述您遇到的错误,我们将尽快予以修正。轮坛转帖HTML方式轮坛转帖UBB方式
16.2M/中文/7.6
35.2M/中文/8.9
51.5M//2.4
32.3M/中文/9.4
39.9M/中文/8.9
728KB/中文/4.7
6.9M/中文/4.1
2.0版支持多种的Rime输入法,支持多种编码的小小输入法,增加了对灵格斯ld2词典格式的支持和英语词库支持,增加了简繁体转换功能,增加了对雅虎奇摩输入法、仓颉平台的支持,增强了对各五笔和郑码输入法的支持,同时优化了内部代码,增强自定义规则的功能。深蓝词库转换2.0发布――支持仓颉、注音、五笔、郑码、二笔等,经过了2个多月的改进,终于深蓝词库转换2.0版正式与大家见面了。在1.9版本中增加了对Rime的支持。新功能:一、支持多种编码的Rime输入法。Rime输入法是一款跨平台的输入法框架,在Windows下叫小狼毫,Linux下叫中州韵,Mac下叫鼠须管。这个输入法框架异常强大,支持各种常用的输入法,而且还可以通过简单的配置自定义输入法。深蓝词库转换在1.9版本中增加了对Rime拼音输入法的支持,现在在2.0中进行了增强,除了拼音外,还能够导入导出五笔、注音、仓颉和其他输入法编码。例如要将一个的分类词库转换成Rime的五笔词库,那么在深蓝词库转换中选择qpyd格式的词库源,目标输入法选择“Rime中州韵”,系统弹出输入法类型选择窗口,在下拉框中选择“五笔”并确定:然后单击“转换按钮”即可完成词库的转换,将转换结果保存到硬盘上。接下来到Rime输入法中(以小狼毫为例),选择“用户词典管理”选项,打开词典管理窗口,选中左侧的wubi86,然后单击“导入文本码表”即可完成词库的导入。用同样的方法,可以导入注音(与地球拼音使用同一个词库,terra_pinyin),仓颉(cangjie5)。当然还有明月拼音(luna_pinyin)。特别要感谢Rime输入法的作者佛振的指点,才能完成对仓颉输入法词库的生成,在仓颉输入法中对一个词进行编码相当特别,不像郑码、五笔的编码那么简单。二、支持多种编码的小小输入法。小小输入法也是Rime输入法一样是一个通用的输入法框架,可以支持多个平台(Windows、Linux等),多个输入法编码。之前1.9版已经支持小小输入法的拼音,在2.0版中进行了增强,能够支持:五笔、郑码、二笔、拼音和其他编码。比如要将一个搜狗细胞词库转换为小小输入法的郑码词库,那么可以在深蓝词库转换中选择该scel细胞词库作为源,目标词库选择“小小输入法”,系统会弹出一个编码类型选择窗口,在下拉列表中选择“郑码”,然后单击确定按钮:单击“转换”按钮即可将词库转换为郑码格式,然后保存到硬盘上。接下来将保存的词库文件复制到小小输入法的安装目录mb文件夹下。然后在小小输入法的属性设置窗口中,左侧选择“郑码”,右侧分词库中输入该词库的路径。单击“确定”按钮,回到小小输入法,在郑码模式下,我们输入郑码便能够匹配我们导入的词库,如图所示:同样的方法,可以将五笔、二笔、拼音导入到小小输入法中。三、增加了对灵格斯ld2词典格式的支持和英语词库支持。关于英语词库,在很久很久以前就有人提出过该需求,但是由于没有办法解析英语词库,所以一直搁浅,直到最近终于参考了网友的ld2解析办法(/p/dict4cn/),终于在深蓝词库转换中实现了对灵格斯ld2词典格式的解析,能够以此为源,导出其词条作为能够支持英文输入法的词库。这个功能对于需要输入专业英文的用户很有用,比如医学、金融、化工、法律等等都有专业的英文词典,这些词在输入法中很难自动联想出来,现在只需要下载一本专业的英语词典,然后通过深蓝词库转换导入到能够支持英语词库的输入法中,便可在该输入法中快速录入英文。调查了下英文输入法的支持,结果如下:虽然在打2次英文词后会记录下来,但是在导出的用户词库中没有英文词库。百度PC输入法支持英文词库的导出,在词库最下面,使用“英语单词Tab词频”的格式。百度支持独立的英文词库导入导出,命名为en2.txt,使用“英语单词Tab词频”的格式。支持单独对英文词库的导出,使用“英文单词,词频”的格式。谷歌输入法不支持英文词库导出。我们以输入法为例,在灵格斯官方网站下载一个英汉医学大词典,然后运行深蓝词库转换,将词库源选择“灵格斯ld2”,系统将会弹出ld2编码设置窗口,选择该词典的编码,对于一般英汉词典,估计是UTF-8格式,如果接下来导出的是乱码,那么说明编码格式不对,需要重新选择,重新导一次,还是不对的话就再换一种编码。单击“确定”按钮,然后选择目标词库为“QQ拼音英文”。然后点击“高级设置”的“词条过滤设置”选项,在设置窗口中去掉“过滤包含英文的词”,如果想导出词组的话,那么还要取消“过滤包含空格的词”,然后单击确定。然后单击“转换”按钮即可将灵格斯词库转换为QQ拼音的英文词库格式,保存到硬盘上。然后到QQ拼音输入法的词库设置界面,单击英文用户词库下的“导入”按钮,选择我们转换而来的词库文件,即可将灵格斯词库导入到QQ拼音中。四、增加了简繁体转换功能。这个功能主要是为使用繁体中文输入法的用户(台湾、香港等)而准备的。比如在Rime输入法中,默认是繁体中文的词库,如果导入的词库是简体中文,那么Rime会认为这是2条不同的词条。所以在导入时需要将简体转换为繁体。另外还有就是仓颉、五笔等字型输入法,繁体和简体是完全不同的编码,不能等同。以Rime为例,要导入一个繁体版的仓颉编码。那么选中源词库和目标词库,然后在高级设置的“简繁体转换设置”选项中,选择“转为繁体”。转换组件分为系统默认组件和Office组件。设置后单击确定按钮,回到主界面,单击“转换”按钮,即可将源词库转换为繁体中文的仓颉码。而如果没有设置转换为繁体,系统将会以源词库的字生成仓颉码,可以看到,简体和繁体仓颉码是不同的:虽然深蓝词库转换能够支持简繁体转换,但是这不是其强项,而且也只是调用外部接口而已,所以术业有专攻,如果需要更精确的简繁体转换,可以使用TextPro&OpenCC&这些工具进行专业的转换。五、增加了对雅虎奇摩输入法的支持。雅虎奇摩输入法是一款繁体中文输入中比较常用的输入法软件。雅虎开发,现在已经开源。网站:http://tw./keykey/这款输入法支持多种输入编码,比如:注音、仓颉、简易等。但是其词库管理中,只支持注音词库的导入导出。深蓝词库转换可以将各种输入法词库转换为雅虎输入法的格式,导入到其中。以搜狗细胞词库导入雅虎奇摩输入法为例,下载一个搜狗细胞词库scel文件,在深蓝词库转换中选择该scel文件作为源,目标词库设置为雅虎奇摩。单击转换按钮,将词库转换为注音格式的词库,并保存到硬盘上。&打开雅虎奇摩输入法的偏好设置窗口,在词汇选项卡中单击“导入自订词”按钮即可将我们的词库导入其中。我们也可以单击“启动词汇编辑程式”按钮,进入词汇编辑工具,再单击文件菜单的数据库导入选项,导入我们保存的词库文件。导入成功后,便可在雅虎奇摩输入法中输入我们导入的词汇。六、增加了对仓颉平台输入法的支持。仓颉平台输入法是一款基于小小输入法进行开发的输入法。在仓颉之友可以下载,也提供详细的帮助。深蓝词库转换支持仓颉五的编码。使用其他词库可以转换为仓颉平台的词库。对于仓颉平台的词库设置方法与小小输入法非常类似,首先需要将词库转换为仓颉平台的词库保存到硬盘。接下来将转换的词库文件复制到C:\cjsys\yong\mb,然后在仓颉输入法的设置窗口中,切换到五仓世纪选项卡,为分词库添加我们的分词库文件路径。添加后即可在仓颉平台中输入我们导入的词汇。七、增强了对各五笔和郑码输入法的支持。在之前的版本中,虽然名义上支持和郑码输入法,但是实际上是只取其中的汉字,直接忽略编码,所以各种拼音输入法不支持导出为带编码的五笔或郑码词库。在新版的深蓝词库转换中,可以为每个词生成五笔编码,郑码编码。所以在2.0版本中,可以选择:极点五笔、极点郑码、小鸭五笔等作为目标数据库,将各种源词库导入其中。八、增强自定义规则的功能。自定义规则功能允许用户指定外部的编码文件,指定词语的编码生成规则,词语、编码、词频的排序、分隔符等。比如我们有一个自定义的编码表,该表中给出了每个汉字的编码,一字一码,Tab分割。然后想对一堆词语进行编码,于是操作如下:在深蓝词库转换中选择源词库和其输入法。在目标词库中选择“自定义”,系统将弹出自定义词库编码窗口,再单击右上角匹配规则设置按钮,设置匹配规则如下:是说我们导出的词库文件,编码不是拼音编码,不包含词频,先显示编码,后显示汉字,之间用空格隔开。对于2字词,3字词和4字及以上的词,编码规则为各个字取一部分。下面的文本框中给出了预览效果。然后回到自定义词库编码窗口,选择一个编码文件,这里我们选中行列30输入法的Mapping表作为编码文件。单击测试编码按钮可以看到在行列30输入法下的编码样子。单击确定回到主窗口,单击转换按钮便可实现将指定的源词库转换为自定义词库。&九、词库列表增加百度拼音PC版百度拼音PC版本身支持搜狗、谷歌等输入法的词库格式,所以一直没有将其添加到深蓝词库转换的输入法列表中。这样会让用户觉得是不是不支持百度PC输入法,所以为了避免用户误会,在输入法词库列表中增加了“百度拼音”。十、重构代码,增强基本功能与命令行功能。在源词库列表中,去掉了触宝输入法的选项,因为触宝修改了备份文件的格式,而且不支持文本文件词库的导入导出,所有现在暂时没办法支持触宝输入法。期待着触宝对词库导入导出功能的增强。本来主窗口有2个按钮,一个负责“转换”,转换完成后询问用户是否保存转换结果。另一个“导出”按钮其实就是将下面文本框的内容保存到硬盘。由于支持的词库格式更多,各种格式不一,在文本框中进行编辑再保存就没有那么必要了。所以取消了这个按钮。使用一个更大的“转换”按钮代替,使得操作更简单。从一个只支持拼音词库的工具到能够支持多种输入编码,多种格式解析的工具,其内部代码也必须进行了大量的调整,使得整个工具能够更易扩展,更强大。由于要支持仓颉、五笔、郑码、二笔等等输入编码的生成,所有必须在内部维护每个汉字与编码的Mapping表,所有也就使得该软件体积变大了不少。另外,增加的输入法也需要更多的设置窗口,更强大的自定义功能,使得其内部变得复杂了很多,最近几天在写自定义编码的实现时,感觉脑子都要被搅糊了。所以必须要花更多的时间来维护代码的结构,不断重构代码,保持代码的清晰易读。
该小工具基于C#开发,所以电脑上必须安装.Net Framework 2.0才能正常运行,如果双击“深蓝词库转换.exe”后弹出错误窗口,请下载安装.Net Framework 2.0再试。该软件需要在 .Net 环镜下才能运行,请安装 .NET Framework V2.0 可再发行组件包: &/soft/2572.html
国内的手机输入法基本是上有搜狗下有百度的形态,不过输入法也不止这两家在做,这款讯飞输入法就凭借着其思想有多快,输入就有多快的口号慢慢走入了用户的视野。讯飞输入法是全球首款基于云计算方式实现的智能语音输
中文 / 12.4M讯飞语音输入法是由科大讯飞推出
中文 / 36.5M电脑讯飞语音输入法PC最新版,类
中文 / 36.5M讯飞输入法是由科大讯飞推出的一
中文 / 13.3M科大讯飞也正式发布了新一代智能
中文 / 12.8M讯飞语点是一款基于讯飞语音云平
中文 / 11.8M讯飞语音输入法集语音、手写、拼
西西软件园提供最新版本的拼音输入法,拼音输入法是腾讯公司自主研发的,特别适合互联网应用的,输入法官方下载快速敏捷的输入法产品。速度最快,占用系统资源最小,后续官方将以外挂字体文件的方式提供这些难打的汉
中文 / 28.5MQQ2011正式版里的云语音和云手写
中文 / 834KB微软自带的剪切板工具貌似已经满
中文 / 13.8MQQ输入法Android版QQ手机输入法强
中文 / 25.9MQQ输入法 Mac 版更新啦,全新的输
中文 / 30.6M在其他同类软件安装是捆绑上了插
中文 / 382KBQQ拼音刷级工具:解决很多朋友QQ
搜狗拼音输入法是搜狐公司或是旗下的搜狗搜索引擎推出的一款拼音输入法工具。搜狗输入法与传统方法不同的是,采用了搜索引擎技术,是第二代的输入方法。由于采用了搜索引擎技术,速度有了质的飞跃,在词库的广度词语
中文 / 24.9MAndroid智能手机在国内已经正在被
中文 / 35.2M搜狗拼音输入法2013是最新版本的
中文 / 31.4M搜狗拼音输入法(简称搜狗输入法
中文 / 129KB利用搜狗输入法的自定义短语功能
中文 / 12.1M  iPad 平台1.2版
中文 / 9.4MiPhone平台 3.0奥运版发布2012.0
西西软件园提供最好用的手写输入法下载,西西小编整理了一些非常好用的手写输入法,手写输入法是一款使用简单功能实用的输入法,一看就会,而且识别率非常高。用鼠标左键在手写区域书写,如果所写字显示在右侧备选区
中文 / 4.6MgPen繁体版手写输入法:SCUT gPe
中文 / 3.1M搜狗官方出的拼音输入法外置手写
中文 / 20.4M君彩2010版DJJ-8手写板驱动,大将
中文 / 5.3M逍遥笔是联机手写输入法,用鼠标
中文 / 569KB云手写输入法 具有强大的云端引擎
中文 / 931KB说明: 蒙恬手写输入法,适用于w
深蓝词库转换 V2.1 绿色中文版
下载帮助西西破解版软件均来自互联网, 如有侵犯您的版权, 请与我们联系。紫光拼音输入法中的词库如何导入到搜狗拼音输入法_百度知道
紫光拼音输入法中的词库如何导入到搜狗拼音输入法
先谢,本人于是下载进行试用,已经有了大量的自造词,请问如何制作细胞词库。可是本人着实找不到办法,果然不错,可搜狗却只能导入bin格式和txt格式的词库,准备长期使用: 前段时间听说搜狗拼音输入法很火?又有人提出细胞词库。现在最头痛的问题就是如何将包含我自造词紫光词库导入到搜狗输入法的词库中,请各位行家指教。 在网络上到处都有人说:搜狗拼音输入法支持导入紫光拼音输入法的词库。 如何是好。因为紫光的词库备份只能备份为UWL格式?紫光拼音输入法中的词库可以制作到细胞词库中吗各位行家。由于我以前一直使用紫光拼音输入法
我有更好的答案
首先访问 /labs/ dl/w.html,将搜狗拼音输入法的互联网词库下载回来,解压缩后找到其中的SogouLabDic.dic文件,使用Excel打开这个文件,注意打开时请将文件类型设置为“所有文件”,然后会弹出“文本导入向导”对话框,如果看到乱码字符的话,可以将文件原始格式修改为“54936 : 简体中文(GB18030)”即可,其他的选项不用更改设置,稍等片刻后可以看到如图所示界面。 第 步 删除B列、C列的内容,然后重新保存为文本文件,注意保存时请设置为“Unicode文本”,否则接下来的工作将可能无法顺利完成。 第 步 打开微软拼音输入法,从功能菜单中打开“自选词工具”,接下来从文件菜单中选择“导入”命令,将刚才获得的文本文件导入就可以了,由于词库比较大,因此这里可能会需要一些时间,然后...
其他类似问题
为您推荐:
紫光拼音输入法的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁

我要回帖

更多关于 搜狗词库bin 的文章

 

随机推荐