格鲁修学社区

 找回密码
 注册社区
搜索
热搜: 活动 交友 discuz
楼主: 笨者之帚

实战藏文OCR,终于成功。。。

[复制链接]
发表于 2012-7-4 16:32 | 显示全部楼层
安装后试用排版的《正理海》图像页识别,识别结果:同元藏文字体为90%正确,正转为喜马拉雅藏文字体,正确率大概在70-80%范围,现将两张对比图像放上来,请师兄比对。师兄可以考虑用什么输入法来较对,可以组织一下大家来参与






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册社区

x
发表于 2012-7-4 16:40 | 显示全部楼层
师兄如果组织用喜玛拉邪雅校对,我报个名吧,我可以完成50页的工作量
发表于 2012-7-4 16:49 | 显示全部楼层
笨者之帚 发表于 2012-7-4 14:17
不可能吧,我下载安装的很正常啊。。。

成了,在繁體中文環境安裝,得把檔名用繁體重新命名...
只是功能表有些選項文字成了問號
发表于 2012-7-4 17:44 | 显示全部楼层
笨者之帚 不过,目前OCR识别只能单张插入识别,很慢,没效率,


师兄对软件还不熟悉,慢慢来,我做汉文经书一次扫描几十页,整体识别一次通过效率非常高,仅有一些生僻字和佛学用语会有误差。
有几款专业的双面扫描仪也很好用,一次可以扫描100页。以前购买清华紫光扫描仪会随机赠送藏文识别软件,前段时间特地询问经
销商,回复说这款软件没有再继续开发,也不赠送。

的确 制作藏汉文对照的经书是必经之路 也是巅峰之作 难度多多 望各位老大扛起这面大旗 共勉之!
发表于 2012-7-4 22:48 | 显示全部楼层
苯兄辛苦了.
顶.
随喜.
祝贺.
发表于 2012-7-5 00:39 | 显示全部楼层
用TH-OCR识别藏文详解:

http://bbs.gelupa.org/forum.php? ... p;extra=&page=3

(这OCR流程,大家可参考,毕竟TH-OCR是唯一能识别藏文的中文软件了,再找找看是否有西文能识别藏文的OCR软件。)
 楼主| 发表于 2012-7-5 08:16 | 显示全部楼层
fstibet 发表于 2012-7-4 16:32
安装后试用排版的《正理海》图像页识别,识别结果:同元藏文字体为90%正确,正转为喜马拉雅藏文字体,正确率 ...

[同元藏文字体为90%正确,正转为喜马拉雅藏文字体,正确率大概在70-80%范围]

为何转码会损失识别的准确率呢?这点很奇怪,按理不该啊...
发表于 2012-7-5 08:45 | 显示全部楼层
笨者之帚 发表于 2012-7-5 08:16
[同元藏文字体为90%正确,正转为喜马拉雅藏文字体,正确率大概在70-80%范围]

为何转码会损失识别的准确 ...

因为识别为同元之后没校对,如果没校对好的话转喜马拉雅当然准确率降低,如果校对同元,转喜马拉雅后并不能保证百分百正确,所以必需对喜马拉雅再校对一遍,这样的工作量很大,如果喜马拉雅有70-80%的准确率,校对的话,也蛮高的,我觉得校对喜马拉雅就可以了。所以师兄如果要计划做的话,这些因素都要考虑。
发表于 2012-7-5 21:07 | 显示全部楼层
随喜
发表于 2012-7-14 18:34 | 显示全部楼层
苯兄辛苦了.
顶.
随喜.
祝贺.
发表于 2012-7-14 19:08 | 显示全部楼层
没显示图片啊
发表于 2012-7-15 08:29 | 显示全部楼层
我试了一下准确率不过在60%左右,而且扫描的图片有点不太清楚的话,根本就无法识别。期望有更好的藏文识别软件
发表于 2012-7-15 09:07 来自手机 | 显示全部楼层
老笨好专业!
个人经验:原图的像素和清晰度直接决定了OCR的识别率。不过据说也有将pdf直接转存为文本的软件,有用过的吗?
 楼主| 发表于 2012-7-15 10:06 | 显示全部楼层
Zen 发表于 2012-7-15 09:07
老笨好专业!
个人经验:原图的像素和清晰度直接决定了OCR的识别率。不过据说也有将pdf直接转存为文本的软 ...

PDF原本就是图像版的话,转存为文本文件是没有用的。
发表于 2012-7-15 13:37 | 显示全部楼层
笨者之帚 发表于 2012-7-15 10:06
PDF原本就是图像版的话,转存为文本文件是没有用的。

是的。
PDF软件自带的转存为文本功能,好像受制于制作PDF文件时的文字复制权限设置。
有没有软件可以转存文字无法复制、非图像版的PDF?
您需要登录后才可以回帖 登录 | 注册社区

本版积分规则

小黑屋|手机版|Archiver|格鲁教法集成

GMT+8, 2024-3-29 06:29 , Processed in 0.034726 second(s), 14 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表