×

天若OCR 5.0那个最火的OCR工具我给你弄来了开源免费版

天若OCR 5.0 -那个最火的OCR工具我给你弄来了开源免费版
OCR 识别文字这个大家不陌生吧。别说工作上可能会用得到,就说生活里会碰到那种动不动就甩过来一张图,让你复制编辑一下的情况。这不得抓耳挠腮,心里偷偷骂句 mmp。之前有小伙伴问我哪个 OCR 工具好用,手机上完全可以用微信的提取文字凑合一下。但我觉得

资源传送门资源传送门

OCR 识别文字这个大家不陌生吧。

别说工作上可能会用得到,就说生活里会碰到那种动不动就甩过来一张图,让你复制编辑一下的情况。

这不得抓耳挠腮,心里偷偷骂句 mmp。

之前有小伙伴问我哪个 OCR 工具好用,手机上完全可以用微信的提取文字凑合一下。

但我觉得更多的场景是电脑上用得上,所以我来分享一下我用了一年多的 OCR 识别工具,天若 OCR 5.0 开源版。

天若OCR

天若 OCR 是 2018 年的时候,吾爱破解上的大佬「天若幽心」利用大厂接口搞出来的工具,还开源了出来。

大体上就是利用开源的截图工具,配上大厂的接口,写了个图形界面,赋予了该有的逻辑搞定的。

某种意义上说,这是个超级缝合怪。

敲黑板,这里的缝合怪可不带任何贬义啊。

OCR 文本识别这种需要依靠大量的数据来提高准确率的技术,你让个人从 0 实现那不开玩笑嘛。

先不说什么重复不重复造轮子的事,没团队,没资源的凭一腔热血搞出来的 OCR 工具,真不会比大厂出品的工具强。

现在个人开发者搞出来的 OCR 工具,和之前说的那些翻译工具一样,都是接口怪。

说到接口,这种开源工具提供的公用接口虽然能用,但指不定什么时候会出岔子。

而商用的接口又需要钱,所以很多工具都从最开始的免费变成了会员制。

但个人而言,5 分钟申请一个免费的个人接口白嫖岂不更香,天若 OCR 就提供有填写个人接口的地方。

但后来天若 OCR 从 4.49 版开始不再开源,现有的免费版天若 OCR 已经拒绝填写自己的接口了。

而我用的那个天若 OCR 5.0 开源版,是另一位作者 AnyListen 对最后一版开源的天若 OCR 简单重构后造出的绝唱。

当然提供填写个人接口这个功能一直没变。

虽然现在作者停止了维护,但我用的这一年多,倒没出过什么差错,所以来分享给大家。

轻量且细节

为啥会选用天若 OCR 5.0 开源版,除了上面提到的接口问题,最重要的是它足够轻量。

无需安装,总共不到 5M 的小东西,打开以后会乖巧的待在后台。

当你在电脑上(全局),只要 F4 唤出截图框,框选住你待选的文字,松开即自动识别了。

所以无论是文本文字,还是图片文字,对于天若来说是没有区别的。

文本:

图片:

这是什么,这不就是妥妥的活好不粘人嘛。

至于识别速度,得看提供的截图质量和文字多少了,你看上面的两次识别,都没超 1s 的。

如果你觉得「F4」翻天若牌子不顺手或者和其他工具有冲突,完全可以在设置(右下角右键图标)里更改。

不过便捷、轻量只是我发现天若以后的第一感觉,但真正留住我的还是细节。

我随手实拍了个书上的内容,来看看天若的表现:

还有手写文字的识别,一点毛病都没有:

不过这并不能说是天若多厉害,而是大厂接口很给力。

天若 OCR 支持搜狗、腾讯、有道、百度四个接口,不过腾讯的接口失效了,百度的接口我用的是自己申请的。

说说实测感:

搜狗的 OCR 准确度更高,有道的 OCR 速度更快,百度则有点中规中矩的感觉,但用起来比较稳定和丝滑。

而天若的细节突出表现在它识别后的文本处理,比如可以合并句子,整体翻译:

当然也能反过来按行拆分段落,别的什么字体、加粗、更改字体颜色、查找替换这些小功能一个不差。

甚至还有朗读功能,但这个会有明显的延迟,我几乎没用过。

我重新下载了一遍天若 OCR,发现现在百度的接口好像也失效了,所以下面说说怎么申请自己的百度接口。

申请接口

同样打开设置,在「密钥」栏点开接口申请,输入自己的百度账号即可:

然后在「人工智能」找到「OCR 文字识别」里的「通用场景文字识别」。

当然你也可能碰到的是这个:

反正流程不变,选择「创建应用」。

然后「应用名称」和「应用描述」都随便填,记得「应用归属」选个人。

最后立即创建,从「应用列表」把 API Key 和 Secret Key 记录下来。

回到天若设置里把账号、密码给粘贴一下就好了。

建议大家都去弄个实名认证,这种白嫖更多使用次数的认证,多香啊!

这里再多提两嘴,如果你不满足于微信的提取文字,可以试试小程序「微软 AI 识图」,手写识别的效果也很喜人,不过一周只能白嫖 3 次。

偶尔一样的小伙伴可以安排上。

如果你想用离线本地版的 OCR 工具,我建议考虑一下汉王 OCR,不过都是特殊版本,我就不多说了。

大家自己搜一下就能找到。

前面不是说,识别的成功率和速度与图片质量有关嘛,图片扭来扭去的或者光线阴影啥的,有个个人开发的工具可以搞定这个问题。

图片漂白

相信大家都碰到过这种手机拍出来的图吧:

万恶的阴影会很大程度上影响到 OCR 工具的识别,有时候肉眼都看不清。

可千万别说用啥补光灯,或者上扫描仪之类的的操作。

咱倒是想,但总不能真的就这么怼上去吧。

不过话说回来,要是真怼上去想想还挺刺激的。

真哪天我这么怼同事或者领导了,我再给大家分享一篇《职场作死是怎样炼成》的文章。

所以面对这种图片该咋办?

当然是往设备上糊 84 物理漂白借助科技的力量,比如我常用的 PictureCleaner。

从它默认的界面你应该可以看出来了,三种漂白算法,支持实时预览,支持图片校正,还可以手动设置更多参数。

使用流程就是从左侧选择图片(找不到的话去「文件」里更改输入目录),然后自己调整一下角度或裁剪一下,最后执行,搞定。

前面那张图是这样的:

换了个有弧度的是这样的:

我还从网上找到这样一个申请表,漂白过后效果也很 nice:

没啥好介绍的了,看着界面挺复杂,其实用起来超简单。

说说它的不足吧,我用到现在有两点不足:

一个是图片弧度大的话,四角检测会导致应用卡死。

另一个则是漂白过后的图片还是有色差,前面那几张阴影过分的图你就能看出来了。

不过再配上 OCR 就 ok 多了。

你看,是不是很棒。

总结

说实话,我有段时间没了解过 OCR 工具了,因为对我而言 OCR 工具并非刚需。

要不是那个小伙伴问我用什么 OCR 工具,我也没想着把自己过去用过的这些工具给集结起来攒一篇文章。

所以我一直觉得搞公众号不仅是在和大家分享我的发现,更是一个共同成长的过程。

就像前面那个 DeepL,要不是小伙伴安利,我也不会收获一个新的宝藏。

在这次写天若的过程中,我还发现了不少「强大」的 OCR 工具,比如 GitHub 上的 PandaOCR。

说它强大,是因为它现在几乎支持市面上所有的 OCR 识别接口,足足有 20 多个。

那为啥这次没有安利给大家,绝对不是我想吃独食哈。

而是我自己刚入手用了两天,我想着等自己把它的优劣全都搞明白了再和大家分享。

反过来说,接口多也不一定意味着是十全十美的好事,最少从使用上来说麻烦了一个量级。

如果你和我一样需求有限,天若 OCR + 微软 AI 识图 + PictureCleaner 已经能很好的满足需求了。

好了,这一篇到这里就结束了,我们有缘下一篇再见咯。

TOP