Tag: ocr

OCR泊坞窗图像

我用这个docker的OCR图像,它的工作原理。 https://hub.docker.com/r/vimagick/tesseract/ 但是它无法阅读一些单词。 我通过googlefind的免费在线服务 – 几乎可以扫描任何图像的细节。 http://www.onlineocr.net/ 是否有任何docker图像,将读取JPG图像的每个字符?

无法从docker中的挂载目录中读取文件

我正在开发一个接受图像(照片)作为用户input的项目,使用命令行Tesseract-OCR在其上执行OCR,将结果存储在文本文件中作为“input.txt”,然后对该文件执行停止词去除使用java程序。 所有这些都应该在docker集装箱内完成。 我已经创build了与Tesseract OCR安装在其中的docker图像。 我有StopWord-Removal Java代码的工作。 在我的项目中,我已经将docker映像中的host-os目录挂载为“/ work”目录,这样我就可以从用户主目录直接获取“image(photos) docker run –rm -v `pwd`:/work -w /work ocr 这里“ocr”是我的docker形象。 我创build了bash脚本,它调用Tessract-OCR,然后调用StopWordRemoval java代码 #!/bin/bash tesseract sample.jpg input java StopWords 问题是,“tesseract sample.jpg input”的输出保存为“input.txt”,但是在java程序中是不可访问的,而如果我使用相同的代码尝试从给定的目录中打开其他文件,它就会工作。