Tag: tesseract

OCR泊坞窗图像

我用这个docker的OCR图像,它的工作原理。 https://hub.docker.com/r/vimagick/tesseract/ 但是它无法阅读一些单词。 我通过googlefind的免费在线服务 – 几乎可以扫描任何图像的细节。 http://www.onlineocr.net/ 是否有任何docker图像,将读取JPG图像的每个字符?

从ruby调用命令不工作在泊坞窗图像

我创build了一个docker镜像,并在此镜像上安装了tesseract,并使用这个 docker文件和同一个repo中提供的脚本。 然后,我添加了我自己的小ruby应用程序,以便我可以发送图像,并得到结果返回: require_relative 'bundle/bundler/setup' require 'sinatra' require "json" require 'sinatra/base' require "sinatra/activerecord" require 'sinatra' require 'fileutils' require "carrierwave" require 'carrierwave/datamapper' require "carrierwave/orm/activerecord" require_relative 'models/image' require_relative 'data_mapper_setup' set :protection, except: [ :json_csrf ] port = ENV['PORT'] || 8080 puts "STARTING SINATRA on port #{port}" set :port, port set :bind, '0.0.0.0' CarrierWave.configure do |config| config.root = […]

如何将ruby应用程序添加到现有的Ubuntu Docker镜像

我一直在尝试和失败了一段时间,现在我的ruby应用程序添加到tesseract运行时环境泊坞窗容器,但我的理解还不够,因为当我已经成功地build立应用程序仍然不能调用tesseract( sh: command not found: tesseract )从命令行。 或者在构build中,它不会执行gem install bundler ,或者在安装Postgres时失败。 我想要实现的是一个简单的API,我可以上传图像,通过命令行使用图像magick脚本进行处理,然后通过命令行使用tesseract提取文本并以JSON格式传回。 我有部分工作,但我现在正在努力让他们连接,现在正在亏本做什么。 我真的很感激有人指着我如何做到这一点的正确方向,涉及到的步骤,任何真正的事情,因为我觉得我在结合这两个项目时失去了一些根本性的东西。 我最好和最接近的尝试是在这里,但sh: command not found: tesseract 。 %x[ tesseract #{file} –psm 6 resultsFile.txt ]行失败。 任何帮助将是伟大的。

无法从docker中的挂载目录中读取文件

我正在开发一个接受图像(照片)作为用户input的项目,使用命令行Tesseract-OCR在其上执行OCR,将结果存储在文本文件中作为“input.txt”,然后对该文件执行停止词去除使用java程序。 所有这些都应该在docker集装箱内完成。 我已经创build了与Tesseract OCR安装在其中的docker图像。 我有StopWord-Removal Java代码的工作。 在我的项目中,我已经将docker映像中的host-os目录挂载为“/ work”目录,这样我就可以从用户主目录直接获取“image(photos) docker run –rm -v `pwd`:/work -w /work ocr 这里“ocr”是我的docker形象。 我创build了bash脚本,它调用Tessract-OCR,然后调用StopWordRemoval java代码 #!/bin/bash tesseract sample.jpg input java StopWords 问题是,“tesseract sample.jpg input”的输出保存为“input.txt”,但是在java程序中是不可访问的,而如果我使用相同的代码尝试从给定的目录中打开其他文件,它就会工作。