Tag: tesseract

OCR泊坞窗图像: 我用这个docker的OCR图像，它的工作原理。 https://hub.docker.com/r/vimagick/tesseract/ 但是它无法阅读一些单词。我通过googlefind的免费在线服务 – 几乎可以扫描任何图像的细节。 http://www.onlineocr.net/ 是否有任何docker图像，将读取JPG图像的每个字符？

从ruby调用命令不工作在泊坞窗图像: 我创build了一个docker镜像，并在此镜像上安装了tesseract，并使用这个 docker文件和同一个repo中提供的脚本。然后，我添加了我自己的小ruby应用程序，以便我可以发送图像，并得到结果返回： require_relative 'bundle/bundler/setup' require 'sinatra' require "json" require 'sinatra/base' require "sinatra/activerecord" require 'sinatra' require 'fileutils' require "carrierwave" require 'carrierwave/datamapper' require "carrierwave/orm/activerecord" require_relative 'models/image' require_relative 'data_mapper_setup' set :protection, except: [ :json_csrf ] port = ENV['PORT'] || 8080 puts "STARTING SINATRA on port #{port}" set :port, port set :bind, '0.0.0.0' CarrierWave.configure do |config| config.root = […]

如何将ruby应用程序添加到现有的Ubuntu Docker镜像: 我一直在尝试和失败了一段时间，现在我的ruby应用程序添加到tesseract运行时环境泊坞窗容器，但我的理解还不够，因为当我已经成功地build立应用程序仍然不能调用tesseract（ sh: command not found: tesseract ）从命令行。或者在构build中，它不会执行gem install bundler ，或者在安装Postgres时失败。我想要实现的是一个简单的API，我可以上传图像，通过命令行使用图像magick脚本进行处理，然后通过命令行使用tesseract提取文本并以JSON格式传回。我有部分工作，但我现在正在努力让他们连接，现在正在亏本做什么。我真的很感激有人指着我如何做到这一点的正确方向，涉及到的步骤，任何真正的事情，因为我觉得我在结合这两个项目时失去了一些根本性的东西。我最好和最接近的尝试是在这里，但sh: command not found: tesseract 。 %x[ tesseract #{file} –psm 6 resultsFile.txt ]行失败。任何帮助将是伟大的。

无法从docker中的挂载目录中读取文件: 我正在开发一个接受图像（照片）作为用户input的项目，使用命令行Tesseract-OCR在其上执行OCR，将结果存储在文本文件中作为“input.txt”，然后对该文件执行停止词去除使用java程序。所有这些都应该在docker集装箱内完成。我已经创build了与Tesseract OCR安装在其中的docker图像。我有StopWord-Removal Java代码的工作。在我的项目中，我已经将docker映像中的host-os目录挂载为“/ work”目录，这样我就可以从用户主目录直接获取“image（photos） docker run –rm -v `pwd`:/work -w /work ocr 这里“ocr”是我的docker形象。我创build了bash脚本，它调用Tessract-OCR，然后调用StopWordRemoval java代码 #!/bin/bash tesseract sample.jpg input java StopWords 问题是，“tesseract sample.jpg input”的输出保存为“input.txt”，但是在java程序中是不可访问的，而如果我使用相同的代码尝试从给定的目录中打开其他文件，它就会工作。