Tesseract.js 是一個基于 JavaScript 的開源 OCR(光學字符識別)庫,使用 WebAssembly 將 Google 的 Tesseract OCR 引擎移植到瀏覽器和 Node.js 環境中。它可以在前端直接對圖片進行文字提取,支持 100 多種語言(包括中、英、法、德等),適用于文檔掃描、實時視頻識別、移動端離線 OCR 等場景。
- Tesseract.js官網入口網址:http://tesseract.projectnaptha.com/
- Tesseract.js開源項目地址:https://github.com/naptha/tesseract.js

主要特性
- 跨平臺:同時支持瀏覽器(通過 <script>、CDN、Webpack 等)和 Node.js 環境。
- 多語言:內置 100+ 語言的訓練數據,中文(簡體/繁體)識別效果良好。
- WebAssembly 加速:核心 OCR 引擎以 WASM 形式運行,內存占用低、識別速度快。
- 并行處理:支持 createWorker 多線程工作者,可在后臺并行識別多張圖片。
- 模塊化:提供 tesseract.js-core、語言數據(tessdata)分離,便于自行托管 CDN,避免網絡不穩定導致加載失敗。
- 輕量化:最新的 v6.0.0 進一步壓縮文件體積、優化內存管理,適合長時間運行的 Web 應用。
Tesseract.js 通過 WebAssembly 將強大的 Tesseract OCR 引擎帶到前端,具備跨平臺、多語言、低內存、高性能等優勢。只需幾行代碼即可在瀏覽器或 Node.js 中完成文字識別,配合 createWorker 與本地語言數據即可實現離線、批量、實時的 OCR 需求。
相關導航
暫無評論...



