C# OCR(光学字符识别)技术利用编程实现图像中文字信息的自动识别与提取,广泛应用于文档数字化、自动化数据录入等领域。
可以识别英文、数字和中文。对于变形字体的图片需要先进行图像处理以获得更好的OCR效果。使用Tesseract OCR引擎(通过OCR.TesseractWrapper库):
```csharp
using OCR.TesseractWrapper;
using TessactOcr;
Bitmap bitmap = new Bitmap(text); // text: 图片路径
TessNet ocr = new TessNet();
ocr.ePageSegMode = (int)ePageSegMode.PSM_SINGLE_WORD;
ocr.eOcrEngineMode = (int)eOcrEngineMode.OEM_TESSERACT_CUBE_COMBINED;
ocr.lang=eng; // chi_sim 表示简体中文
ocr.SetTessractData(Environment.GetFolderPath(Environment.SpecialFolder.ProgramFiles) + @\tessdata\tessdata);
ocr.SetVariable(tessedit_char_whitelist,abcdefghijklmnopqrstuvwxyz);
string iden = ocr.ToCR(bitmap);
```