當前位置:服務 > 英文識別校對
數據加工的文件格式
文字格式:TXT、DOC、RTF、XML、HTML、Excel數據表、Access數據庫等;圖像格式:TIF、JPG、BMP、GIF、PDF、DJVU、CEB等;電子書格式:雙層PDF、雙層DJVU、雙層CEB、OEB、EPUB、XML、HTML網頁格式等。
數據加工的質量保障
★保障體系:OCR智能識別、人工一二三校、人機結合對比校方式保障數據質量的萬無一失;
★文字錄入:錯誤率控制在千分之三以內,外校質量可控制在萬分之三或萬分之一,根據客戶要求而制定;
★掃描識別:圖書、期刊、報紙、文檔等印刷品錯誤率控制在萬分之三或萬分之一,根據客戶要求而制定;
★原樣錄入:質量控制在五萬分之一、十萬分之一乃至零,根據客戶要求而制定。
數據加工流程
1.圖像掃描:
采用科技光學儀器對數據進行掃描,生成TIFF、JPG、PDF等圖像文件。
2.圖像處理:
對掃描后的圖像進行糾偏、去黑邊、分頁、拼圖等處理,更高的還原原圖像。
3.影象輸入:
將通過掃描儀等光學儀器掃描并已人工處理過的圖像鏈接到OCR軟件中,我們所用的先進掃描儀等硬件設備使影像更清晰、掃描的質量更增進OCR處理的效率。
4.圖像分析:
利用OCR對圖像進行版面分析,比如文字的橫向縱向、圖片與表格等進行進行區分處理。
5.文字識別:
將分析好的圖像OCR進行智能識別并進行人工校對(可先進行縱校再橫校),保證質量減少錯誤率。
6.結果輸出:
經過人工的一二三校,將數據按客戶要求的格式輸出并根據不同要求排版處理等。