قابلیت‌های نویسه خوان (OCR) فارسی توسکا

قابلیت‌های نویسه خوان (OCR) فارسی توسکا شامل موارد زیر می‌شود:

·      تبدیل تصویر نوشتاری به متن با زبان فارسی یا زبان لاتین

·      واسط کاربری تحت وب کاربر پسند

·      کیفیت متوسط ۹۵٪ روی کتاب‌های فارسی

·      تشخیص مناسب بیش از صد قلم فارسی

·      تشخیص ارقام و علامات نگارشی

·      امکان اصلاح چرخش صفحه

·      اصلاح برخی نویزهای صفحه

·      REST API جهت ارتباط با سامانه‌های دیگر شامل اتوماسیون و مدیریت اسناد

·      دریافت فایل ورودی تصویر در قالب‌های JPG, PNG, TIFF, PDF, BMP

·      تبدیل به فایل خروجی متنی در قالب‌های TXT

·      امکان تشخیص محتویات جدول

·      پشتیبانی همزمان از فارسی و لاتین در یک صفحه


منبع: سایت نویسه خوان (OCR) فارسی توسکا

۲۶ آذر ۹۵ ، ۱۸:۱۴ ۰ نظر موافقین ۰ مخالفین ۰

نویسه خوان فارسی توسکا

محصول OCR فارسی توسکا جدیدا عرضه شده.

برای امتحان کردن محصول می‌تونید در سایتش نمونه فایل ارسال کنید و  OCR شده فایلتون رو بهتون ایمیل می‌کنند. این طوری میتونید به خوبی سیستم رو تست کنید.


۲۶ آذر ۹۵ ، ۱۸:۱۳ ۰ نظر موافقین ۰ مخالفین ۰

تفاوت بین OMR و OCR در چیست؟

OMR یا Optical Mark Recognition و OCR یا Optical Character Recognition هر دو روش هایی برای بدست آودن اطلاعات از درون تصاویر یا کاغذ ها و تبدیل کردن آن به اطلاعات دیجیتال هستند. در بسیاری اوقات اینگونه تصور می شود که هر دوی این روش ها یکسان عمل می کنند اما تفاوت های واضحی بین روش عملکرد OMR و OCR وجود دارد. وظیفه اصلی OMR این است که تشخیص دهد در یک منطقه تعریف شده از یک تصویر یا عکس یک علامت وجود دارد یا خیر ؟ و کار OMR تقریبا در اینجا تمام می شود اما OCR ضمن اینکه باید تشخیص دهد یک علامت در جایی از عکس یا تصویر وجود دارد یا خیر ، بایستی تشخیص دهد که علامت مورد نظر دقیقا چیست و کاراکتر متناظر با آن علامت را به اطلاع درخواست کننده برساند ، در OCR کاملا فرآیندهایی که انجام می شوند و دقت عملی که وجود دارد بستگی به زبان مورد استفاده برای OCR دارند چه بسا زبان فارسی یکی از دشوارترین زبان ها برای انجام فرآیند های تشخیص کاراکترها یا OCR است.

OCR چیست

هدف اصلی OCR این است که یک مستند که چاپ شده است یا متنی که تبدیل به تصویر یا عکس شده است را از درون آن بیرون کشیده و تبدیل به کاراکترهای متنی کند. همانطور که می دانید اگر شما یک متن را تبدیل به عکس کنید دیگر چیزی به نام کاراکتر وجود نخواهد داشت و همه آنها تبدیل به پیکسل های عکس می شوند و دیگر قابل ویرایش نخواهند بود. در OCR نرم افزار مربوطه تلاش می کند که از داخل این عکس پرینت شده یا تصویر موجود در کامپیوتر کاراکترهای متنی را شناسایی کند و این کاراکترها را در کنار هم قرار داده و تبدیل به متن قابل ویرایش در انواع نرم افزارهای پردازش کلمات کند ، در چنین حالتی معمولا کل مستند اولیه یا همان عکس تبدیل به یک ساختار جدید می شود. اما دقت کنید که با توجه به اینکه ساختار کاری OCR بر اساس الگوریتم ها و الگوهایی است که از قبل برای شناسایی کاراکترها در عکس ها طراحی شده است و با توجه به اینکه در زبان های مختلف ساختار کلمات و حروف و در کنار هم قراردادن آنها و حتی فونت های مختلف باعث می شوند که ساختار OCR یک ساختار کاملا و 100 درصد دقیق نداشته باشد و در نهایت خروجی فایل متنی به احتمال زیاد نیاز به ویرایش و بازنگری خواهد داشت اما به هر حال OCR باعث می شود که نیاز شما به ایجاد کردن مجدد کل مستند کاهش پیدا کند.

ادامه مطلب...
۲۶ آذر ۹۵ ، ۱۸:۰۳ ۰ نظر موافقین ۰ مخالفین ۰

پروژه‌ی متن باز Tesseract OCR

تسرکت یه پروژه متن باز است که برای زبان های زیادی از جمله انگلیسی و عربی آموزش داده شده است و قابلیت آموزش زبان های جدید را داراست.

برای آموزش باید حداقل دو فایل تهیه شود. یکی تصویر یک متن با فرمت tif  یا  pngکه میان کلمات آن فاصله گذاری بیش از حالت عادی صورت گرفته باشد و فایل متنی با پسوند باکس که مختصات حروف یا زیرکلمه های موجود در عکس در آن بیان شده است. زیرکلمه به حروف به هم چسبیده ای میگویند که مجموع آنها کلمات را تشکیل می دهد.

همچنین میتوان چند دیکشنری (دیکشنری کلمات متداول و دیکشنری تمام کلمات یک زبان) را در مرحله آموزش با فرمت dawg برای بهبود عملکرد برنامه به آن اضافه کرد.

۲۶ آذر ۹۵ ، ۱۷:۴۲ ۰ نظر موافقین ۰ مخالفین ۰

پرشیانگار

پرشیانگار، یک سامانه‌ی OCR قدرتمند است که شما را از در بسیاری از موارد از تایپ مجدد مستندات چاپی بی‌نیاز می‌کند. با استفاده از پرشیانگار می‌توانید در کمتر از چند ثانیه اسناد چاپی‌تان را با دقتی بیش از ٩۵% به متون متناظر تبدیل کنید. کافیست صفحه‌ی مورد نظر را با دقت (درجه تفکیک) ٣٠٠ dpi اسکن کنید و تصویر آن را به پرشیانگار بسپارید. رابط کاربری زیبا و کاربرپسند، استفاده از پرشیانگار را بسیار تسهیل می کند. می‌توانید با کلیک بر روی یک دکمه، اسنادتان را بخوانید! پرشیانگار، چرخش تصویر را اصلاح می‌کند، نواحی مختلف متنی و تصویری را پیدا می‌کند و نواحی متنی را با دقت و سرعت برایتان تایپ می‌کند! اگر هم مایل بودید می‌توانید خودتان به کمک ابزار ایجاد ناحیه، نواحی مورد علاقه‌ی خود را تعیین کنید تا سیستم تنها همان نواحی را بخواند.

امروزه همه به دنبال جستجوی آسان در مطالب و اطلاعات آرشیوی هستند. این کار برای اسنادی که از ابتدا دیجیتالی بوده‌اند کار آسانی است، اما برای آرشیوها کاغذی این کار نشدنی است؛ با استفاده از پرشیانگار، به راحتی اسناد کاغذی خود را قابل جستجو کرده و به آنها روح و زندگی ببخشید.

نسخه های پرشیانگار

پرشیانگار در دو نسخه پایه و نقره ای منتشر می شود که ویژگیهای هر یک در ادامه می آید:

ویژگیهای نسخه پایه

* دقت بازشناسی بالای ٩۵% برای اسناد با درجه تفکیک ٣٠٠ نقطه بر اینچ
* دقت بازشناسی بالای ٩٠% برای اسناد با درجه تفکیک ٢٠٠ نقطه بر اینچ
* سرعت بالای بازشناسی: خواندن یک صفحه A4 در کمتر از ۴ ثانیه
* اصلاح خودکار چرخش تصاویر ورودی
* تحلیل خودکار پیکربندی صفحه (یافتن نواحی متنی و تصویری)
* قابلیت ایجاد و حذف نواحی مختلف به صورت دستی
* ویرایشگر متنی داخلی
* پذیرش تصاویر با فرمتهای BMP, JPG, PNG, TIFF و سایر فرمتهای متداول به عنوان ورودی
* پشتیبانی از ده قلم مرسوم فارسی شامل نازنین، میترا، لوتوس، زر، یاقوت، ترافیک، هما، تیتر، تایمز و تاهما
* رابط کاربری زیبا و کاربرپسند


منبع: وب‌سایت سامانه پرشیانگار
۲۴ آذر ۹۵ ، ۱۴:۴۰ ۰ نظر موافقین ۰ مخالفین ۰

OCR فارسی چیست؟

OCR کوته نوشت بازشناسی نوری نویسه‌ها یا نویسه‌خوان نوری است. OCR ابتدا تنها در مورد بازشناسی ارقام و حروف چاپی بکار گرفته میشد. واژه نوری در مقابل عبارت مرکب مغناطیسی قرار داده شد تا این روش را از روش قدیمیتر بازشناسی نویسه‌ها با مرکب مغناطیسی MICR متمایز کند. با گذشت زمان و پیشرفت قابل توجه در این زمینه، روش‌های بازشناسی دست‌نوشته و متون چاپی مطرح شدند که دامنه کار را به کلمات و عبارات رساندند. با وجود عدم تطبیق دقیق OCR با این موارد، این نام برای این روش‌ها و تا حدی برای بازشناسی دستنوشته‌های برخط هم استفاده شد و رواج پیدا کرد. این روزها OCR را بیشتر برای بازشناسی مستندات چاپی مثل صفحات کتاب‌ها، مجله‌ها و نامه‌های چاپی بکار می‌برند.

یک سامانه  OCR مثل یک نفر ماشین نویس، یک متن را میخواند و آن را به قالب مناسب برای ذخیره در کامپیوتر تبدیل میکند. معمولاً یک روبشگر تصویر متن را برای  OCR فراهم میکند. این تصویر معمولاً از نقاط سیاه و سفید تشکیل میشود. سامانه  OCR اشیاء موجود در این تصویر را که ارقام، حروف، علائم و کلمات هستند، بازشناسی میکند و نام آنها را در قالب مناسب ذخیره میکند. یک فایل تصویری حجم زیادی دارد و جستجوی متنی در آن ممکن نیست. این در حالی است که فایل خروجی یک سامانه  OCR بسیار کم حجم و قابل جستجو است.

منبع: پژوهش‌نامه‌ی نویسه‌خوان نوری (OCR) فارسی
۲۲ آذر ۹۵ ، ۱۳:۰۱ ۰ نظر موافقین ۱ مخالفین ۰