OCR چیست؟ مقدمه‌ای از تشخیص نوری کاراکترهای چاپی

اگر غرق در دنیای فناوری باشید، احتمالا برای شما هم جالب باشد که بدانید OCR چیست ؟ از این رو در این مطلب قصد داریم مقدمه‌ای را در مورد تشخیص نوری کاراکترهای چاپی در اختیار شما قرار دهیم.

در ابتدای امر برای این که بدانید OCR چیست باید بگوییم که فرآیند تبدیل تصاویر اسکن شده از متن دست نویس، تایپ شده یا چاپ شده به متن رمزگذاری شده در ماشین به صورت مکانیکی یا الکترونیکی را تشخیص نوری کاراکترهای چاپی (OCR) می گویند. این فرآیند را می توان مشابه با تبدیل داده‌های آنالوگ به داده‌های دیجیتال تصور کرد.

در این مقاله مقدماتی با موارد زیر آشنا خواهید شد:

فناوری تشخیص نوری کاراکترهای چاپی یا OCR چیست
تشخیص نوری کاراکترهای چاپی چگونه کار می کند

لازم نیست یک برنامه نویس باتجربه یا کارشناس فنی باشید تا تصمیم بگیرید درباره این که OCR چیست آگاهی کسب کنید و بفهمید چگونه کار می کند. در این مطلب قصد داریم این فناوری را با کمترین اصطلاحات فنی توضیح دهیم.

اگر می دانید OCR چیست لطفاً این بخش را نادیده گرفته و به قسمت نحوه کار OCR بروید یا نمونه کارهایی را که می توانید با این فناوری انجام دهید بخوانید.

OCR چیست؟

قبل از این که بدانید OCR چیست باید بدانید که این کلمه مخفف تشخیص نوری کاراکترهای چاپی است. فناوری OCR نیز به مشکل شناسایی انواع گوناگون کاراکترهای چاپی می‌پردازد. این فناوری می‌تواند هم کاراکترهای دست نویس و هم چاپ شده را تشخیص دهد و در قالب داده های دیجیتالی قابل خواندن توسط ماشین تبدیل کند.

هر نوع شماره سریال یا کد متشکل از اعداد و حروف را تصور کنید که می خواهید به صورت دیجیتال در آید. با استفاده از فناوری OCR می توانید این کدها را به یک خروجی دیجیتال تبدیل کنید. این فناوری از تکنیک های مختلفی استفاده می کند. به زبان ساده، تصویر گرفته شده پردازش می شود، کاراکترها استخراج می شوند و سپس شناسایی می شوند.

OCR به ماهیت واقعی آنچه می خواهید اسکن کنید کاری ندارد، بلکه به کاراکتر هایی که قصد تبدیل آنها به قالب دیجیتالی را دارید تنها “نگاهی” می اندازد. برای مثال، اگر کلمه ای را اسکن کنید، حروف آن را تشخیص می دهد نه معنای آن را.

چه فناوری پشت OCR نهفته است؟

تشخیص نوری کاراکترهای چاپی یا OCR، فناوری نوینی است که به شما اجازه می دهد انواع مختلف متون چاپی، مانند متون کاغذی اسکن شده، فایل های پی‌دی‌اف یا تصاویر گرفته شده با دوربین دیجیتال را به داده های قابل ویرایش و قابل جستجو تبدیل کنید.

تصور کنید که یک متن کاغذی دارید. به عنوان مثال مقاله ای از یک مجله، بروشور یا یک قرارداد پی‌دی‌اف که شریکتان از طریق ایمیل برای شما ارسال کرده است. بدیهی است برای آنکه بتوانید این اطلاعات را در برنامه ای مانند مایکروسافت ورد ویرایش کنید، فقط یک اسکنر کافی نخواهد بود. تنها کاری که اسکنر می تواند انجام دهد ایجاد یک تصویر یا عکس فوری از متن است که چیزی بیش از مجموعه نقاط سیاه و سفید یا رنگی نیست، که به عنوان تصویر رستری شناخته می شود.

برای استخراج و استفاده مجدد از داده های اسکن شده، تصاویر دوربین یا پی‌دی‌اف های غیرقابل ویرایش، به یک نرم افزار OCR نیاز دارید تا حروف روی تصویر را تشخیص دهد، آنها را به شکل کلمات درآورد و سپس کلمات را به صورت جملات درآورد و در نهایت شما قادر خواهید بود به محتوای متن اصلی دسترسی پیدا کرده و آن را ویرایش کنید.

تشخیص نوری کاراکتر های چاپی چگونه کار می کند؟

حال نگاهی به سه مرحله اساسی در تشخیص نوری کاراکتر ها می‌اندازیم:

پیش پردازش تصویر
تشخیص کاراکتر
پس‌پردازش خروجی.

مرحله ۱) پیش پردازش تصویر در OCR چیست

نرم افزار OCR اغلب تصاویر را پیش پردازش می کند تا احتمال تشخیص موفقیت آمیز را ارتقا دهد. هدف از پیش پردازش تصویر، بهبود داده های واقعی تصویر است. به این ترتیب، بدریختی/کج و کولگی ناخواسته حذف می شود و ویژگی های خاص تصویر بهبود می یابد. این دو فرآیند برای مراحل بعدی مهم هستند.

مرحله ۲) تشخیص کاراکتر در OCR

بهترین مثال برای این مرحله امکان شناسایی کاراکترهای پلاک خودرو است. برای تشخیص حقیقی کاراکتر، باید بفهمیم استخراج ویژگی چیست و چه مفهومی دارد؟

اگر داده های ورودی به حدی بزرگ باشند که پردازش آنها ممکن نباشد، فقط مجموعه محدودی از ویژگی ها انتخاب می شود. انتظار می رود ویژگی های انتخاب شده ویژگی های مهم باشند اما مواردی که احتمال می رود زاید باشند، نادیده گرفته شود. با استفاده از مجموعه محدود شده داده ها به جای مجموعه بزرگ اولیه، عملکرد بهبود می یابد.

در فرایند OCR، این مساله از اهمیت به سزایی برخوردار است. زیرا الگوریتم باید بخش‌ها یا شکل‌های خاص یک تصویر دیجیتالی یا ویدئو را تشخیص دهد.

مرحله ۳) پس‌پردازش در OCR چیست

پس‌ پردازش یکی دیگر از روش های تصحیح خطا است که دقت بالای OCR را تضمین می کند. اگر خروجی به یک واژه نامه محدود شود، دقت این فرایند بیشتر می شود. به این ترتیب، الگوریتم می تواند به لیستی از کلمات رجوع کند که مجاز است در متن اسکن شده بیایند.

OCR نه تنها برای شناسایی کلمات مناسب استفاده می شود. بلکه می تواند اعداد و کدها را نیز بخواند. این ویژگی برای شناسایی رشته های طولانی اعداد و حروف، مانند شماره سریال های مورد استفاده در بسیاری از صنایع مفید است.

برای مدیریت بهتر انواع مختلف ورودی در OCR، برخی از متخصصان سیستم های OCR منحصر به فردی تولید کردند. این سیستم‌ها می توانند با تصاویر خاص کار کنند و برای بهبود دقت تشخیص، روش های مختلف بهینه سازی را با هم ترکیب می کنند.

به عنوان مثال این سیستم ها از قوانین تجاری، عبارات و جملات استاندارد یا اطلاعات فراوان نهفته در تصویر رنگی استفاده می‌کنند. به این شیوه ادغام تکنیک های مختلف بهینه سازی OCR برنامه محور یا OCR سفارشی گفته می شود. از این شیوه در برنامه هایی مانند کارت ویزیت OCR، فاکتور OCR و کارت شناسایی OCR استفاده می شود.

بهره٬گیری از فناوری OCR سرعتی ۴۰ برابر تایپ مجدد دستی دارد!

تشخیص متون ۴۰ برابر سریعتر از تایپ مجدد دستی است. به عنوان مثال یک تایپیست در هر دقیقه ۲۰۰ کاراکتر تایپ می کند (اگر با سرعت بالا تایپ کند) در حالی که سریعترین نرم افزار OCR می تواند در هر ثانیه حدود ۱۶۰۰ کاراکتر را در یک رایانه ” استاندارد” تشخیص می دهد.

موارد استفاده از فناوری OCR

موارد استفاده از نرم افزار تشخیص نوری کاراکتر های چاپی بسیار گسترده است. چرا که OCR می تواند با طیف وسیعی از فناوری ها ترکیب شود. در اینجا چند نمونه از موارد استفاده از نرم افزار OCR ذکر شده است:

۱) فرآیندهای شناسایی در OCR

قسمت قابل پردازش توسط رایانه در گذرنامه بهترین نمونه از فرآیندهای شناسایی در OCR هستند. گذرنامه و شناسنامه دارای قسمتی است که قابل پردازش توسط رایانه است و می‌توان آن بخش را اسکن کرد.

OCR می تواند روند شناسایی و ثبت نام افراد را تسریع کند. این فناوری برای نیروهای امنیتی در مرزها یا سایر ایست های بازرسی مفید است. همچنین می توان از آن برای اهداف تجاری استفاده کرد تا تعامل مشتریان ارتقا یابد. از جمله در پذیرش هتل ها، یا ثبت حساب در بانک ها و دیگر خدمات.

۲) کمپین‌های بازاریابی با OCR

برند های مشهور از OCR برای راه اندازی کمپین های نوآورانه و جذاب استفاده می کنند تا با مشتریان خود تعامل برقرار کنند. برای مثال همه کدهای تخفیفی که مشتریان می توانند با تایپ کردن آنها از تخفیفات استفاده کنند. یا اعدادی که روی درب بطری چاپ شده و مشتری آنها را جمع آوری می کند.

همه این کمپین ها می توانند با تلفیق نرم افزار که به راحتی در وب سایت ها و اپلیکیشن های شرکت ادغام می شود، از فناوری OCR استفاده کنند. به این ترتیب، از بار ثبت نام آنلاین را کاسته می شود و دیگری نیازی به تایپ یک سری عدد و حرف توسط مشتریان نخواهد بود.

برای نمونه شرکت پپسی کو در یکی از کمپین های بازاریابی خود در ترکیه از فناوری OCR استفاده کرد و کدهای تخفیف را داخل بسته های محبوب چیپس مانند Lays، Ruffles و Doritos قرار داد و مشتریان می بایست این کد ها را اسکن می کردند.

۳) OCR در فرآیندهای پرداخت

اسکن شماره حساب بانکی بین المللی با استفاده از OCR از مهم‌ترین فرآیندهای پرداخت با این تکنولوژی است. شماره حساب بانکی بین المللی (IBAN) برای شناسایی فرامرزی حساب های بانکی به کار می رود.

شماره حساب بانکی بین المللی ممکن است در کشور های مختلف تعداد ارقام متفاوتی داشته باشد و شامل اعداد و همچنین حروف باشد. برای سهولت انجام معاملات فرامرزی، بانک‌ها می توانند نرم افزار OCR را در اپلیکیشن هایشان به راحتی ادغام کنند. به این ترتیب مشتریان آنها می توانند به جای اینکه شماره حساب بانکی بین المللی خود را تایپ کنند، آن را اسکن کنند.

یوآیدی با فناوری های هوش مصنوعی همچون OCR و تطابق چهره، سرویس احراز هویت دیجیتال را به کسب و کارها و سازمان ها ارائه می نماید. سرویس احراز هویت یوآیدی به عنوان اولین راهکار احراز هویت دیجیتال، با استفاده از الگوریتم های هوش مصنوعی مانند یادگیری عمیق، تشخیص چهره و تشخیص زنده بودن چهره کاربر، فرایند احراز هویت ثنا، احراز هویت سجام برای دریافت کد بورسی، احراز هویت سامانه روابط کار و همچنین احراز هویت صرافی رمز ارز را با ضریب خطای کمتر از ۰.۰۱ درصد انجام می دهد.