ماشینها میتوانند به گونهای آموزش داده شوند که تصاویر را به همان شیوهای تفسیر کنند که مغز انسان تفسیر میکند و آن تصاویر را کاملتر از ما انسانها، تحلیل کنند. هوش مصنوعی در پردازش تصویر میتواند با قدرت به بازشناسی چهره و احراز هویت بپردازد تا از امنیت در مکانهای عمومی، آشکارسازی و تشخیص اشیا و الگوها در تصاویر و ویدئوها و غیره، اطمینان یابد.
در این مقاله درباره پردازش تصویر به صورت دیجیتالی و نقش هوش مصنوعی در آن صحبت میکنیم. همچنین بعضی از تکنیکها و ابزارهای پردازش تصویر به وسیله هوش مصنوعی را بررسی خواهیم کرد که ممکن است برای طراحی کاربردهای هوشمند از آن استفاده کنید. همچنین نگاهی به مشهورترین مدلهای شبکه عصبی داریم که برای کارهای مختلف پردازش تصویر استفاده میشوند. این مقاله برای هر شخصی که قصد دارد راهحل هوش مصنوعی را برای پردازش تصویر به کار بگیرد، مفید خواهد بود.
پردزاش تصویر چیست؟
پردازش تصویر به معنی دستکاری در تصویر است تا وضعیت آن بهتر شود یا اطلاعاتی از آن استخراج شود. دو روش برای پردازش تصویر وجود دارد:
- پردازش آنالوگ تصویر برای پردازش عکسهای فیزیکی، پرینت گرفته شده و سایر کپیهای سفت تصاویر به کار میرود.
- پردازش دیجیتالی تصویر برای دستکاری تصاویر دیجیتالی با کمک الگوریتمهای کامپیوتری به کار میرود.
در هر دو مورد ورودی، یک تصویر است. در پردازش آنالوگ تصویر، خروجی همیشه یک تصویر است. در پردازش دیجیتالی تصویر، خروجی میتواند یک تصویر یا اطلاعاتی مربوط به آن تصویر باشد، از جمله دادههای مربوط به ویژگیها، مشخصات، کادر تصاویر یا پوشاندن.
امروزه پردازش تصویر تا حد زیادی در تصاویر پزشکی، زیستسنجی، وسایل نقلیه خودکار بدون راننده، بازی، پایش، اجرای قانون و سایر موارد به کار میرود. در اینجا بعضی از اهداف اصلی پردازش تصویر را بیان میکنیم:
- تصویریسازی : دادههای پردازش شده را به شیوههایی نشان میدهد که قابل درک باشد و شکل تصویری اشیایی که قابل دیدن نیستند را به نمایش بگذارد.
- واضح ساختن تصویر و ترمیم آن : بهبود کیفیت تصاویر پردازش شده.
- بازیابی تصویر : کمک در جستجوی تصویر.
- اندازهگیری شی : اندازهگیری اشیا در تصویر.
- تشخیص الگو : تمایز و طبقهبندی اشیا در یک تصویر، شناسایی موقعیتهای آنها، و درک صحنه تصویر.
مراحل پردازش دیجیتالی تصویر
پردازش دیجیتالی تصاویر شامل هشت مرحله کلیدی است.
در ادامه به بررسی هر یک از این مراحل میپردازیم:
- کسب تصویر : فرایند به دست آوردن تصویر به وسیله یک گیرنده (از جمله دوربین) و تبدیل آن به یک وضعیت قابل مدیریت است. یک روش مشهور برای کسب تصویر، بریدن آن است. در کاربردی قیاسی، چندین ابزار متعارف کسب تصویر ساختهایم تا به مشتریان خود کمک کنیم مجموعه دادههای با کیفیتی برای آموزش مدلهای شبکه عصبی، جمعآوری کنند.
- افزایش کیفیت تصویر : کیفیت تصویر را بهبود میدهد تا اطلاعات پنهان را برای پردازش بیشتر، از آن استخراج کند.
- ترمیم تصویر : این کار نیز موجب بهبود کیفیت تصویر میشود که بیشتر به وسیله برداشتن خرابیهای احتمالی انجام میشود تا نسخه شفافتری از تصویر به دست آید. این فرایند بیشتر بر اساس مدلهای ریاضیاتی و احتمالی به کار میرود و میتواند برای از بین بردن تیرگی، نویز، پیکسلهای جا افتاده، فوکوس اشتباه دوربین، نقاط سفید در تصویر و سایر خرابیهایی به کار رود که تاثیری منفی بر آموزش شبکه عصبی دارند.
- پردازش تصویر رنگی : شامل پردازش تصاویر رنگی و فضاهای مختلف رنگی است. با توجه به نوع تصویر، میتوانیم درباره پردازش شبه رنگها (هنگامی که رنگها، سایه دارند) یا پردازش RGB صحبت کنیم (برای تصاویری که با گیرنده کاملا رنگی به دست آمدند).
- فشردگی تصویر و فشار زدایی : امکان تغییر اندازه و وضوح تصویر را میدهد. فشرده سازی، موجب کاهش اندازه و وضوح تصویر میشود درحالی که فشار زدایی، برای بازیابی تصویر در اندازه و وضوح واقعی آن به کار میرود.
این تکنیکها اغلب در طول فرایند تقویت تصویر به کار میروند. وقتی دادههای چندانی ندارید، میتوانید مجموعه دادههای خود را با تصاویر تقویت شده، افزایش دهید. به این ترتیب، میتوانید شیوه تعمیم دادهها توسط مدل شبکه عصبی را بهبود بخشیده و اطمینان یابید نتایجی با کیفیت بالا به دست میآورید.
- پردازش ریختشناختی : شکلها و ساختارهای اشیا در تصویر را نشان میدهد. تکنیکهای پردازش ریختشناختی میتوانند هنگام ساخت مجموعه دادهها برای آموزش مدلهای هوش مصنوعی به کار روند. تحلیل و پردازش ریختشناختی میتواند در مرحله تفسیر به کار رود که در آن توضیح میدهید مدل هوش مصنوعی شما باید چه چیز را آشکار کند یا تشخیص دهد.
- تشخیص تصویر : به فرایند شناسایی ویژگیهای خاص اشیایی خاص در یک تصویر اشاره دارد. تشخیص تصویر با استفاده از هوش مصنوعی، اغلب از تکنیکهایی مانند آشکارسازی شی، تشخیص شی و تقسیمبندی استفاده میکند.
راهحلهای هوش مصنوعی در اینجا کاربرد بسیار خوبی دارند. وقتی همه این مراحل پردازش تصویر را تکمیل کردید، آمادهاید تا یک راهحل هوش مصنوعی واقعی را بسازید، یاد بگیرید و آزمایش کنید. فرایند توسعه یادگیری عمیق، شامل چرخه کاملی از عملیاتها از کسب داده تا به کارگیری مدل هوش مصنوعی توسعه یافته در سیستم نهایی است.
- بازنمایی و توضیح : به معنی فرایند تصویریسازی و توضیح دادههای پردازش شده است. سیستمهای هوش مصنوعی به گونهای طراحی میشوند که تا حد ممکن، کارایی موثری داشته باشند. داده خام خروجی در یک سیستم هوش مصنوعی، شبیه به اعداد و مقادیری به نظر میرسد که اطلاعاتی را بازنمایی میکنند، که مدل هوش مصنوعی، برای تولید آن آموزش دیده است.
با این حال به دلیل عملکرد سیستم، یک شبکه عصبی عمیق معمولا شامل هیچ بازنمایی از داده خروجی نیست. میتوانید با استفاده از ابزارهای تصویریسازی خاص، این اعداد و مقادیر را به تصاویر قابلخواندن و مناسب برای تحلیل بیشتر تبدیل کنید.
درهرحال از آنجا که هر یک از این مراحل، نیازمند پردازش مقادیر انبوهی از داده هستند، نمیتوانید آنها را به شکل دستی انجام دهید. در اینجا الگوریتمهای هوش مصنوعی و یادگیری ماشینی (ML) بسیار مفید خواهند بود.
استفاده از هوش مصنوعی و یادگیری ماشینی، سرعت پردازش داده و کیفیت نتیجه نهایی را افزایش میدهد. مثلا با کمک پلتفرمهای هوش مصنوعی میتوانیم کارهای پیچیدهای مانند آشکارسازی شی، تشخیص چهره و تشخیص متن را با موفقیت انجام دهیم. البته به منظور کسب نتایج با کیفیت، لازم است ابزارها و روشهای صحیحی را انتخاب کنیم.
تکنیکها، ابزارها و روشهای پردازش تصویر
بیشتر تصاویری که با گیرندههای مرسوم گرفته میشوند، به پردازش مجدد نیاز دارند، زیرا ممکن است فوکوس آنها اشتباه باشد یا نویز بسیار زیادی داشته باشد. فیلترسازی و آشکارسازی لبهها دو مورد از رایجترین روشهای پردازش تصاویر دیجیتال هستند.
فیلترسازی برای تقویت و اصلاح تصویر ورودی به کار میرود. با کمک فیلترهای مختلف میتوانید ویژگیهای خاصی از یک تصویر را تقویت کنید یا بردارید، نویز تصویر را کاهش دهید و کارهای دیگری نیز انجام دهید. تکنیکهای محبوب فیلتر کردن شامل فیلترینگ خطی، فیلترینگ میانه و فیلترینگ وینر هستند.
آشکارسازی لبهها از فیلترهایی برای تقسیمبندی تصویر و استخراج داده استفاده میکند. این روش با آشکارسازی مواردی که روشنایی تصویر قطع شده است، به یافتن لبههای معنادار اشیا در تصاویر پردازش شده کمک میکند. آشکارسازی لبه کانی، آشکارسازی لبه سوبل و آشکارسازی لبه رابرتز از جمله محبوبترین تکنیکهای آشکارسازی لبه هستند.
تکنیکهای محبوب دیگری نیز برای انجام کارهای پردازش تصویر وجود دارد. تکنیک موج کوچک یا ویولوت برای فشردگی تصویر استفاده میشود. هر چند این تکنیک برای از بین بردن نویز نیز کاربرد دارد.
بعضی از این فیلترها میتوانند به عنوان ابزار تقویت تصویر نیز استفاده شوند. مثلا در یکی از پروژههای اخیرمان، یک الگوریتم هوش مصنوعی طراحی کردیم که از آشکارسازی لبه برای کشف سایز فیزیکی اشیا در دادههای تصاویر دیجیتالی استفاده میکند.
برای استفاده آسانتر از این تکنیکها و اجرای پردازش تصویر به وسیله هوش مصنوعی، میتوانید از کتابخانهها و قالبهای ویژهای استفاده کنید. در بخش بعد به بعضی از محبوبترین کتابخانههای منبع باز برای تکمیل کارهای پردازش تصویر با کمک الگوریتمهای هوش مصنوعی خواهیم پرداخت.
کتابخانههای منبع باز برای پردازش تصویر به وسیله هوش مصنوعی
کتابخانههای تصویری در کامپیوتر حاوی الگوریتمها و کارکردهای مشترک پردازش تصویر است. چندین کتابخانه منبع باز وجود دارد که میتوانید هنگام طراحی پردازش تصویر و ویژگیهای تصویر کامپیوتری از آن استفاده کنید:
- اوپن سی وی
- کتابخانه تصویری سازی
- مفسر تصویر VGG
اوپن سی وی
کتابخانه تصویر کامپیوتری منبع باز (Open CV) یک کتابخانه تصویری کامپیوتری محبوب است که صدها الگوریتم یادگیری ماشینی و کامپیوتری و هزاران کارکرد برای تشکیل و پشتیبانی این الگوریتمها تهیه میکند. کتابخانه با واسطههای C++، جاوا و پایتون کار میکند و همه دسکتاپهای مشهور و سیستم عاملهای موبایل را پشتیبانی میکند.
اوپن سی وی شامل ماژولهای مختلفی است از جمله ماژول پردازش تصویر، ماژول آشکارسازی شی و ماژول یادگیری ماشینی. با استفاده از این کتابخانه میتوانید دادههایی را از تصاویر به دست آورده، فشرده ساخته، تقویت کرده، و ذخیره نموده و استخراج کنید.
کتابخانه تصویری سازی
یک میانافزار با واسطه C++ برای اپلیکیشنهای دو بعدی و سه بعدی بر اساس کتابخانه گرافیک آزاد (OpenGL) است. این جعبه ابزار به شما امکان میدهد اپلیکیشنهای پرتابل و با عملکرد سطح بالا برای سیستم عاملهای ویندوز، لینوکس، و مک او اس بسازید. از آنجا که بسیاری از گروههای کتابخانه تصویری، نقشه برداری تک به تک شهودی با کارکردها و ویژگیهای کتابخانه OpenGL دارد، کار با این میانافزار آسان و راحت است.
مفسر تصویر VGG
مفسر تصویر VGG (VIA) یک اپلیکیشن وب برای تفسیر شی است. این اپلیکیشن میتواند مستقیما در موتور جستجوی وب نصب شده و برای تصویر اشیای آشکارشده در تصاویر، صوت و ویدئوها به کار رود.
کار با VIA آسان است، نیازی به تنظیم یا نصب اضافی ندارد، و میتواند با هر جستجوگر مدرنی استفاده شود.
چارچوبهای یادگیری ماشینی و پلتفرمهای پردازش تصویر
اگر بخواهید فراتر از استفاده ساده از الگوریتمهای هوش مصنوعی عمل کنید، میتوانید مدلهای یادگیری عمیق و متعارف برای پردازش تصویر را بسازید. برای اینکه پیشرفتتان سریعتر و آسانتر باشد، میتوانید از پلتفرمها و چارچوبهای ویژه استفاده کنید. در ادامه، نگاهی به بعضی از مشهورترین پلتفرمها داریم:
- تنسور فلو
- پای تورچ
- جعبه ابزار پردازش تصویر مطلب
- مایکروسافت کامپیوتر ویژن
- گوگل کلود ویژن
- همکاری گوگل (Colab)
تنسور فلو
تنسور فلو گوگل یک چارچوب مشهور منبع باز با پشتیبانی یادگیری ماشینی و یادگیری عمیق است. با استفاده از تنسور فلو میتوانید مدلهای یادگیری عمیق متعارف را بسازید و یاد بگیرید. چارچوب شامل مجموعهای از کتابخانههاست از جمله مواردی که در پروژههای پردازش تصویر و اپلیکیشنهای ویژن کامپیوتر استفاده میشوند.
پای تورچ
پای تورچ یک چارچوب یادگیری عمیق منبع باز است که ابتدا توسط آزمایشگاه تحقیقات هوش مصنوعی فیسبوک (FAIR) ساخته شد. این چارچوب که بر اساس تورچ نوشته شده است، واسطههای پایتون، C++ و جاوا را به کار میگیرد.
میتوانید از پای تورچ برای ساخت اپلیکیشنهای پردازش زبان طبیعی و ویژن کامپیوتر استفاده کنید.
جعبه ابزار پردازش تصویر مطلب
مطلب، خلاصه آزمایشگاه ماتریس است. این نام یک پلتفرم مشهور برای حل مسئلههای علمی و ریاضی، و یک زبان برنامهنویسی است. این پلتفرم یک جعبه ابزار پردازش تصویر (IPT) تهیه میکند که شامل الگوریتمهای چندگانه و اپلیکیشنهای جریان کار برای پردازش، تصویریسازی و تحلیل تصاویر و طراحی الگوریتمهاست.
MATLAB IPT به شما امکان میدهد جریانهای کار رایج در پردازش تصویر را به شکل خودکار درآورید. این جعبه ابزار میتواند برای کاهش نویز، تقویت تصویر، تقسیمبندی تصویر، پردازش سه بعدی تصویر، و سایر کارها استفاده شود. بسیاری از کارکردهای IPT، نسل کد C/C++ را پشتیبانی میکنند، بنابراین میتوانند برای آرایش سیستمهای تصویر تعبیه شده و نمونههای دسکتاپ به کار روند.
MATLAB IPT یک پلتفرم منبع باز نیست اما آزمایش آن مجانی است.
مایکروسافت کامپیوتر ویژن
کامپیوتر ویژن یکی از خدمات سیستم کلود است که توسط مایکروسافت فراهم میشود و به وسیله آن میتوانید به الگوریتمهای پیشرفته ای برای پردازش تصویر و استخراج داده دسترسی یابید. با استفاده از خدمات آن میتوانید کارهای زیر را انجام دهید:
- تحلیل ویژگیهای تصویری و مشخصات یک تصویر
- اصلاح محتوای تصویر
- استخراج متن از تصویر
گوگل کلود ویژن
کلود ویژن بخشی از پلتفرم کلود گوگل است و مجموعهای از ویژگیهای پردازش تصویر را پیشنهاد میدهد. این پلتفرم یک API برای یکی کردن ویژگیهایی مانند نامگذاری تصویر و طبقهبندی آن، تعیین محل شی و تشخیص شی تهیه میکند.
کلود ویژن به شما امکان میدهد از مدلهای یادگیری ماشینی از پیش آموخته استفاده کنید و مدلهای یادگیری ماشینی متعارف را برای حل کارهای مختلف پردازش تصویر، بسازید و یاد بگیرید.
همکاری گوگل (کولب- Colab)
همکاری گوگل که به نام کولب نیز شناخته میشود، یکی از خدمات مجانی کلود است که میتواند نه تنها برای بهبود مهارتهای کدگذاری بلکه برای طراحی اپلیکیشنهای یادگیری عمیق نیز استفاده شود.
کولب سبب میشود استفاده از کتابخانههای مشهوری مانند اوپن سیوی، کراس، و تنسور فلو در هنگام طراحی اپلیکیشن به وسیله هوش مصنوعی، آسانتر شود. این خدمات بر اساس شبکههای ژوپیتر است که به طراحان هوش مصنوعی امکان میدهد دانش و تخصص خود را با روشی آسان به اشتراک بگذارند. به علاوه، کولب برخلاف خدمات مشابه، منابع مجانی GPU تهیه میکند.
علاوه بر کتابخانهها، چارچوبها و پلتفرمهای مختلف، ممکن است به پایگاه داده بزرگی از تصاویر نیاز داشته باشید تا مدل خود را یاد گرفته و آزمایش کنید.
چندین پایگاه داده باز حاوی میلیونها تصویر برچسب خورده وجود دارد که میتوانید برای یادگیری الگوریتمها و اپلیکیشنهای یادگیری ماشینی متعارف از آن استفاده کنید. ایمیجنت و پاسکال وک از جمله مشهورترین پایگاههای داده مجانی برای پردازش تصویر هستند.
استفاده از شبکههای عصبی برای پردازش تصویر
بسیاری از ابزارهایی که در بخش قبل درباره آن صحبت کردیم از هوش مصنوعی برای انجام کارهای پیچیده پردازش تصویر استفاده میکنند. درحقیقت، پیشرفتهایی که در هوش مصنوعی و یادگیری ماشینی انجام شده، یکی از دلایل پیشرفت چشمگیری است که در فناوری کامپیوتر ویژن اتفاق افتاده است و ما امروز شاهد آن هستیم.
بییشتر مدلهای موثر یادگیری ماشینی برای پردازش تصویر از شبکههای عصبی و یادگیری عمیق استفاده میکنند. یادگیری عمیق از شبکههای عصبی برای انجام کارهای پیچیده استفاده میکند تا آنها را به روشی انجام دهد که مغز انسان آن کار را انجام میدهد.
انواع مختلف شبکههای عصبی برای انجام کارهای مختلف پردازش تصویر به کار گرفته میشود که از طبقهبندی ساده دوتایی (تصویر با معیارهای خاصی تطبیق دارد یا خیر) تا تقسیمبندی فوری را در بر میگیرد. انتخاب نوع صحیح و معماری شبکه عصبی، نقشی ضروری در به کارگیری یک روش موثر هوش مصنوعی برای پردازش تصویر دارد.
در ادامه، چندین شبکه عصبی مشهور را بررسی کرده و کارهایی که به بهترین شکل انجام میدهند را شرح میدهیم.
خدمات مرتبط
Custom.NET Development Services (خدمات توسعه نت)
شبکه عصبی پیچشی
شبکههای عصبی پیچشی (ConvNets یا CNNs) گروهی از شبکههای یادگیری عمیق هستند که به صورت ویژه برای پردازش تصویر ساخته شدند. درهرحال CNN با موفقیت در انواع مختلف داده به کار رفته است و فقط مختص تصویر نیست.
در این شبکهها، نورونها به همان شکلی سازمان دهی و متصل میشوند که در مغز انسان دیده میشود. برخلاف سایر شبکههای عصبی، CNN نیازمند عملیاتهای پردازش کمتری است. به علاوه، CNN به جای استفاده از فیلترهایی که به صورت دستی کار میکنند (هر چند میتواند از آنها نیز بهرهمند شود) میتوانند فیلترها و مشخصات ضروری را در طول آموزش، فرا گیرند. CNNها شبکههای عصبی چندلایه هستند که شامل لایههای ورودی و خروجی و نیز تعدادی بلوک لایه پنهان هستند که از موارد زیر تشکیل شده است:
- لایههای پیچشی : برای فیلترسازی تصویر ورودی و به دست آوردن ویژگیهای خاصی نظیر لبهها، منحنیها و رنگها به کار میروند.
- لایههای ادغام : بهبود آشکارسازی اشیایی که به شکل غیرمعمول قرار داده شدهاند.
- لایههای نرمالسازی (ReLU) : بهبود عملکرد شبکه توسط نرمالسازی ورودیهای لایه قبلی
- لایههای کاملا متصل : لایههایی که نورونها در آن اتصالهای کاملی به همه موارد فعال شده در لایه قبلی دارند (مشابه شبکههای عصبی عادی).
همه لایههای CNN در سه بُعد (وزن، ارتفاع و عمق) آرایش مییابند و دو جزء دارند:
- استخراج ویژگیها
- طبقهبندی
در جزء اول، CNN پیچشهای چندگانه و کارهای ادغام انجام میشوند تا ویژگیهایی را آشکار کنند که سپس برای طبقهبندی تصویر به کار میروند.
در جزء دوم، با استفاده از ویژگیهای به دست آمده، الگوریتم شبکه تلاش میکند با محاسبه احتمال، پیشبینی کند شی داخل تصویر چیست.
CNN ها به صورت گسترده برای اجرای هوش مصنوعی در پردازش تصویر و حل مشکلاتی مانند پردازش سیگنال، طبقهبندی تصویر و تشخیص تصویر به کار میروند. انواع مختلفی از معماری CNN وجود دارد از جمله AlexNet, ZFNet, Faster R-CNN, GoogLeNet/Inception.
انتخاب معماری CNN بستگی به کاری دارد که قصد انجام آن را داریم. مثلا GoogLeNet در تشخیص برگ، دقت بالاتری نسبت به AlexNet یا CNN پایه نشان میدهد. همچنین اجرای GoogLeNet به دلیل تعداد لایههای بیشتر، به زمان بیشتری نیاز دارد.
Mask R-CNN یک شبکه عصبی عمیق بر پایه Faster R-CNN است که میتواند برای جداسازی اشیا در تصویر یا ویدئو پردازششده، به کار رود. این شبکه عصبی در دو مرحله کار میکند:
- تقسیمبندی شبکه عصبی : یک تصویر را پردازش میکند، نواحی که ممکن است حاوی اشیا باشد را آشکار میکند و پیشنهاداتی ارائه میکند.
- تولید ماسکها و کادرهای محدودکننده : شبکه، یک ماسک دوتایی برای هر گروه محاسبه کرده و نتایج نهایی را بر اساس این محاسبات، تولید میکند.
این مدل شبکه عصبی، انعطافپذیر و اصلاحپذیر است و در مقایسه با روشهای مشابه، عملکرد بهتری دارد. اما Mask R-CNN در پردازش زمان واقعی مشکل دارد. زیرا این شبکه عصبی نسبتا سنگین است و لایههای ماسک، کمی بالاسری به عملکرد آن اضافه میکنند و به ویژه در مقایسه با Faster R-CNN عملکرد کندتری دارد.
Mask R-CNN یکی از بهترین راهحلها برای تقسیمبندی فوری است. ما این معماری شبکه عصبی و مهارتهای خود در پردازش تصویر را در Apriorit به کار بردهایم تا کارهای بسیار پیچیدهای انجام دهیم. برای مثال پردازش دادههای تصاویر پزشکی و دادههای میکروسکوپی پزشکی. همچنین یک پلاگین را برای بهبود عملکرد این مدل از شبکه عصبی به کار بردهایم که عملکرد را به لطف استفاده از فناوری NVIDIA TensorRT افزایش داده است.
شبکه کاملا پیچشی
یک شبکه کاملا پیچشی (FCN) اولین بار توسط تیم محققان دانشگاه برکلی پیشنهاد شد. تفاوت اصلی بین CNN و FCN این است که FCN به جای لایهای پیچشی، یک لایه کاملا متصل عادی دارد. درنتیجه میتواند با سایزهای مختلف ورودی کار کند. همچنین FCN ها از کاهش ابعاد تصویر (پیچش راهراه) و افزایش ابعاد تصویر (پیچش جابجا شده) برای انجام عملیاتهای پیچش یا کانولو کردن با هزینه کمتر، استفاده میکنند.
یک شبکه عصبی کاملا پیچشی، برای تقسیمبندی تصویر در زمانی که شبکه عصبی، تصویر پردازش شده را به گروههای پیکسل چندگانه تقسیم میکند تا نامگذاری و طبقهبندی شوند، تناسب بسیار خوبی دارد. بعضی از مشهورترین FCN هایی که برای تقسیمبندی معنایی استفاده میشوند، DeepLab, RefineNet, Dilated Convolutions هستند.
U-Net
U-Net یک شبکه عصبی پیچشی یا کانوله سازی است که امکان تقسیمبندی سریع و دقیق تصویر را فراهم میکند. برخلاف سایر شبکههای عصبی که در فهرست ما ارائه شد، U-Net به صورت اختصاصی برای تقسیمبندی تصویر زیستپزشکی طراحی شد. بنابراین تعجبی ندارد که U-Net برتر از Mask R-CNN است، به ویژه در کارهای پیچیدهای مانند پردازش تصویر پزشکی.
U-Net یک معماری U شکل دارد و کانالهای ویژگیهای آن در بخش افزایش ابعاد تصویر، بیشتر است. درنتیجه، شبکه، اطلاعات زمینه را در لایههایی با وضوح بالاتر منتشر میکند و بنابراین مسیر گسترده کم و بیش متقارنتری برای بخش انقباضی آن میسازد.
در Apriorit سیستمی با پایه U-Net را با موفقیت برای تقسیمبندی یک تصویر پزشکی اجرا کردیم. این روش به ما امکان داد نتایج متنوعتری از پردازش تصویر به دست آوریم و نتایج به دست آمده را، با دو سیستم مستقل، تحلیل کنیم. تحلیل بیشتر زمانی مفید است که یک متخصص این حوزه احساس کند اطمینان چندانی درباره نتیجه تقسیمبندی یک تصویر خاص ندارد.
شبکههای زایای خصمانه
شبکههای زایای خصمانه (GAN) قرار است یکی از بزرگترین چالشهای شبکههای عصبی را حل کنند. و آن تصاویر خصمانه است.
تصاویر خصمانه با ایجاد خطاهای انبوه در شبکههای عصبی، شناخته شدهاند. مثلا اگر شبکه عصبی، لایهای از نویز تصویری به نام اختلال را در تصویر اصلی ایجاد کند، ممکن است موجب اشتباه شود. و هرچند تفاوت آن با مغز انسان تقریبا ناچیز است، اما الگوریتمهای کامپیوتری تلاش میکنند تصاویر خصمانه را به شکل درستی طبقهبندی کنند.
GAN ها شبکههای دوگانه هستند که شامل دو شبکهاند:
- یک تولیدکننده
- یک تفکیککننده
که در مقابل یکدیگر قرار میگیرند. شبکه تولیدکننده دادههای جدید تولید میکنند و شبکههای تفکیککننده، درستی این دادهها را ارزیابی میکنند.
به علاوه، برخلاف سایر شبکههای عصبی، GAN ها میتوانند به گونهای آموزش ببینند که دادههای جدیدی از جمله تصاویر، موسیقی و شعر را بسازند.
سرویس احراز هویت یوآیدی به عنوان اولین راهکار احراز هویت دیجیتال، با استفاده از الگوریتم های هوش مصنوعی مانند یادگیری عمیق، تشخیص چهره و تشخیص زنده بودن چهره کاربر، فرایند احراز هویت ثنا، احراز هویت سامانه روابط کار، احراز هویت سجام برای دریافت کد بورسی و همچنین احراز هویت صرافی رمز ارز را با ضریب خطای کمتر از ۰.۰۱ درصد انجام می دهد.