مروری بر امکان تشخیص تصاویر توسط هوش مصنوعی در بی مای آیز

نویسنده: میثم امینی

منبع: بیست و سومین شماره ی ماهنامه ی نسل مانا

دانلود نسخه ی صوتی نوشته

به احتمال زیاد نام بی مای آیز برای شما نامی آشناست. این برنامه در ژانویه ۲۰۱۵ شروع به کار کرد و این امکان را برای افراد نابینا و کم بینا فراهم کرد تا بتوانند با برقراری تماس تصویری با داوطلبان بینا از طریق تلفن همراه خود، از این داوطلبان در موارد مختلفی که نیاز به بینایی وجود دارد کمک بگیرند. هماهنگ کردن رنگ لباس ها، کار با وسایل منزل غیر دسترس پذیر و پیدا کردن وسایل گم شده نمونه هایی از مواردی است که افراد با آسیب بینایی می توانند به کمک بی مای آیز انجام دهند.

اخیراً شرکت بی مای آیز اعلام کرده است که می خواهد با استفاده از امکان جدید تشخیص تصویر نسخۀ۴ روبات هوش مصنوعی چَت جی پی تی، امکان دریافت توضیحات از تصاویر و پرسیدن سؤال در مورد آنها را با عنوان بی مای اِی  آی برای کاربران برنامه بی مای آیز فراهم کند. این امکان برای مدتی به صورت بسته مورد آزمایش قرار گرفت و بعد از مدتی فراخوان ثبت نام به عنوان آزمایش کنندۀ بتا منتشر شد که به کاربران بی مای آیز اجازه می داد برای آزمایش این امکان جدید داوطلب شوند.

از روز ۱۴ اوت امسال کاربران آیفون که قبلاً به عنوان داوطلب برای آزمایش امکان بی مای ای  آی ثبت نام کرده بودند، به تدریج به این امکان دسترسی پیدا کردند.

اکنون بی مای ای آی برای همۀ کاربران آیفون در دسترس است و این افراد می توانند از این امکان استفاده کنند. همچنین نسخۀ آزمایشی این امکان از چند هفته پیش، کم کم، در حال فعال شدن برای کاربران اندروید است که برای آزمایش این امکان ثبت نام کرده اند. پس اگر قبلاً برای آزمایش بی مای ای آی ثبت نام کرده اید، برنامۀ خود را به روز نگه دارید و منتظر رسیدن نوبتتان باشید. اگر هم تاکنون ثبت نام نکرده اید، می توانید این کار را داخل برنامۀ بی مای آیز انجام دهید.

در ادامه بخشی از تجربۀ یک فرد نابینا از بی مای ای آی را که در مجلۀ «اِسلِیت» منتشر شده است می خوانیم.

من به طور مادرزاد نابینای مطلقم و تا قبل از این چیزهایی که افراد می توانستند از محیط اطرافم برایم توضیح دهند، دنیای دیداری ام را تشکیل می داد. برای اینکه بتوانم همۀ جزئیات یک اتاق را درک کنم یا در یک رستوران صورت غذا را بخوانم، به فرد دیگری وابسته بودم. وقتی عکس می گرفتم، معمولاً یادداشت های صوتی را برای آنها ضبط می کردم و اینکه کجا بودم و چه حسی داشتم را توصیف می کردم؛ به این امید که روزی بتوانم این تصاویر و یادداشت های صوتی را باهم جفت کنم و فاصلۀ بین آنها را از بین ببرم. پوشۀ حاوی تصاویر گرفته شده در تلفن همراهم بیشتر پر شده بود با عکس هایی که گرفته شده بودند تا دیگران از آنها لذت ببرند، زیرا کسی نمی توانست ساعت ها با من بنشیند و اینکه چطور موج های دریا به صخره ها می خورند یا جزئیات یک خیابان شلوغ و پر جنب و جوش در ایتالیا را برایم توصیف کند. درنهایت جزئیات ملموس تر، به تخیل خودم سپرده می شد؛ تخیلی که هرچند قوی بود، ولی به چیز بیشتری نیاز داشت.

وقتی برای اولین بار در مورد بی مای ای آی، همکاری جدیدی بین شرکت اُوپِن ای آی و بی مای آیز، برنامه ای که داوطلبان بینا را از طریق تماس تصویری به نابینایانی که به کمک نیاز دارند متصل می کند، شنیدم، به خودم اجازه ندادم زیادی هیجان زده شوم. بی مای ای آی قول می داد که به ما نابینایان اجازه دهد توصیفی را دریافت کنیم که هوش مصنوعی آن را از هر تصویری که بارگذاری می کنیم تولید می کند. این یک چشم انداز وسوسه انگیز بود، اما این اولین باری نبود که شرکتی فناوری قول می داد که شیوۀ دسترسی معلولان را به محتوای دیداری متحول کند. مایکروسافت قبلاً برنامۀ سیینگ اِی آی را در اختیار ما قرار داده است که به شکلی بسیار ابتدایی ایده ای کلی را به ما ارائه می کند از اینکه در تصاویری که ما با این برنامه به اشتراک گذاشته ایم، چه خبر است و به ما اجازه می دهد با اطلاعات موجود در متن نوشته شده، باز هم به شکلی نسبتاً ابتدایی، تعامل داشته باشیم. در توصیف هایی که سیینگ ای آی ارائه می دهد، جزئیات وجود ندارد و در بیشتر موارد ما فقط می دانیم که فردی در تصویر وجود دارد و این فرد چه کاری را انجام می دهد و نه چیزی بیشتر، اما بی مای ای آی متفاوت بود.

ناگهان من در دنیایی بودم که در آن هیچ چیز برایم محدود نبود. تنها با تکان دادن تلفن همراهم می توانستم با جزئیات کامل بشنوم که دوستانم چه لباسی پوشیده اند، تابلوهای خیابان ها و قیمت محصولات در مغازه ها را بخوانم، داخل یک اتاق را بدون وارد شدن به آن تجزیه و تحلیل کنم و در توصیف دقیق غذا که یکی از علاقه مندی های بزرگ من است غرق شوم، حتی توصیف رنگ ها، که برای بسیاری از ما به اندازۀ یک فرد بینا مهم است، نادیده گرفته نشده بود. من می توانستم از تلفن همراهم برای هماهنگ کردن لباس های مورد علاقه ام به شکل هایی که به ذهن خودم نرسیده بود استفاده کنم. یکی از سرگرمی های مورد علاقه ام کشف رنگ اشیا در زندگی روزمره ام شد. از لوگوی برندها تا مبلمان موجود در فضای اطرافم، چیزهایی که هیچ وقت به فکر پرسیدن رنگشان نیفتاده بودم.

احساس می کردم که انگار دستیار شخصی کوچکی را در جیبم دارم که آماده است هر چیزی را که در زندگی روزمره ام با آن برخورد می کنم، برایم توصیف کند. برخلاف برنامه های دیگر، این دستیار می توانست به سؤال های من نیز پاسخ دهد. ادغام با جی پی تی-۴ به این معنا بود که من می توانستم با هوش مصنوعی دربارۀ تصاویری که ارسال می کردم، مکالمه داشته باشم. من شروع کردم به عکس گرفتن از فهرست غذاهای رستوران ها و پرسیدن سؤال از هوش مصنوعی در مورد قیمت ها یا غذاهایی با شرایطی که به دنبالشان بودم. بااینکه می دانستم هنوز به چیزی که ناقص است و هر لحظه ممکن است از کار بیفتد و ضمانتی برای باقی ماندنش نیست متکی شده ام، همۀ اینها به طور عجیبی برایم آزادی بخش بود.

درنهایت این مطلب را با نمونه ای از توصیفی که بی مای ای آی برای یک تصویر تولید کرده است، به پایان می رسانیم.

تصویر یک خانوادۀ چهارنفره را نشان می دهد که در اتاقی با کف چوبی و دیوار سبز روشن ایستاده اند. مردی در سمت چپ قرار دارد که پیراهن چهارخانۀ آبی پوشیده است و در کنار او زن جوانی با ژاکت سفید قرار دارد. در سمت راست او یک زن مسن است که او هم ژاکت سفیدی به تن دارد. در مقابل آنها پسری جوان با پیراهن مشکی و شلوار خاکستری قرار دارد. مرد و زن جوان دست های خود را دور پسر گذاشته اند. پشت آنها دری چوبی در سمت چپ و یک اثر هنری قاب شده در سمت راست قرار دارد. همۀ آنها خوشحال و راضی به نظر می رسند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

3 × سه =

لطفا پاسخ عبارت امنیتی را در کادر بنویسید. *