مدل های زبان مغرضانه می توانند از داده های آموزش اینترنتی حاصل شوند

thumbnail

سال گذشته ، گوگل BERT را اعلام کرد و آن را بزرگترین تغییر در سیستم جستجوی خود طی نزدیک به پنج سال خواند و اکنون تقریباً هر سeryال مستقر در انگلیس را تأمین می کند. با این حال ، مدل های زبانی مانند BERT در مجموعه داده های بزرگ آموزش داده می شوند ، و خطرات بالقوه مرتبط با توسعه مدل های زبان از این طریق وجود دارد.

جدایی محقق AI از تیمنیت گبرو از گوگل به این موضوعات مرتبط است ، همچنین نگرانی در مورد اینکه چگونه مدل های زبانی مغرضانه ممکن است بر جستجو برای بازاریابان و کاربران تأثیر بگذارد.

یک محقق محترم هوش مصنوعی و خروج وی از Google

او کیست قبل از عزیمت وی ​​از گوگل ، گبرو بیشتر به دلیل انتشار یک تحقیق پیشگامانه در سال 2018 شناخته شده بود که نشان داد نرم افزار آنالیز صورت ، میزان خطای تقریباً 35 درصدی را برای زنان پوست تیره نشان می دهد ، در حالی که این برای مردان پوست روشن کمتر از 1 درصد است. . او همچنین یک آلوم آزمایشگاه هوش مصنوعی استنفورد ، مدافع تنوع و انتقاد از عدم وجود کارمندان در شرکت های فناوری است و یکی از بنیانگذاران Black in AI ، یک سازمان غیرانتفاعی است که به افزایش حضور سیاه پوستان در زمینه هوش مصنوعی اختصاص دارد. واشنگتن پست گزارش داد ، او در سال 2018 با قول آزادی کامل علمی ، توسط گوگل استخدام شد و به عنوان اولین محقق زن سیاه پوست شرکت شناخته شد.

چرا او دیگر در Google کار نمی کند؟ به دنبال اختلاف با گوگل بر سر مقاله ای که او (“در مورد خطرات طوطی های تصادفی: آیا مدل های زبانی می توانند خیلی بزرگ باشند؟”) در مورد خطرات احتمالی مرتبط با آموزش مدل های زبان در مجموعه داده های بزرگ ، به گبرو اطلاع داده شد که “استعفا” او تسریع شده بود – او در آن زمان در تعطیلات بود و کمتر از دو ماه قبل به عنوان سرپرست تیم هوش مصنوعی اخلاقی شرکت ارتقا یافته بود.

در پاسخ عمومی ، جف دین ، ​​معاون ارشد Google AI ، اظهار داشت که مقاله “تحقیقات بیش از حد مرتبط را نادیده گرفت” ، “تحقیقات اخیر را در نظر نگرفت” ، و مقاله فقط یک روز قبل برای بررسی ارسال شد تا آخرین مهلت وی همچنین گفت که Gebru تعدادی شرط را برای ادامه کار خود در Google ذکر کرده است ، از جمله افشای هر شخصی که دین به عنوان بخشی از روند بررسی مقاله با او مشورت کرده است. “Timnit نوشت که اگر ما این خواسته ها را برآورده نکنیم ، او Google را ترک می کند و در یک تاریخ پایان کار می کند. ما تصمیم او را برای استعفا از Google قبول و احترام می گذاریم. “

در یک سری از توییت ها، وی اظهار داشت: “من استعفا نداده بودم – ابتدا شرایط ساده ای را خواسته بودم” ، در توضیح اینکه “من گفتم اینجا شرایط است. اگر می توانید خیلی خوب با آنها ملاقات کنید ، من نام خود را از این مقاله برمی دارم ، در غیر این صورت می توانم در یک تاریخ گذشته کار کنم سپس او [Gebru’s skip-level manager] به گزارش های مستقیم من ایمیلی ارسال کرد و گفت او استعفای من را پذیرفته است. “

وقتی برای توضیح بیشتر به سراغ وی رفتیم ، Google چیز دیگری برای اضافه کردن نداشت ، در عوض به پاسخ عمومی دین و یادداشتی از مدیر عامل شرکت Sundar Pichai اشاره کرد.

مطالب مرتبط  سال جستجوگرها در بررسی 2020: COVID سیستم عامل ها را وادار می کند تا پیشنهادات محلی و تجارت الکترونیکی خود و موارد دیگر را تطبیق دهند

گرچه ماهیت جدایی او از گوگل مورد مناقشه است ، اما گبرو در حال حاضر در میان تعداد فزاینده ای از کارمندان سابق گوگل است که جرات مخالفت کرده اند و با عواقب آن روبرو شده اند. طرفداری وی از گروه های حاشیه ای و جایگاه وی به عنوان رهبر اخلاق در هوش مصنوعی و همچنین یکی از معدود زنان سیاه پوست در این زمینه توجهات را به تنوع ، برابری و شیوه های ورود گوگل جلب کرده است.

مقاله Gebru ممکن است تصویری دلچسب از فناوری Google ترسیم کرده باشد

این مقاله تحقیقاتی که هنوز به طور عمومی در دسترس نیست ، نمای کلی از خطرات مرتبط با مدلهای آموزش زبان را با استفاده از مجموعه داده های بزرگ ارائه می دهد.

عوارض زیست محیطی با توجه به بررسی MIT Technology ، یکی از نگرانی هایی که گبرو و همکارانش در مورد آن تحقیق کردند ، هزینه های بالقوه زیست محیطی بود. مقاله Gebru به مقاله ای از Emma Strubell و همکاران در سال 2019 اشاره می کند ، که نشان می دهد آموزش نوع خاصی از روش جستجوی معماری عصبی 626155 پوند معادل CO2 تولید می کند – تقریباً مشابه 315 پرواز رفت و برگشت بین سانفرانسیسکو و نیویورک.

تصویر: بررسی فناوری MIT.

ورودی های مغرضانه ممکن است مدل های مغرضانه تولید کنند. مدل های زبانی که از داده های آموزشی از اینترنت استفاده می کنند ممکن است حاوی زبان نژادپرستانه ، جنس پرست و متعصب باشند که می تواند در هر مدل زبانی که استفاده می شود ، از جمله الگوریتم های موتور جستجو ، خود را نشان دهد. این جنبه از مسئله همان چیزی است که ما روی آن متمرکز خواهیم شد ، زیرا دارای پیامدهای بالقوه جدی برای بازاریابان است.

داده های آموزش مغرضانه می تواند مدل های زبانی مغرضانه ایجاد کند

رانگان ماجومدر ، معاون جستجو و هوش مصنوعی در مایکروسافت ، به Search Engine Land گفت: “مدل های زبانی که از متن اینترنتی موجود کاملاً متناسب هستند ، مدل های مغرضانه ای تولید می کنند” و افزود: “روش آموزش بسیاری از این مدل های از قبل آموزش دیده” پوشاندن “است که بدان معنی است که آنها در حال یادگیری تفاوت های ظریف زبان برای پر کردن جای خالی متن هستند. تعصب می تواند از چیزهای زیادی بدست بیاید اما داده هایی که آنها آموزش می دهند قطعاً یکی از این موارد است. “

بریتنی مولر ، دانشمند ارشد سابق سئو در Moz ، گفت: “شما می توانید داده های مغرضانه را خودتان ببینید.” در تصویر بالا ، یک تجسم T-SNE در مجموعه Word2Vec Google که به نهادهای ذی ربط مرتبط ترین اصطلاح “مهندس” اختصاص دارد ، اولین نام هایی که به طور معمول با مردان مرتبط هستند ، مانند کیت ، جورج ، هربرت و مایکل ظاهر می شود.

البته تعصب در اینترنت فقط به جنسیت محدود نمی شود: “تعصب در اقتصاد ، تعصب محبوبیت ، تعصب زبان (به عنوان مثال اکثریت قریب به اتفاق وب به انگلیسی است ، و” برنامه نویسان انگلیسی “را” برنامه نویسان انگلیسی “برای دلیل) . . . Dawn Anderson ، مدیر عامل شرکت Bertey ، گفت: اگر این تعصبات در داده های آموزشی وجود داشته باشد و مدل هایی که روی آنها آموزش داده شده است در الگوریتم های موتور جستجو به کار گرفته شوند ، این استعدادها ممکن است در پیشنهادات خودکار جستجو یا حتی در رتبه بندی و بازیابی نشان داده شوند.

یک “قطعه کوچکتر از پای موتور جستجو” برای بازاریابان. اندرسون گفت ، “اگر این مدل های مقیاس بزرگ در همه جا پخش شود ، قابل درک است که آنها به سادگی با منطق مطالب آموزشی که مدل یاد گرفته است ، این تعصبات را در جستجو تقویت می کنند.” به طور بالقوه چرخه همیشگی تقویت تعصب. “

این ممکن است در محتوای متناسب که موتورهای جستجو مانند Google از طریق ویژگی هایی مانند Feed Feed ارائه می دهد نیز بازی کند. مولر گفت: “این به طور طبیعی منجر به نتایج / چشم اندازهای نزدیک بینی بیشتری می شود ،” شاید برای طرفداران وایکینگ های مینه سوتا که فقط می خواهند اخبار وایکینگ های مینه سوتا را ببینند اشکالی ندارد ، اما وقتی صحبت از سیاست ، توطئه ها ، و غیره و منجر به یک شکاف اجتماعی عمیق تر می شود. ” وی افزود: “برای بازاریابان ، این جاده بالقوه به بخش کوچکتری از پای موتور جستجو منجر می شود زیرا محتوا به روش های خط کش تری ارائه می شود.”

مطالب مرتبط  درآمد خود را در حالی که به هدف تجاری خود صادق هستید ، هدایت کنید

اگر مدل های مغرضانه آن را به الگوریتم های جستجو تبدیل کنند (اگر قبلاً این کار را نکرده اید) ، این می تواند هدف بسیاری از سئوکاران را کم رنگ کند. “کل [SEO] صنعت برای ایجاد رتبه بندی وب سایت ها در Google برای کلمات کلیدی ایجاد شده است که ممکن است درآمد کسب و کارها را به همراه داشته باشد ، “پیت واتسون-وایلز ، بنیانگذار مشاوره دیجیتال Tough & Competent ، گفت:” من پیشنهاد می کنم این بدان معنی است که ما سایت هایی را برای مدل هایی که به طور فعال بهینه می شوند ، بهینه می کنیم از حق رای دادن در مردم ، و این رفتار انسان را هدایت می کند. “

با این حال ، این نگرانی نسبتاً شناخته شده ای است و شرکت ها تلاش می کنند تا تأثیر چنین سوگیری را کاهش دهند.

یافتن راه حل ساده نخواهد بود

یافتن راه هایی برای غلبه بر تعصب در مدل های زبانی یک کار چالش برانگیز است که حتی ممکن است در کارایی این مدل ها تأثیر بگذارد. مولر گفت: “شركت هاي توسعه دهنده اين فن آوري ها براي درك بهتر اين مدل هاي بزرگ زبان و پاك كردن هرچه بيشتر تعصب در تلاشند از تكنولوژي تجسم داده ها و ساير شكل هاي” تفسير پذيري “استفاده كنند ،” نه تنها اين كار دشوار و وقت گير است ، و کاهش آن گران است (البته ناگفته نماند ، تقریباً غیرممکن است) ، اما همچنین برخی از فن آوری های پیشرفته کنونی را که به خوبی به این شرکت ها خدمات ارائه کرده است از دست می دهید (GPT-3 در OpenAI و مدل های بزرگ زبان در Google). “

ایجاد محدودیت در مدل های زبانی ، مانند حذف ضمایر جنسیتی در ویژگی نوشتن هوشمند Gmail برای جلوگیری از سوgend استفاده ، یکی از راه حل های بالقوه است. وی افزود: “با این حال ، این راه حل های کمک باند برای همیشه کارساز نیستند و تعصب همچنان به روش های جدید و جالبی ادامه خواهد داشت که فعلاً نمی توانیم پیش بینی کنیم.”

یافتن راه حل برای مشکلات مرتبط با تعصب برای سیستم عامل های اینترنت یک مسئله مداوم بوده است. Reddit و Facebook هر دو از انسان برای تعدیل استفاده می کنند و برای محافظت از کاربران خود در برابر محتوای غیرقانونی یا مغرضانه در یک جنگ ظاهراً بی پایان هستند. در حالی که Google از رأی دهندگان انسانی برای بازخورد در مورد کیفیت نتایج جستجو استفاده می کند ، الگوریتم ها خط اصلی دفاعی آن برای محافظت از کاربران خود هستند.

این که آیا گوگل در این زمینه موفق تر از فیس بوک یا Reddit بوده است ، جای بحث دارد ، اما تسلط گوگل بر سایر موتورهای جستجو نشان می دهد که نتایج جستجو را با کیفیت بهتر از رقبای خود ارائه می دهد (اگرچه عوامل دیگری مانند جلوه های شبکه نیز نقش مهمی دارند) ) اگر بخواهد جایگاه خود را به عنوان رهبر بازار حفظ کند ، باید راه های مقیاس پذیر برای اطمینان از فناوری منصفانه که از آن سود می برد ، ایجاد کند.

اذعان عمومی به خطرات مرتبط با آموزش مدل های زبان در مجموعه های بزرگ داده ، اعم از محیطی ، اجتماعی یا موارد دیگر ، کمک می کند تا شرکت ها در مورد خنثی سازی آنها پاسخگو باشند. اگر خروج گبرو از گوگل به جای اینکه درمورد استانداردهای انتشار گوگل و اولتیماتومی که گبرو ارائه داده بود ، محتوای مقاله وی بود که تصویری بالقوه ناخوشایند از شرکت ارائه می داد ، این حادثه تصویر تلخی را ترسیم می کند از تعهد این شرکت به هوش مصنوعی اخلاقی هنگامی که با احتمال دستیابی به یافته های بالقوه ناشایست از یکی از خود دسترسی به عموم مواجه می شویم.

پست مدل های زبان مغرضانه می تواند از داده های آموزش اینترنتی حاصل شود اولین بار در Search Engine Land ظاهر شد.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Back To Top