نحوه ارزیابی کیفیت محتوا با BERT

thumbnail

ماری هاینس اخیراً با جان مولر مصاحبه پادکست واقعاً مهیج داشته است.

من به طور خاص از گفتگو در مورد BERT و پتانسیل آن برای ارزیابی کیفیت محتوا لذت بردم.

“M 26:40 – .. آیا اکنون گوگل از BERT استفاده می کند تا اکنون بهتر درک کند که آیا محتوای آن خوب است؟”

“J 27:00 – … درک این مطلب برای درک کیفیت مطالب بیشتر نیست بلکه بیشتر برای درک این مطلب است که این محتوا چیست ، این جمله در مورد چیست ، این پرس و جو چیست؟ … “

گوگل بارها گفته است که به درک بهتر زبان طبیعی کمک می کند. ارزیابی کیفیت محتوا مانند انسانها هنوز برای انجام ماشین آلات کاملاً پیچیده است.

“M 28:54 – … می تواند گوگل این امر را به عنوان منفی رفتار کند. اوه به نظر می رسد که به صورت SEO بوده است ، این کلمات کلیدی در اینجا برای گوگل هستند و باعث می شوند این یک آسیب واقعی به صفحه باشد.”

“J 29:41 – … آنها فقط هزاران نسخه از کلمات کلیدی مشابه را به یک صفحه اضافه می کنند و سپس الگوریتم پر کردن کلمه کلیدی ما ممکن است لگد بزنند و بگویند در واقع این مانند کلمات کلیدی است ، و سپس الگوریتم پر کردن کلمه کلیدی ما ممکن است شروع به کار کند. … ”

از طرف دیگر ، چاشنی کلمات کلیدی چیزی است که برای ماشین آلات راحت تر می باشد. یک راه برای بررسی این مسئله این است که ببینید متن به روشی غیر منطقی نوشته شده است یا خیر.

“J 29:41 – … اما من حدس می زنم در رابطه با BERT یکی از کارهایی که می تواند انجام شود زیرا بسیاری از این الگوریتم ها منبع باز هستند ، مستندات و مواد مرجع زیادی در اطراف آنها وجود دارد. موارد را امتحان کنید و مقداری از این متن سئو را بگیرید و آن را در یکی از این الگوریتم ها پرتاب کنید و ببینید آیا محتوای اصلی بیرون می رود؟آیا اشخاص قادر به درستی شناخته شدن هستند و این یکی از این موارد نیست که چگونه این کار را انجام دهیم زیرا من کاملاً مطمئن هستم که الگوریتم های ما مبتنی بر ایده های مشابه هستند اما احتمالاً به گونه ای متفاوت تنظیم شده اند اما می تواند به شما بینش دهد این است به گونه ای نوشته شده است که در واقع خیلی گیج کننده است برای یک سیستم برای درک آنچه در مورد آنها می نویسند. “

این بخشی است که مرا هیجان زده کرده است. امتحان کردن این یک ایده عالی و دقیقاً کاری است که ما در این مقاله انجام خواهیم داد.

بریتنی مولر از موز ایده ای خوب و نوت بوک پایتون را با کد برای تست آن به اشتراک گذاشت.

مطالب مرتبط  برای پیروزی در آمازون ، Google باید بیشتر از "Bing of تجارت الکترونیکی" باشد

برای طبقه بندی تک جمله می توانیم از مجموعه داده های متناسب با متن براساس تنظیمات متناسب با پذیرش (CoLA) از BERT استفاده کنیم.

این مدل به ما کمک می کند تا تعیین کنیم که جملات به صورت دستوری صحیح هستند و کدام ها نیستند. این می تواند به عنوان یکی از چندین پراکسی برای کیفیت محتوا مورد استفاده قرار گیرد.

بدیهی است که احمق نیست ، اما می تواند ما را در جهت صحیحی قرار دهد.

تنظیم دقیق BERT در CoLA

نوت بوک Colab که در توییت Britney قرار دارد ، برای افراد غیر متخصص بسیار پیشرفته است ، بنابراین ما قصد داریم میانبرهای جدی بگیریم!

ما در حال استفاده از Ludwig ، یک ابزار یادگیری عمیق بسیار قدرتمند و بدون کد از Uber هستیم تا همین کار را انجام دهیم.

در اینجا مراحل فنی آورده شده است:

  1. یک صفحه هدف را بکشید و متن را استخراج کنید.
  2. آن را به جملات تقسیم کنید.
  3. از مدل ما برای پیش بینی اینکه هر جمله از نظر دستور زبان صحیح است یا نه استفاده کنید.
  4. جملات صحیح و نادرست را محاسبه و گزارش کنید

اول ، اجازه دهید مدل پیش بینی کننده ما را بسازیم.

من با استفاده از همه مراحل نوت بوک گوگل کابل ساده ای را کدگذاری کردم.

نوت بوک را در Google Drive خود کپی کنید و نوع زمان اجرا را به GPU تغییر دهید.

برای تست کد در مقالات خود می توانید از فرم موجود در بالا استفاده کنید. ممکن است لازم باشد انتخابگر CSS را تغییر دهید تا متن مربوطه در هر صفحه مورد نظر استخراج شود. یکی از این کتابها شامل مقالات SEL است

شما باید بتوانید تمام سلول ها (یک بار) را اجرا کنید و ارزیابی را در عمل مشاهده کنید.

ساختن مدل پیش بینی

وقتی نوت بوک اصلی را با نمونه ای که من ایجاد کردم مقایسه کنید ، متوجه می شوید که از نوشتن کد یادگیری پیشرفته عمیق خودداری کردیم.

برای ایجاد مدل برش ما با لودویگ ، باید چهار مرحله ساده را انجام دهیم:

  1. مجموعه داده CoLA را بارگیری و فشرده سازی کنید
  2. تعریف مدل لودویگ را با تنظیمات مناسب و پارامترهای هایپر ایجاد کنید
  3. لودویگ را برای آموزش مدل اجرا کنید
  4. ارزیابی مدل با داده های نگهدارنده در مجموعه داده CoLA

شما باید بتوانید هرکدام از این مراحل را در نوت بوک دنبال کنید. من در اینجا گزینه های خود را توضیح خواهم داد و برخی از تفاوت های ظریف مورد نیاز برای کارکرد آن را توضیح می دهم.

مطالب مرتبط  وقتی سکوت گزینه ای نیست: برندها با پشتیبانی اعتراض در شیرجه می شوند

Google Colab با Tensorflow نسخه 2.0 از پیش نصب شده ارائه می شود که آخرین نسخه است. اما ، لودویگ به نسخه 1.15.3 نیاز دارد.

قدم مهم دیگر این است که شما باید نسخه GPU Tensorflow را تنظیم کنید تا آموزش سریع انجام شود.

ما این کار را با چند خط کد بعدی انجام می دهیم:

!pip install tensorflow-gpu==1.15.3

%tensorflow_version 1.x
import tensorflow as tf; print(tf.__version__)

پس از این ، شما باید زمان اجرا را با استفاده از مورد منو مجدداً راه اندازی کنید: زمان اجرا> زمان شروع مجدد.

دوباره فرم را اجرا کنید ، خطی که پاندا را وارد می کنید و به مرحله ای که برای نصب لودویگ نیاز دارید ادامه دهید.

دقت مدل پیش بینی می تواند بسیار متغیر باشد و به شدت تحت تأثیر انتخاب پارامترهای بیش از حد شما باشد.

اینها معمولاً به صورت تجربی با آزمایش و خطا تعیین می شوند و برای صرفه جویی در وقت ، صرفاً آنهایی را که از نوت بوک وزن و تعصبات استفاده می کنم وام گرفتم.

همانطور که در بالا مشاهده می کنید ، در تجسم آنها ، بهترین ترکیب در a دقت اعتبار 84٪

ما در بخش آموزش همان پارامترهای مشابه را به تعریف مدل خود اضافه کردیم.

آموزش:

batch_size: 16
learning_rate: 0.00003
epochs: 3

در مرحله بعد ، می توانیم با استفاده از یک خط فرمان واحد ، مدل BERT خود را روی مجموعه داده CoLA آموزش دهیم.

!ludwig experiment --data_csv cola_dataset.csv --model_definition_file model_definition.yaml

ما به یک دقت اعتبار 80٪، که کمی پایین تر از نوت بوک اصلی است ، اما ما به طور قابل توجهی کمتر تلاش می کنیم!

اکنون ، ما یک الگوی قدرتمند داریم که می تواند جملات را به صورت گرامری صحیح یا نه طبقه بندی کند.

من کد دیگری را برای ارزیابی برخی از جمله های آزمایشی به نوت بوک اضافه کردم و از نظر 516 از نظر گرامری نادرست بود.

همانطور که در بالا مشاهده می کنید ، پیش بینی های مربوط به جملات نادرست دستوری بسیار دقیق به نظر می رسند.

تبدیل صفحات وب به جملات برای پیش بینی صحت دستوری آنها

تقسیم متن به جملات با استفاده از عبارات منظم به نظر می رسد کار ناچیز است ، اما بسیاری از تفاوت های زبانی وجود دارد که این رویکرد را غیر عملی می کند.

خوشبختانه ، من یک راه حل نسبتاً ساده در این موضوع StackOverflow پیدا کردم.

همانطور که در بالا مشاهده می کنید ، این تکنیک کاملاً خوب عمل می کند. حال ، ما فقط باید این جملات را به مدل پیش بینی درست گرامر خود تغذیه کنیم.

خوشبختانه ، فقط در آخرین مقاله من 4 مورد از 89 جمله که نادرست از لحاظ دستور زبان هستند نادرست است.

این را در مقالات خود امتحان کنید و به من اطلاع دهید توییتر چگونه شما انجام دهید!

The post نحوه ارزیابی کیفیت محتوا با BERT برای اولین بار در Land Engine Land ظاهر شد.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Back To Top