وقتی انسانها اینترنت را از هوش مصنوعی پس گرفتند

باشگاه خبرنگاران جوان - در ماههای اخیر و با رونق گرفتن بازار هوش مصنوعی، افراد زیادی با بهکارگیری ابزارهای مختلفی مثل Chat GPT، از آنها برای انجام کارهایشان، از امورات روزمره گرفته تا نوشتن مقاله بهره میبرند. تدریجاً کار به جایی کشید که برای مدت کوتاهی تعداد مقالات جدیدی که بهوسیله هوش مصنوعی تولید شده بودند، از مقالات نوشتهشده توسط انسان پیشی گرفت.
اما طبق گزارش جدید شرکت سئوی Graphite، حالا تقریباً تعداد مقالات نوشته شده توسط هوش مصنوعی و مقالات انسانی، تقریباً برابر شدهاند.
پژوهشگران مدتها نگران این موضوع بودند که اگر در فضای آنلاین محتوای تولیدی هوش مصنوعی بر محتوای انسانی غلبه کند، مدلهای زبانی بزرگ (LLMs) ممکن است در دادههای خودساختهشان گرفتار شده و درنهایت فروبپاشند.
پیشبینیای که محقق نشد
در سال ۲۰۲۲ میلادی، یوروپل در گزارشی تخمین زده بود که تا سال ۲۰۲۶، حدود ۹۰ درصد از محتوای آنلاین توسط هوش مصنوعی تولید خواهد شد.
Graphite در تحلیل خود با بررسی ۶۵ هزار URL که بین سالهای ۲۰۲۰ تا ۲۰۲۵ منتشر شدهاند، به این نتیجه رسیده که درصد مقالات تولیدشده توسط هوش مصنوعی، بعد از عرضه ChatGPT در سال ۲۰۲۳ بهطور چشمگیری افزایش داشته و در نوامبر سال ۲۰۲۴، حتی سهم این مقالات، از مقالات انسانی پیشی گرفت؛ اما از آن زمان به بعد این روند دچار تغییر شد و حالا تقریباً میزان مقالات انسانی و مقالات هوش مصنوعی با هم برابرند.
نحوه ارزیابی دادهها
Graphite برای تحلیل نمونهای تصادفی از آدرسهای استخراجشده از پایگاه داده منبعباز Common Crawl، از ابزار تشخیص هوش مصنوعی به نام Surfer استفاده کرد؛ پایگاه Common Crawl شامل بیش از ۳۰۰ میلیارد صفحه وب است و هر ماه بین ۳ تا ۵ میلیارد صفحه جدید به آن افزوده میشود.
تاریخ انتشار صفحات انتخابشده، بین ژانویه سال ۲۰۲۰ میلادی تا می سال ۲۰۲۵ بودند و توسط طبقهبندی خودکار Graphite، بهعنوان مقاله یا فهرستمقاله شناسایی شدند. هر مقالهای که به تشخیص Surfer، بیش از ۵۰٪ محتوایش نوشته انسان نبود، در گروه محتوای تولیدشده توسط هوش مصنوعی قرار گرفت.
تشخیص مقالات انسانی و غیرانسانی
درهرحال، تشخیص و تفکیک متون نوشته شده توسط انسان و یا هوش مصنوعی کار واقعاً سختی است و به همین خاطر، شرکت Graphite، برای ارزیابی دقت Surfer، نتایج به دست آمده توسط آن را با دو مجموعه آزمایشی مقایسه کرد:
۱- مقالات تولیدشده توسط خود ابزار با GPT-۴o
۲- مقالاتی که قبل از معرفی ChatGPT منتشرشده بودند و به احتمال قریببهیقین، توسط انسانها نوشته شده بودند.
نتایج این بررسی نشان داد که نرخ خطای مثبت کاذب Surfer در اشتباه در تشخیص مقاله انسانی بهعنوان هوش مصنوعی، ۴.۲٪ و نرخ خطای منفی کاذب آن در این موضوع ۰.۶٪ است.
آمارهای کلیدی:
طبق گزارش دوم Graphite، این احتمال وجود دارد که مزرعههای محتوایی (یکی از روشهای اسپم تولید محتوای زیاد و بیکیفیت) متوجه شده باشند که محتوای تولیدشده توسط هوش مصنوعی در نتایج موتورهای جستوجو و پاسخهای چتباتها در اولویت نیست.
- در این گزارش به این نکته اشاره شده که ۸۶٪ از مقالاتی که در جستوجوی گوگل رتبه میگیرند، توسط انسان نوشته شده و تنها ۱۴٪ آنها توسط هوش مصنوعی تولید شدهاند.
- همین الگو در چتباتها هم تکرار میشود: ۸۲٪ از مقالاتی که ChatGPT و Perplexity به آنها رجوع و از آنها نقلقول میکند، انسانیاند و فقط ۱۸٪ مقالات هوش مصنوعی هستند.
- وقتی مقالات هوش مصنوعی در نتایج گوگل ظاهر میشوند، معمولاً رتبه پایینتری نسبت به محتوای انسانی میگیرند.
البته طبق گفته پژوهشگران، با ابزارها و تعاریف فعلی، شمار دقیق محتوای تولیدشده توسط هوش مصنوعی غیرممکن است. یکی از موانع موجود برای تشخیص اینکه محتوایی ساخته انسان است یا ماشین، این است که انسانها و هوش مصنوعی روزبهروز بیشتر در کنار هم کار میکنند.
سخنگوی گوگل در این رابطه توضیح داده: «سطوح مختلفی در رابطه با استفاده از هوش مصنوعی در کار وجود دارد که تشخیص قطعی اینکه چیزی تماماً توسط هوش مصنوعی تولید شده یا نه را واقعاً سخت میکند. واقعاً نمیتوان تمام محتوای تولیدشده توسط هوش مصنوعی را اسپم دانست.»
از سوی دیگر پروفسور استفانو سواتو از دانشگاه UCLA و معاون ارشد آمازونوبسرویسز هم درباره همکاری مشترک هوش مصنوعی و انسان گفته: «در حال حاضر، این رابطه بیشتر همزیستی است تا تقابل.»
شاید انسان جلوتر باشد!
اگرچه Common Crawl تمام مقالات موجود در اینترنت را پوشش نمیدهد، اما یکی از بزرگترین منابع داده برای آموزش مدلهای زبانی بزرگ است. به همین خاطر هم هست که برخی وبسایتهای پولی که محتوای انسانی دارند، جلوی دسترسی Common Crawl به دادههایشان را گرفتهاند. از همین رو این امکان وجود دارد که حجم واقعی محتوای انسانی ازآنچه Graphite گزارش داده بهمراتب بیشتر هم باشد.
ایتان اسمیت، مدیرعامل Graphite هم دراینباره توضیح داده که خلاصههای تولیدشده توسط هوش مصنوعی که بهوضوح برچسبگذاری شده و بر اساس محتوای اختصاصی و بسته ایجاد شدهاند، عملکرد خوبی در جستوجو دارند.
اما خلاصههایی که خودکار و بدون برچسب توسط موتورهای جستوجو تولید میشوند، معمولاً بازخورد خوبی نمیگیرند.
بر اساس نظرسنجی اخیر Pew، تنها ٪۲۰ از کاربران خلاصههای هوش مصنوعی در جستوجو را بسیار مفید یا خیلی مفید میدانند و فقط ۶ ٪ به آنها اعتماد زیادی دارند.
این بدین معناست که هنوز کاربران ترجیح میدهند محتوایی بخوانند که عمدتاً توسط انسان نوشته شده باشد.
منبع: خبر آنلاین
12235529