شناسایی مقالات علمی جعلی تولید شده توسط هوش مصنوعی
شناسایی مقالات علمی جعلی تولید شده توسط هوش مصنوعی
امروزه با ظهور ابزارهای هوش مصنوعی مولد مانند ChatGPT، تولید مقالات علمی که بهطور ظاهری شبیه به مقالات واقعی هستند بسیار آسانتر شده است. این مسئله بهخصوص برای افرادی که در حوزههای تحقیقاتی مربوطه تخصص ندارند، چالشهای زیادی ایجاد میکند. سوال مهم این است که چگونه میتوان بهطور موثری مقالات جعلی را از مقالات واقعی تشخیص داد؟
الگوریتم xFakeSci: یک ابزار جدید برای شناسایی مقالات جعلی
احمد عبدهین حامد، پژوهشگر مهمان در دانشگاه بینگهمتون، دانشگاه ایالتی نیویورک، به این چالش پاسخ داده است. او یک الگوریتم یادگیری ماشینی به نام xFakeSci توسعه داده که توانایی شناسایی ۹۴ درصد از مقالات جعلی را دارد؛ این مقدار تقریباً دو برابر میزان موفقیت روشهای متداول استخراج داده است.
حامد که تحقیقات اصلیاش در حوزه انفورماتیک زیستپزشکی است، همواره نسبت به اصالت دانش منتشر شده از سوی دیگران نگران بوده است. او میگوید: «مقالات زیستپزشکی بهویژه در دوران همهگیری جهانی بهشدت آسیب دیدند، زیرا برخی افراد تحقیقاتی نادرست را منتشر میکردند.»
ایجاد پایگاه داده مقالات جعلی برای شبیهسازی
در مقالهای جدید که در ژورنال Scientific Reports منتشر شده، حامد و همکارش ژیندونگ وو، استاد دانشگاه فناوری هفی در چین، ۵۰ مقاله جعلی درباره سه موضوع پزشکی پرطرفدار – آلزایمر، سرطان و افسردگی – ایجاد کردند و آنها را با تعداد مشابهی از مقالات واقعی در همان موضوعات مقایسه کردند.
او میگوید: «زمانی که از ChatGPT برای تولید مقالات جعلی درخواست کردم، از همان کلیدواژههایی استفاده کردم که برای استخراج ادبیات علمی از پایگاه داده PubMed استفاده کرده بودم، تا یک مبنای مشترک برای مقایسه داشته باشیم.»
شناسایی الگوهای متنی در مقالات جعلی و واقعی
حامد پس از آزمایشهای مختلف، الگوریتم xFakeSci را طوری برنامهریزی کرد که دو ویژگی اصلی مقالات را تجزیه و تحلیل کند. یکی از این ویژگیها تعداد بیگرامها است. بیگرامها به جفتهایی از کلمات گفته میشود که اغلب با هم ظاهر میشوند، مانند “تغییرات اقلیمی” یا “آزمایشهای بالینی”. ویژگی دوم، نحوه پیوند این بیگرامها به سایر کلمات و مفاهیم در متن است.
نتایج جالبی از این تحلیل بهدست آمد. حامد میگوید: «اولین نکته شگفتانگیز این بود که تعداد بیگرامها در مقالات جعلی بسیار کمتر بود، اما در مقالات واقعی، بیگرامها بسیار غنیتر بودند. همچنین در مقالات جعلی، با وجود تعداد کم بیگرامها، آنها با سایر بخشهای متن بسیار بیشتر مرتبط بودند.»
چرا مقالات تولید شده توسط هوش مصنوعی و انسان متفاوتاند؟
تفاوت در سبک نگارش این دو نوع مقاله به هدفهای متفاوت انسانها و هوش مصنوعی در تولید محتوا بازمیگردد. حامد توضیح میدهد: «ChatGPT به دلیل محدودیت در دانش خود، سعی میکند با استفاده از کلمات کلیدی مهم شما را متقاعد کند. اما کار یک دانشمند این نیست که شما را متقاعد کند. یک مقاله تحقیقاتی واقعی بهصورت صادقانه گزارش میدهد که چه چیزی در یک آزمایش رخ داده و از چه روشهایی استفاده شده است. ChatGPT بیشتر روی عمق یک موضوع متمرکز است، در حالی که علم واقعی به دنبال گستردگی و جامعیت است.»
چالشهای پیش رو و توسعه بیشتر xFakeSci
برای گسترش دامنه الگوریتم xFakeSci، حامد قصد دارد موضوعات تحقیقاتی بیشتری را در بر بگیرد تا ببیند آیا الگوهای شناسایی شده در سایر حوزههای علمی نیز وجود دارد یا خیر. این تلاشها نه تنها به زمینههای پزشکی محدود نخواهد بود، بلکه شامل رشتههایی نظیر مهندسی، علوم دیگر و حتی علوم انسانی نیز خواهد شد.
حامد همچنین پیشبینی میکند که هوش مصنوعی در آینده بهطور فزایندهای پیچیدهتر خواهد شد و تشخیص محتوای واقعی از جعلی دشوارتر خواهد شد. او میگوید: «اگر ما یک سیستم جامع طراحی نکنیم، همیشه در حال دنبال کردن نسخههای جدیدتر هوش مصنوعی خواهیم بود.»
حتی با اینکه الگوریتم xFakeSci توانسته ۹۴ درصد از مقالات تولید شده توسط هوش مصنوعی را شناسایی کند، این بدان معناست که ۶ درصد از مقالات جعلی همچنان از فیلترهای شناسایی عبور میکنند. او اضافه میکند: «ما باید نسبت به آنچه که به دست آوردهایم فروتن باشیم. با این حال، یک گام مهم در افزایش آگاهی عمومی برداشتهایم.»
آینده تشخیص مقالات جعلی: الگوریتمهای پیشرفته و جامعتر
در حالی که ابزارهایی مانند xFakeSci در شناسایی مقالات جعلی کارآمد هستند، چالشهای جدیدی نیز بهوجود میآید. با پیشرفت فناوریهای هوش مصنوعی، الگوریتمها باید پیچیدهتر و دقیقتر شوند تا با تواناییهای رو به رشد این فناوریها هماهنگ باشند. این امر مستلزم توسعه الگوهای شناسایی جدید و انعطافپذیر است که بتوانند با تغییرات سریع در تواناییهای تولید محتوا توسط هوش مصنوعی سازگار شوند.
یکی از زمینههای کلیدی که حامد قصد دارد روی آن تمرکز کند، شناسایی الگوهای زبانی خاصتر است که فراتر از تحلیل بیگرامها و ارتباطات ساده میان کلمات برود. این الگوها ممکن است شامل تحلیل عمیقتری از ساختار جملات، نحوه ارائه استدلالهای علمی و حتی تحلیل سبک نگارش کلی مقاله باشد.
بهعلاوه، یکی از چالشهای آینده این است که هوش مصنوعیهای مولد میتوانند در طول زمان از بازخوردها و تعاملات خود با کاربران یاد بگیرند و محتوای تولیدی خود را بهبود بخشند. بنابراین، الگوریتمهای تشخیص جعلی نیز باید بهطور مداوم بهروزرسانی شوند و از جدیدترین تکنیکهای پردازش زبان طبیعی استفاده کنند تا با پیشرفت هوش مصنوعیهای مولد همگام باشند.
نتیجهگیری: افزایش آگاهی و مسئولیتپذیری در دنیای دیجیتال
در نهایت، آنچه که پروژه حامد و سایر تلاشهای مشابه نشان میدهد، اهمیت آگاهیبخشی به جامعه علمی و عمومی درباره چالشهای ناشی از پیشرفت فناوریهای هوش مصنوعی است. با وجود اینکه الگوریتمهای شناسایی مقالات جعلی روزبهروز پیشرفتهتر میشوند، اما تنها با افزایش آگاهی و همکاری میان محققان، رسانهها و عموم مردم میتوان از انتشار گسترده اطلاعات نادرست جلوگیری کرد.
این تحقیقات نشان میدهد که هوش مصنوعی هم میتواند یک ابزار کارآمد برای بهبود فرآیندهای علمی باشد و هم یک چالش جدید در زمینه انتشار اطلاعات نادرست. بههمین دلیل، توسعه و بهکارگیری ابزارهای پیشرفته برای شناسایی محتوای جعلی از اهمیت ویژهای برخوردار است.
دیدگاهتان را بنویسید