نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشجوی دکترای مهندسی کامپیوتر- هوش مصنوعی– دانشگاه شیراز
2 استادیاربخش کامپیوتر، دانشگاه شیراز.
چکیده
کلیدواژهها
دسترسی به منابع و جستجوی اطلاعات مورد نیاز و یافتن مدارک مرتبط با پرسش[3]، یکی از دغدغههای موتورهای جستجو و پایگاههای برخط میباشد ، لذا برای آنکه یافتن مدارک مرتبط با پرسش، امکانپذیر باشد، ارزشگذاری[4] نتایج حاصل از جستجو بسیار مهم است.
فاکتوری که ارزشگذاری مدارک را پراهمیت میکند ، محل فیزیکی قرارگیری مدرک در فهرست مدارک ارائه شده به کاربر است. معمولاً کاربران صفحات ابتدایی و 10 نتیجة برتر (صفحه اول) را مشاهده میکنند. بنابراین، بسیار مهم است که نتایج مرتبطتر و دارای نرخ ارزش بالاتر در این فهرست 10 تایی برتر قرار بگیرند. ولی محاسبة ارزش مدارک به طور دقیق ممکن نیست.
اگر تعداد نتایج حاصل از پرسش کم باشد، به تابع ارزشگذاری مدارک بازیابی شده نیاز نیست و صرفاً با توجه به شباهت مقالهها به پرسش، میتوان آنها را مرتّب کرد. ولی اگر تعداد نتایج حاصل از پرسش زیاد باشد (در این صورت معمولاً پرسش دارای کلیدواژههایی با کاربرد عمومی است) به کارگیری یک تابع ارزشگذاری برای مقالهها بسیار ارزشمند است، تا مقالههای بازیابی شده بر اساس ارزش مقالهها فهرست شود. این ارزش باید به طور نسبی محاسبه شود.
- به دست آوردن توابعی که بتواند به طور خودکار مدارک را ارزشگذاری کند و آیا این توابع در زمینة بازیابی اطلاعات به خوبی عمل میکند؟
- آیا این توابع برای زمانی که تعداد جوابها بسیار محدود است نیز صحیح عمل میکنند؟
- چگونه توابع را برای به دست آوردن K نتیجة برتر در پایگاه دادههای بزرگ اجرا کنیم؟
برای ارزشگذاری مدارک در سیستمهای بازیابی اطلاعات، استفاده از فرکانس کلمات (TF )و فرکانس معکوس مدارک[5] مرسوم است. در این روش، منظور از فرکانس، بسامد کلمات، یا تعداد مشاهده کلمه در مدارک (مقالهها) میباشد.
ازجمله روشهای دیگر برای ارزشگذاری مقالهها، استفاده از بازخورد ربط[6] از کاربران و فیلترینگ مشارکتی مدارک بازیابی شده است. ولی میخواهیم روشی را پیشنهاد دهیم که به طور خودکار بتواند مقالهها را ارزشگذاری کند. روش پیشنهادی در پایگاه مقالههای فارسی مرکز منطقهای اطلاعرسانی علوم و فنّاوری پیادهسازی گردید که نتایج آن با سیستم قبل مقایسه میشود.
استفاده از یک سیستم خبره[7] که بتواند عملیات ارزشگذاری را انجام دهد و سپس مدارک را آمادة مشاهده کاربر نماید بسیار ارزشمند است، زیرا دانش فرد خبره و تجربه جمع کاربران را برای پیشبرد هدفها و رفع چالشها به کار میگیرد، زیرا محاسبة دقیق ممکن نیست و استفاده از سیستم هوشمند به ابهام زدایی کمک میکند. در ادامه، ابتدا معماری سیستم پیشنهادی بررسی میشود و پس از آن فاکتورهای سیستم خبره مرور و در نهایت قوانین به کار رفته شرح داده شده و کارآیی سیستم پیشنهادی با سیستمهای مرسوم مقایسه گردیده است.
معماری سیستم بدین صورت است که یک موتور جستجو که در اینجا موتور جستجوی سامانة مقالههای فارسی مرکز منطقهای اطلاعرسانی علوم و فناوری است، اطلاعات مربوط به مقالههای فارسی را بر اساس پرسش کاربر جستجو میکند، سپس در این مرحله سیستم خبره پاسخ جستجو شده توسط موتور جستجو (پاسخ جستجو) را دریافت و نتایج حاصل از پرسش را، بر اساس قوانین داده شده به سیستم خبره ارزشگذاری میکند و ارزش نهایی هر مقاله را به طور تقریبی محاسبه و در نهایت جواب جستجو را بر اساس ارزش نهایی مقالهها، فهرست و مرتّب میکند.
هدف سیستم خبره، ارتقای مقالهها با ارزش بیشتر به بالای فهرست ارائه شده به کاربر است، با این فرض که کاربران معمولاً توجه وافری به 10 نتیجة برتر فهرست دارند. بنابراین، مقالههای شبیهتر و با ارزشتر برای پرسش کاربر باید در بالای این فهرست قرار گیرد.
وظیفة سیستم خبره، جادادن مقالههای با ارزشتر در این فهرست 10 تایی است. در ادامه، پارامترهای سیستم خبره و معماری آن شرح داده میشود. شکل 1، معماری سیستم خبره را نشان میدهد.
شکل 1. معماری سیستم
شکل 1 معماری سیستم را نشان میدهد. نتیجه حاصل از موتور جستجو و سه پارامتر برای هر مقاله بازیابی شده ورودی سیستم خبره است. با کمک این پارامترها و به کارگیری مجموعه قوانین، ارزش نهایی مقالهها محاسبه میشود و ده نتیجه برتر به دست میآید.
2. بازخورد ربط هر مقاله که با تعداد مراجعة کاربر و یا دانلود برای هر مقاله محاسبه میشود.
3. محل یافت شدن کلمات کلیدی (عنوان و یا کلیدواژه) و ارزشگذاری آنها.
قوانین سیستم خبره بر اساس این سه پارامتر نوشته شدهاند و سیستم خبره بر اساس مقادیر این پارامترها تصمیمگیری میکند. پایگاه قوانین به صورت فازی[8] است؛ بنابراین مقادیر دریافتی ابتدا به ارزشهای فازی تبدیل و بر اساس پارامترهای فازی، قوانین فازی به کار گرفته میشود. نتیجة نهایی نیز با تبدیل مقادیر فازی به عددی بین صفر و یک، که ارزش نهایی مقاله است، محاسبه میشود.
1. ارزش مقاله در موتور جستجو با استفاده از الگوریتم TF-IDF:
در موتور جستجوی مقالههای فارسی مرکز منطقهای اطلاعرسانی علوم و فناوری، از فضای برداری و الگوریتم TF-IDF برای ارزشگذاری مقالهها استفاده شده است. بنابراین، لازم است یک سری عملیات پیش پردازش برای هر مقاله انجام شود، که در اینجا به اختصار به شرح این سلسله عملیات میپردازیم.
برای آنکه نویز مجموعةکلمات هر مقاله به حداقل برسد، ابتدا باید کلمات زاید (stop words) از فهرست کلمات حذف شود. این فرایند به وسیلة فهرستی از کلمات زاید که در بازیابی اطلاعات بیتأثیر بوده و ارزش اطلاعاتی ندارد، انجام میشود. در این فهرست، کلماتی از قبیل حروف اضافه ربط و .... قرار دارد.
پس از حذف کلمات زاید، مجموعهای از کلمات مقاله به دست میآید. حال باید این کلمات را ریشهیابی کنیم تا دقت جستجو حفظ شود. برای ریشهیابی کلمات میتوان از الگوریتمهای شبیه پرتر (porter) استفاده کنیم. در نهایت، از الگوریتمهای گسترش کلمات برای گسترش کلمات ریشهیابی شده استفاده میشود. در سیستم پیشنهادی از الگوریتم (n-gram) استفاده میشود. (شکل 2) با کمک این الگوریتم،کلمات بسط داده میشود تا بازیابی بهتر انجام شود. بنابراین، برای هر مقاله یک بردار به دست میآید،که طول آن به تعداد کلمات مجموعه پایگاه دادههاست. برای هر کلمه، تعداد تکرار در این مقاله و تمامی پایگاه محاسبه شده و به وسیلة فرمول TF-IDF برای هر کلمه یک عدد محاسبه میشود و در بردار نهایی قرار داده میشود. مجموعة بردارهای مقالهها، ماتریسی به نام ماتریس کلمه/مدرک را ایجاد میکند و پردازشها روی این ماتریس انجام میشود (شکل 3).
شکل 2. پردازش مقاله و تهیة بردار مقاله
شکل 3. بردارها در فضای سه بعدی
شکل 4. ماتریس کلمه- سند
شکل 3 نمودار بردارهای مقالهها و پرسش را در فضای سه بُعدی نشان میدهد. همانطور که در شکل 4 نشان داده شده است، برای مجموعه مقالهها یک ماتریس به دست میآید. هرعدد w نشان دهندة وزن هر کلمه در یک مدرک است. برای پرسش کاربر نیز همانند روش فوق یک بردار به دست میآید. حال زاویة بین بردار پرســـش و بردارهای مقالهها در مجموعة مقالهها، نشان دهندة میزان شباهت مقالهها و پرسش است. هرچه این زاویه کمتر باشد، شباهت بیشتری وجود دارد. برای تبدیل عدد زاویه به عددی بین صفر و یک به عنوان معیار شباهت و یا ارزش مقالهها، از کیسنوس زاویه بین بردارها استفاده میشود. این عدد به عنوان اولین پارامتر سیستم خبره در سیستم پیشنهادی استفاده شده است. در سامانة موتور جستجوی مقالههای فارسی مرکز منطقهای اطلاعرسانی علوم و فناوری، از این پارامتر به عنوان ارزش مقالهها استفاده میشود و مقالهها بر اساس این عدد فهرست میشوند.
مشکل استفاده از این عدد به عنوان ارزش هر مقاله زمانی است که مقالههای بازیابی شده با پرسش کاربر زیاد باشد، بنابراین به دست آوردن نتیجة مطلوب با نگاه کردن به صفحه اول بازیابی شده، موجب کاهش دقت و پارامتر بازخوانی[9] میشود.
این پارامتر تعداد مراجعه به مقالهها را در نظر میگیرد. به عبارتی، مقالههایی که بیشتر مراجعه کننده داشتهاند، برتر هستند. از این فاکتور در بسیاری از پایگاهها، نظیر پایگاه Amazon نیز استفاده میشود. هرچه یک مقاله بیشتر دانلود شده باشد، نشان دهندة ارزش بیشتر مقاله و توجه بیشتر کاربران به آن است. ولی باید توجه داشت که مقالههای قدیمیتر، نسبت به مقالههای جدید سابقه طولانیتری در پایگاه دارند و احتمالاً تعداد مراجعة بیشتری خواهند داشت. برای رفع این مشکل، تعداد مراجعه به مقالهها بر اساس تعداد سال حضور در پایگاه دادهها، طبق فرمول زیر نرمالسازی میشود:
با توجه به فرمول فوق، میانگین تعداد مراجعه به هر مدرک با در نظر گرفتن تعداد سال حضور در پایگاه به عنوان پارامتر دوم محاسبه میشود.
محل یافتن کلمة کلیدی مرتبط با پرسش برای محاسبة ارزش مقاله، بسیار اهمیت دارد. برای محل قرار گرفتن کلمة کلیدی، طبق قوانین سیستم خبره برای محل قرار گرفتن کلمة کلیدی وزن در نظر گرفته میشود و به مقالههایی که کلمة کلیدی در عنوان آنها یافت شود، ارزش بالاتری داده میشود. این پارامتر در کنار دو پارامتر دیگر در تولید قوانین استفاده میشود.
قوانین بهکار رفته در سیستم خبره، قوانین فازی است. بنابراین، متغیرهای قوانین، متغیرهای فازی هستند و در ابتدای کار باید مقادیر پارامترها به مقادیر فازی ترجمه شود. برای ترجمه مقادیر پارامترها ازمجموعههای فازی استفاده میشود. خروجی سیستم خبره نیز به صورت فازی است و در نهایت به عدد تبدیل میشود. شکل 4 مجموعههای فازی برای متغیر ارزش مقاله را نشان میدهد.
|
|||
|
|||
شکل 4. متغیرهای ارزش مقاله PR
به همین صورت، برای دو پارامتر دیگر نیز متغیرهای فازی تعریف میشود. سپس مجموعه قوانین سیستم خبره شکل داده میشود. مجموعة قوانین سیستم خبره با متغیرهای فازی نوشته میشود. در ذیل، تعدادی از قوانین به کار رفته در سیستم خبره به عنوان مثال آورده شده است:
پارامتر ارزش مقالهها در قوانین با PR ، پارامتر میانگین دانلود با DN و پارامتر محل کلیدواژه با KN نشان داده شده است. ارزش نهایی مقاله نیز با متغیر FR نشان داده شده است.
If PR is high and DN is high then FR is very high
If PR is high and DN is mid then FR is mid
If PR is high and DN is low then FR is mid
If PR is mid and DN is high then FR is high
If PR is mid and DN is mid then FR is mid
If PR is mid and DN is low then FR is low
If PR is low and DN is low then FR is very low
If KN is high and DN is high then FR is very high
با به کارگیری این قوانین، در نهایت متغیر FR ارزش نهایی مقاله را نشان میدهد. با تبدیل این متغیر به ارزش عددی بین صفر و یک، مقالهها در یک فهرست مرتّب میشوند. برای مقایسة نتایج با سیستم ارزشدهی موتور جستجوی سامانه مقالههای فارسی مرکز منطقهای اطلاعرسانی علوم و فنّاوری، 10 نتیجة برتر برای 100 جستجو در نظر گرفته شده است.
برای مقایسة نتایج، از دو معیار دقت و بازخوانی استفاده میشود. دقت عبارت است از نسبت تعداد مدارک مرتبط بر تعداد کل مدارک بازیابی شده بازخوانی نیز عبارت است از نسبت تعداد جوابهای بازیابی شده به کل تعداد جوابهایی که باید از پایگاه بازیابی میشده است. (جوابهای محتمل موجود در پایگاه)
این دو معیار برای صفحه اول با 10 جواب در نظر گرفته و مقادیر به طور محلی محاسبه میشود و نمودار آن ترسیم میگردد. شکل 6 نمودار دقت و بازخوانی را برای سیستم خبره و سیستم TF-IDF مقالههای فارسی (بدون سیستم خبره) نشان میدهد که فقط برای صفحة اول محاسبه شده است. با در نظر گرفتن صفحة اول، مشخص است که سیستم خبره نتیجة بهتری نسبت به سیستم مرسوم دارد.
باید در نظر داشت، پارامترها و مجموعههای فازی برای سیستم کنونی تنظیم شده است و در صورتی که مجموعه کاری تغییر کند، مجموعه متغیرهای فازی دوباره باید تنظیم گردد و همچنین قوانین فازی با توجه به فضای کاری مجموعه وزندهی و بازنویسی شود. نقطه قوت سامانة ارزشدهی هوشمند با استفاده از سیستم خبره، استفاده از چندیدن پارامتر در تصمیمگیری برای ارزش مکانی مقاله است که در مقایسه با ارزشدهی سیستم TF-IDF کیفیت بالاتری را ارائه میدهد. نقطه ضعف سیستم، زمان پاسخ بالاتر نسبت به سیستمهای غیر هوشمند است.
شکل 6. نمودار مقایسة سیستم خبره و سیستم ارزشدهی بر اساس TF-IDF