بررسی میزان اثربخشی عناصر ابرداده‌ای بر رتبه‌بندی صفحات وب توسط موتورهای کاوش عمومی

شریف, عاطفه

بررسی میزان اثربخشی عناصر ابرداده‌ای بر رتبه‌بندی صفحات وب توسط موتورهای کاوش عمومی

نوع مقاله : مقاله پژوهشی

نویسنده

عاطفه شریف

دانشجوی دوره دکترای کتابداری و اطلاع‌رسانی دانشگاه فردوسی مشهد

چکیده

پژوهش حاضر با هدف تعیین میزان اثربخشی عناصر ابرداده‌ای بر رتبه‌بندی صفحات وب توسط سه موتور کاوش عمومی «گوگل»، «یاهو»، و «ام‌اس‌ان» انجام پذیرفت. اثربخشی پنج عنصر ابرداده‌ای نشانه عنوان زبان «اچ‌.تی.‌ام.‌ال»، ابرنشانه‌های کلیدواژه‌ها و توصیف زبان «اچ.تی.ام.ال»، ابرداده‌های عنوان و موضوع از قالب ابرداده‌ای «دابلین کور» که بر بازنمون موضوعی صفحات وب متمرکزند، با روش تجربی آزموده شد. 84 صفحة وب در گروههای گواه و آزمون به عنوان جامعة مورد مطالعه تحت دامنة فرعی http://metadata.irandoc.ac.ir منتشر شد. از میان موتورهای کاوش انتخابی، دو موتور کاوش یاهو و گوگل، صفحات را نمایه‌سازی کردند. کلیدواژه‌های منحصر به فرد و تکرار شونده که در مرحله طراحی در قالب عناصر ابرداده‌ای به صفحات گروه آزمون افزوده شده بود، بررسی شد و میزان معنی‌داری تفاوت رتبه صفحات دو گروه با استفاده از آزمون غیرپارامتری «یو.من.وایتنی» محاسبه گردید. نتایج، نشانگر اثربخشی دو عنصر «عنوان» و «توصیف زبان اچ.تی.ام.ال» در هر دو موتور کاوش مورد مطالعه است. کلیدواژه‌های منحصر به فرد در ابرنشانه کلیدواژه‌های «اچ.تی.ام.ال» و ابرداده موضوع دابلین کور به بهبود رتبه صفحات در یاهو انجامید. در حالی که تکرار کلیدواژه‌ها در بخش سرآیند صفحه وب، باعث بهبود رتبه در موتور کاوش یاهو شد، گوگل عملکردی معکوس داشت.

کلیدواژه‌ها

ابرداده

ابرنشانه‌های اچ.تی.ام.ال

دابلین کور

بازیابی اطلاعات

رتبه‌بندی نتایج کاوش

موتورهای کاوش عمومی

وب

قابلیت دسترسی صفحات وب

مقدمه

همزمان با تولد وب، جهان شاهد تغییرات شگرفی در حوزة ذخیره و بازیابی اطلاعات بوده است. هر روز بر تعداد صفحات وب افزوده می گردد و حجم وسیعی از اطلاعات، در بستر آن، به صورت ساختار نیافته [1] (یالتاقیان[2]، 2002) و فارغ از کنترل محتوایی و کتاب‌شناختی منتشر می‌شود (زانگ و جاستریم [3]، 2004؛ گوتلیب و الیوپولوس[4] ، 2003). در چنین وضعیتی، مسئله اساسی، چگونگی کنترل و مدیریت بدنة ساختارنیافته و رشد سریع این بدنه است (اسدی و جمالی مهمویی،[5] 2004). تاکنون ابزارهای کاوش[6] از قبیل «موتورهای کاوش»[7] «ابرموتورهای کاوش»،[8] «راهنماهای موضوعی» [9] و «نرم‌افزارهای کاوش»[10] محیط مجازی وب را تا اندازه ای تحت کنترل و مدیریت خویش درآورده‌اند.

کاربران از میان ابزارهای رایج کاوش، موتورهای کاوش را به عنوان نقطه آغازین ورود به اینترنت تلقی می کنند (اسپینک و دیگران[11]، 2001 نقل در دوال و واگان [12]، 2004؛ بار- ایلان[13] ، 2005؛ زانگ و دیمیتروف[14]، 2004)، بیش از 95% ترافیک کاوش در اینترنت به موتورهای کاوش مربوط است و 80% کاربران، اطلاعات مورد نیاز خود را از طریق موتورهای کاوش به دست می آورند (هاتلی[15] ، 2002 نقل در زانگ و دیمیتروف،a 2005 (. یافتن اطلاعات موضوعی ویژه در وب دشواریهایی دارد و هر روز بر حجم این دشواریها افزوده می‌گردد (دروت[16]، 2000، ص209). تعداد نتایج بازیابی شدة موتورهای کاوش، اغلب چنان فراوان است که کاربر عملاً جز مرور چند صفحه نخست نتایج، از سایر صفحات منصرف می‌شود (جانسن، اسپینک، و ساراسویک،[17] 2000؛ فدایی عراقی[18]، 2005، ص13؛ یالتاقیان، 2002) و به ناچار به رتبه‌بندی[19] ارائه شدة موتورهای کاوش اعتماد می‌کند (بارـ ایلان، 2005).در این وضعیت، چنانچه صفحه ای مرتبط، در رتبه‌های اول جای نگیرد، ممکن است از دید کاوشگر پنهان بماند (زانگ و جاستریم ، 2005، ص92؛ گوتلیب و الیوپولوس، 2003).

از سویی، یکی از اولین دغدغه‌های ناشران وب‌سایتها دستیابی به رتبه‌های برتر در میان وب‌سایتهای مشابه و هم موضوع است. بدین منظور همواره سیاهه‌ای از عناوین،[20] کلیدواژه‌ها[21] و توصیفهایی[22] که احتمال کسب رتبه‌های برتر را دارند، تهیه و در طراحی صفحات لحاظ می‌شود (ریچاردسون،[23] 2003 نقل در زانگ و دیمیتروف، a2005). طراحی نرم‌افزارهایی چون «تحلیلگر چگالی کلیدواژه»،[24] «ورد ترکر»،[25] «وب پزیشن گولد»،[26] و شکل‌گیری و گسترش وب‌سایتهایی که خدمات توصیه‌ای و مشاوره‌ای بهینه‌سازی صفحات[27] را به منظور کسب رتبه‌های برتر در موتورهای کاوش ارائه می دهند، تأییدی بر حساسیت و توجه به این مسئله است.

نتایج تحقیقات، تفاوتهای قابل ملاحظه‌ای را میان الگوریتمهای رتبه‌بندی موتورهای کاوش عمومی نشان می‌دهد (بار ـ ایلان، 2005). اطلاعات مربوط به الگوریتمهای رتبه‌بندی موتورهای کاوش به صورت طبقه بندی شده[28] و به عنوان اسرار تجاری [29] محافظت می‌شود. حفظ حالت رقابتی و جلوگیری از سوء استفادة طراحان وب‌سایتها از این اطلاعات، از جمله دلایل حفاظت هستند (بارـ ایلان، 2005،ص1512). با وجود ابهامهای موجود در زمینه الگوریتم، رتبه‌بندی موتورهای کاوش، پژوهش پیرامون چگونگی رتبه‌بندی نتایج متوقف نشده است و تلاشهایی در زمینه کشف عوامل اثرگذار و تعیین میزان اثرگذاری آن عوامل، انجام پذیرفته است (ترنر و برک بیل[30]، 1998؛ زانگ و دیمیتروف، 2004؛ a2005، b2005، صفری[31]، 2005؛ محمد[32]، 2006؛ هنشا و والاسکاس[33] ،2001).

محدودة بررسی

صفحات وب متشکل از سه جزء اند: 1. معنا[34] یا محتوا[35] 2. بستر نحوی[36] یا ساختار[37] و 3. پیوندهای فرامتنی[38]. محتوا در بستر نحوی زبانهای نشانه گذاری[39] که قالب یا ساختار ارائه محتوا را فراهم می‌آورند، جای می‌گیرد و ارتباط میان اجزای اطلاعاتی از طریق پیوندهای فرامتنی حاصل می‌شود. هر یک از این عناصر - محتوا، ساختار و پیوندهای فرامتنی ـ ویژگیهای خاصی دارند که بستر ارزیابی صفحات را فراهم می آورد و به طور بالقوه در بهبود کیفی رتبه‌بندی حاصل از کاوش اثر گذار است (کوودو-تررو[40]، 2004).

گوگل بیش از هزار عامل را در نظام رتبه‌بندی نتایج خود مدنظر دارد، اما به دلیل ماهیت تجاری و حفظ یکپارچگی نتایج کاوش، از ذکر جزئیات بیشتر خودداری می‌کند (گوگل[41]، 2004). توافقی بر سر مؤثرتر بودن یک عامل نسبت به سایر عوامل وجود ندارد (فیشکین[42]، 2005) و هر یک از موتورهای کاوش، الگوریتم رتبه‌بندی خاصی را دنبال می‌کنند (هنشا و والاسکاس، 2001، ص92). با وجود این، ساختار ابرداده‌ای،[43] محتوای صفحه[44] و (عوامل داخلی)، و وضعیت ارجاعات فرامتنی[45] وـ (عوامل خارجی) - از جمله عوامل مؤثر بر رتبه‌بندی ذکر شده است (زانگ و جاستریم، 2005).

در این پژوهش، از میان عوامل مؤثر شناخته شده بر رتبه‌بندی نتایج کاوش، تمرکز بر عناصر ابرداده‌ای[46] است و از میان عناصر ابرداده‌ای، پنج عنصر به عنوان معیار ربط فنی[47] انتخاب شده و میزان اثرگذاری هر یک (به صورت منحصر به فرد و در صورت تکرار) بر رتبة صفحات بازیابی شده توسط موتورهای کاوش عمومی، بررسی و تجزیه و تحلیل شده است. عناصر ابرداده‌ای مورد بررسی در این پژوهش عبارتند از: نشانه عنوان[48] از زبان «اچ.تی.ام.ال»، ابرنشانه‌های کلیدواژه‌ها[49] و توصیف[50] از زبان «اچ.تی.ام.ال»، دو ابردادة عنوان[51] و موضوع[52] از قالب ابرداده‌ای دابلین کور.

اگر چه نشانه عنوان زبان «اچ.تی.ام.ال»، عنصر ابرداده‌ای محسوب نمی‌شود؛ اما به واسطه اهمیت ویژه اش (سالیوان[53]، 2002؛ نوروزی[54]، 2005) در میان سایر نشانه‌های «اچ.تی.ام.ال»، در کنار چهار عنصر ابرداده‌ای دیگر بررسی شده است.

پنج عنصر منتخب، تنها تعدادی از عناصر ابرداده‌ای موجود در قالب ابرداده‌ای دابلین کور و زبان «اچ.تی.ام.ال» هستند. این عناصر بر بازنمون موضوعی مدرک متمرکزند و در برخی منابع، کاربرد آنها توصیه شده است (زانگ و دیمتروف، 2004 ؛ سالیوان، 2002؛ لی – اسملتزر[55]، 2000، ص206؛ والکی، فریر[56]، 2001، ص272).

پرسشهای اساسی

پژوهش حاضر فاقد فرضیه است و پرسشهای اساسی آن بدین قرار است:

حضور کلیدواژة مورد کاوش در هر یک از عناصر مورد بررسی (نشانه عنوان، ابرنشانه‌های کلیدواژه‌ها و توصیف زبان نشانه گذاری فرامتن، ابرداده‌های عنوان و موضوع قالب ابرداده‌ای دابلین کور) تا چه میزان بر رتبه‌بندی صفحات در سه موتور کاوش مورد آزمون اثرگذار است؟
تکرار کلیدواژة مورد کاوش در دو تا پنج عنصر یاد شده در بخش سرآیند[57] صفحه و صرف‌نظر از نوع عنصر، تا چه میزان بر بهبود رتبة صفحه اثرگذار است؟

روش‌شناسی

پژوهشهایی که به تعیین میزان اثربخشی عناصر ابرداده‌ای بر رتبه‌بندی صفحات وب در موتورهای کاوش پرداخته‌اند، با تفاوتهایی اندک، از روش تجربی بهره برده اند.در این پژوهش نیز با آگاهی از وجود سایر عواملی که بر رتبه‌بندی صفحات اثرگذارند، جهت اعمال متغیرهای مستقل، کنترل متغیرهای دخیل، و مشاهدة تغییرات در متغیر وابسته، از روش تجربی استفاده کرده‌ایم.

جامعة مورد پژوهش، نشریه ای الکترونیکی با 84 صفحة وب است که پژوهشگر آن را طراحی کرده است. این نشریه با روندی که در ادامه می‌آید، طراحی شد و سپس در معرض نمایه سازی موتورهای کاوش قرار گرفت.

1. مراحل طراحی صفحات

در مرحله نخست، تعداد چهارده مقاله در موضوعات وب معنایی[58]، هستی‌شناختی[59]، وب‌سنجی[60] و ابرداده‌های دابلین کور از میان مقالات منتشر شده در نشریات رایگان حوزة کتابداری و اطلاع‌رسانی که در فهرست راهنمای نشریات پیوسته رایگان[61] معرفی شده است، انتخاب گردید.

کلیدواژه‌های نمایه‌ای این مقالات به شیوة کنترل نشده (زبان طبیعی) و از بستر عنوان، کلیدواژه‌ها (در صورت وجود) چکیده، و در برخی موارد متن مقاله برگزیده شد. پژوهش بر دو دسته کلیدواژه متمرکز است: الف) کلیدواژه‌های منحصر به فرد و ب) کلیدواژه‌های تکرارشونده. کلیدواژه‌های منحصر به فرد آن دسته از کلیدواژه‌هایی هستند که منحصراً به یک عنصر ابرداده‌ای اختصاص یافته‌اند؛ با دیگر کلیدواژه‌های مربوط به سایر عناصر، همپوشانی و شباهت ندارند و پاسخگویی به نخستین پرسش را ممکن می‌سازند. کلیدواژه‌های تکرارشونده، کلیدواژه‌هایی هستند که در تمام عناصر ابرداده‌ای به یک شیوه و ترتیب، قبل از کلیدواژه‌های منحصر به فرد و به منظور سنجش اثربخشی تکرار کلیدواژه‌ها در دو تا پنج عنصر ابرداده‌ای (پرسش دوم) افزوده شده‌اند.

به طور نمونه، کلیدواژه‌های منحصر به فرد و تکرار شوندة مقاله هشتم با عنوان «A Metadata Registry for the Semantic Web» در جدول 1 آمده است.

جدول1. نمونه‌ای از کلیدواژه‌های منحصر به فرد و تکرار شونده

Keywords		Element
Repeated	Unique	Element
Semantic web, Metadata Registry	---	E1[62]
Semantic web, Metadata Registry	Metadata schemas, DCMI vocabulary	E2
Semantic web, Metadata Registry	Automated sharing of metadata, Dublin core metadata Initiative, DCMI Registry	E3
Semantic web, Metadata Registry	---	E4
Semantic web, Metadata Registry	Registry applications	E5

پس از تعیین کلیدواژه‌های مربوط به هر یک از عناصر مورد بررسی در مرحلة بعد، با توجه به پرسشهای اساسی پژوهش، گروههای گواه و آزمون تعیین گردید. پاسخگویی به پرسشها با وجود شش گروه صفحه امکان‌پذیر است. گروه‌بندی صفحات در جدول 2 آمده است. به منظور حفظ هم ترازی در دو گروه گواه و آزمون، تعداد صفحات گروه گواه با تعداد صفحات گروه آزمون، برابر است و محتوای صفحه آزمون در هر مقاله جز در مورد عناصر ابرداده‌ای افزوده شده، مشابه صفحه گروه گواه خود است. بدین ترتیب، چهارده مقالة منتخب در شش شمارة نشریه تکرار شده اند (84= 6*14).

جدول2. گروه‌بندی صفحات

گروه	حاوی کلیدواژة منحصر به فرد در	حاوی تکرار کلیدواژه‌ها در
اول	----	----
دوم	----	نشانة عنوان «اچ.تی.ام.ال» (عنصر 1)
سوم	ابرنشانة کلیدواژه‌های «اچ.تی.ام.ال» (عنصر 2)	نشانة عنوان و ابرنشانة کلیدواژه‌های «اچ.تی.ام.ال» (عناصر 1، و 2)
چهارم	ابرنشانة توصیف «اچ.تی.ام.ال» (عنصر 3)	نشانة عنوان، ابرنشانه‌های کلیدواژه‌ها و توصیف «اچ.تی.ام.ال» (عناصر 1، 2، و3)
پنجم	----	نشانة عنوان، ابرنشانه‌های کلیدواژه‌ها و توصیف «اچ.تی.ام.ال»، ابرداده عنوان دابلین‌کور (عناصر 1، 2، 3، و 4)
ششم	ابردادة موضوع قالب ابرداده‌ای دابلین کور (عنصر 5)	نشانة عنوان، ابرنشانه‌های کلیدواژه‌ها و توصیف «اچ.تی.ام.ال»، ابرداده‌های عنوان و موضوع دابلین‌کور (عناصر 1، 2، 3، 4، و 5)

سپس کلیدواژه‌های منتخب در بستر نحوی «اچ.تی.ام.ال» نشانه گذاری و در کدمنبع[63] مقالات گنجانده شد. به طور نمونه، کدگذاری مقالة هشتم چنین است: در این مثال، کلیدواژه‌های تکرار شونده به صورت توپر نمایش داده شده است. گروه نخست، فاقد کلیدواژه است.

در گروه دوم