بررسی میزان اثربخشی عناصر ابرداده‌ای بر رتبه‌بندی صفحات وب توسط موتورهای کاوش عمومی

نوع مقاله : مقاله پژوهشی

نویسنده

دانشجوی دوره دکترای کتابداری و اطلاع‌رسانی دانشگاه فردوسی مشهد

چکیده

پژوهش حاضر با هدف تعیین میزان اثربخشی عناصر ابرداده‌ای بر رتبه‌بندی صفحات وب توسط سه موتور کاوش عمومی «گوگل»، «یاهو»، و «ام‌اس‌ان» انجام پذیرفت. اثربخشی پنج عنصر ابرداده‌ای نشانه عنوان زبان «اچ‌.تی.‌ام.‌ال»، ابرنشانه‌های کلیدواژه‌ها و توصیف زبان «اچ.تی.ام.ال»، ابرداده‌های عنوان و موضوع از قالب ابرداده‌ای «دابلین کور» که بر بازنمون موضوعی صفحات وب متمرکزند، با روش تجربی آزموده شد. 84 صفحة وب در گروههای گواه و آزمون به عنوان جامعة مورد مطالعه تحت دامنة فرعی http://metadata.irandoc.ac.ir منتشر شد. از میان موتورهای کاوش انتخابی، دو موتور کاوش یاهو و گوگل، صفحات را نمایه‌سازی کردند. کلیدواژه‌های منحصر به فرد و تکرار شونده که در مرحله طراحی در قالب عناصر ابرداده‌ای به صفحات گروه آزمون افزوده شده بود، بررسی شد و میزان معنی‌داری تفاوت رتبه صفحات دو گروه با استفاده از آزمون غیرپارامتری «یو.من.وایتنی» محاسبه گردید. نتایج، نشانگر اثربخشی دو عنصر «عنوان» و «توصیف زبان اچ.تی.ام.ال» در هر دو موتور کاوش مورد مطالعه است. کلیدواژه‌های منحصر به فرد در ابرنشانه کلیدواژه‌های «اچ.تی.ام.ال» و ابرداده موضوع دابلین کور به بهبود رتبه صفحات در یاهو انجامید. در حالی که تکرار کلیدواژه‌ها در بخش سرآیند صفحه وب، باعث بهبود رتبه در موتور کاوش یاهو شد، گوگل عملکردی معکوس داشت.
 

کلیدواژه‌ها


مقدمه

همزمان با تولد وب، جهان شاهد تغییرات شگرفی در حوزة ذخیره و بازیابی اطلاعات بوده است. هر روز بر تعداد صفحات وب افزوده می گردد و حجم وسیعی از اطلاعات، در بستر آن، به صورت ساختار نیافته [1] (یالتاقیان[2]، 2002) و فارغ از کنترل محتوایی و کتاب‌شناختی منتشر می‌شود (زانگ و جاستریم [3]، 2004؛ گوتلیب و الیوپولوس[4] ، 2003). در چنین وضعیتی، مسئله اساسی، چگونگی کنترل و مدیریت بدنة ساختارنیافته و رشد سریع این بدنه است (اسدی و جمالی مهمویی،[5] 2004). تاکنون ابزارهای کاوش[6] از قبیل «موتورهای کاوش»[7] «ابرموتورهای کاوش»،[8] «راهنماهای موضوعی» [9] و «نرم‌افزارهای کاوش»[10] محیط مجازی وب را تا اندازه ای تحت کنترل و مدیریت خویش درآورده‌اند.

کاربران از میان ابزارهای رایج کاوش،  موتورهای کاوش را به عنوان نقطه آغازین ورود به اینترنت تلقی می کنند (اسپینک و دیگران[11]، 2001 نقل در دوال و واگان [12]، 2004؛ بار- ایلان[13] ، 2005؛ زانگ و دیمیتروف[14]، 2004)،  بیش از 95% ترافیک کاوش در اینترنت به موتورهای کاوش مربوط است و 80% کاربران، اطلاعات مورد نیاز  خود را از طریق موتورهای کاوش به دست می آورند (هاتلی[15] ، 2002 نقل در زانگ و دیمیتروف،a 2005 (. یافتن اطلاعات موضوعی ویژه در وب دشواریهایی دارد و هر روز بر حجم این دشواریها افزوده می‌گردد (دروت[16]، 2000، ص209). تعداد نتایج بازیابی شدة موتورهای کاوش، اغلب چنان فراوان است که کاربر عملاً جز مرور چند صفحه نخست نتایج، از سایر صفحات منصرف می‌شود (جانسن، اسپینک، و ساراسویک،[17] 2000؛ فدایی عراقی[18]، 2005، ص13؛ یالتاقیان، 2002) و به ناچار به رتبه‌بندی[19] ارائه شدة موتورهای کاوش اعتماد می‌کند (بارـ ایلان، 2005).در این وضعیت، چنانچه صفحه ای مرتبط، در رتبه‌های اول جای نگیرد، ممکن است از دید کاوشگر پنهان بماند (زانگ و جاستریم ، 2005، ص92؛ گوتلیب و الیوپولوس، 2003).

از سویی، یکی از اولین دغدغه‌های ناشران وب‌سایتها دستیابی به رتبه‌های برتر در میان وب‌سایتهای مشابه و هم موضوع است. بدین منظور همواره سیاهه‌ای از عناوین،[20] کلیدواژه‌ها[21] و توصیفهایی[22] که احتمال کسب رتبه‌های برتر را دارند، تهیه و در طراحی صفحات لحاظ می‌شود (ریچاردسون،[23] 2003 نقل در زانگ و دیمیتروف، a2005). طراحی نرم‌افزارهایی چون «تحلیلگر چگالی کلیدواژه»،[24] «ورد ترکر»،[25] «وب پزیشن گولد»،[26] و شکل‌گیری و گسترش وب‌سایتهایی که خدمات توصیه‌ای و مشاوره‌ای بهینه‌سازی صفحات[27] را به منظور کسب رتبه‌های برتر در موتورهای کاوش ارائه می دهند، تأییدی بر حساسیت و توجه به این مسئله است.

نتایج تحقیقات، تفاوتهای قابل ملاحظه‌ای را میان الگوریتمهای رتبه‌بندی موتورهای کاوش عمومی نشان می‌دهد (بار ـ ایلان، 2005).  اطلاعات مربوط به الگوریتمهای رتبه‌بندی موتورهای کاوش به صورت طبقه بندی شده[28]  و به عنوان اسرار تجاری [29] محافظت می‌شود. حفظ حالت رقابتی و جلوگیری از سوء استفادة طراحان وب‌سایتها از این اطلاعات، از جمله دلایل حفاظت هستند (بارـ ایلان، 2005،ص1512). با وجود ابهامهای موجود در زمینه الگوریتم، رتبه‌بندی موتورهای کاوش، پژوهش پیرامون چگونگی رتبه‌بندی نتایج متوقف نشده است و تلاشهایی در زمینه کشف عوامل اثرگذار و تعیین میزان اثرگذاری آن عوامل، انجام پذیرفته است (ترنر و برک بیل[30]، 1998؛ زانگ و دیمیتروف، 2004؛ a2005، b2005، صفری[31]، 2005؛ محمد[32]، 2006؛ هنشا و           والاسکاس[33] ،2001).

 

محدودة بررسی

صفحات وب متشکل از سه جزء اند: 1. معنا[34] یا محتوا[35] 2. بستر نحوی[36] یا ساختار[37] و 3. پیوندهای فرامتنی[38]. محتوا در بستر نحوی زبانهای نشانه گذاری[39] که قالب یا ساختار ارائه محتوا را فراهم می‌آورند، جای می‌گیرد و ارتباط میان اجزای اطلاعاتی از طریق پیوندهای فرامتنی حاصل می‌شود. هر یک از این عناصر -  محتوا، ساختار و پیوندهای فرامتنی ـ ویژگیهای خاصی دارند که بستر ارزیابی صفحات را فراهم  می آورد و به طور بالقوه در بهبود کیفی رتبه‌بندی حاصل از کاوش اثر گذار است (کوودو-تررو[40]، 2004).

گوگل بیش از هزار عامل را در نظام رتبه‌بندی نتایج خود مدنظر دارد، اما به دلیل ماهیت تجاری و حفظ یکپارچگی نتایج کاوش، از ذکر جزئیات بیشتر خودداری می‌کند (گوگل[41]، 2004). توافقی بر سر مؤثرتر بودن یک عامل نسبت به سایر عوامل وجود ندارد (فیشکین[42]، 2005) و هر یک از موتورهای کاوش، الگوریتم رتبه‌بندی خاصی را دنبال می‌کنند (هنشا و والاسکاس، 2001، ص92). با وجود این، ساختار ابرداده‌ای،[43] محتوای صفحه[44] و (عوامل داخلی)، و وضعیت ارجاعات فرامتنی[45] وـ (عوامل خارجی) - از جمله عوامل مؤثر بر رتبه‌بندی ذکر شده است (زانگ و جاستریم، 2005).

در این پژوهش، از میان عوامل مؤثر شناخته شده بر رتبه‌بندی نتایج کاوش، تمرکز بر عناصر ابرداده‌ای[46] است و از میان عناصر ابرداده‌ای، پنج عنصر به عنوان معیار ربط فنی[47] انتخاب شده و میزان اثرگذاری هر یک (به صورت منحصر به فرد و در صورت تکرار) بر رتبة صفحات بازیابی شده توسط موتورهای کاوش عمومی، بررسی و تجزیه و تحلیل شده است. عناصر ابرداده‌ای مورد بررسی در این پژوهش عبارتند از: نشانه عنوان[48] از زبان «اچ.تی.ام.ال»، ابرنشانه‌های کلیدواژه‌ها[49] و توصیف[50] از زبان «اچ.تی.ام.ال»، دو ابردادة عنوان[51]  و موضوع[52] از قالب ابرداده‌ای دابلین کور.

اگر چه نشانه عنوان زبان «اچ.تی.ام.ال»، عنصر ابرداده‌ای محسوب نمی‌شود؛ اما به واسطه اهمیت ویژه اش (سالیوان[53]، 2002؛ نوروزی[54]، 2005) در میان سایر نشانه‌های «اچ.تی.ام.ال»، در کنار چهار عنصر ابرداده‌ای دیگر بررسی شده است.

پنج عنصر منتخب، تنها تعدادی از عناصر ابرداده‌ای موجود در قالب ابرداده‌ای دابلین کور و زبان «اچ.تی.ام.ال» هستند. این عناصر بر بازنمون موضوعی مدرک متمرکزند و در برخی منابع، کاربرد آنها توصیه شده است (زانگ و دیمتروف، 2004 ؛ سالیوان، 2002؛ لی – اسملتزر[55]، 2000، ص206؛ والکی، فریر[56]، 2001، ص272).

 

پرسشهای اساسی

پژوهش حاضر فاقد فرضیه است و پرسشهای اساسی آن بدین قرار است:

  1. حضور کلیدواژة مورد کاوش در هر یک از عناصر مورد بررسی (نشانه عنوان، ابرنشانه‌های کلیدواژه‌ها و توصیف زبان نشانه گذاری فرامتن، ابرداده‌های عنوان و موضوع قالب ابرداده‌ای دابلین کور) تا چه میزان بر رتبه‌بندی صفحات در سه موتور کاوش مورد آزمون اثرگذار است؟
  2. تکرار کلیدواژة مورد کاوش در دو تا پنج عنصر یاد شده در بخش سرآیند[57] صفحه و صرف‌نظر از نوع عنصر، تا چه میزان بر بهبود رتبة صفحه اثرگذار است؟

 

روششناسی

پژوهشهایی که به تعیین میزان اثربخشی عناصر ابرداده‌ای بر رتبه‌بندی صفحات وب در موتورهای کاوش پرداخته‌اند، با تفاوتهایی اندک، از روش تجربی بهره برده اند.در این پژوهش نیز با آگاهی از وجود سایر عواملی که بر رتبه‌بندی صفحات اثرگذارند، جهت اعمال متغیرهای مستقل، کنترل متغیرهای دخیل، و مشاهدة تغییرات در متغیر وابسته، از روش تجربی استفاده کرده‌ایم.

جامعة مورد پژوهش، نشریه ای الکترونیکی با 84 صفحة وب است که پژوهشگر آن را طراحی کرده است. این نشریه با روندی که در ادامه می‌آید، طراحی شد و سپس در معرض نمایه سازی موتورهای کاوش قرار گرفت.

1. مراحل طراحی صفحات

در مرحله نخست، تعداد چهارده مقاله در موضوعات وب معنایی[58]، هستی‌شناختی[59]، وب‌سنجی[60] و ابرداده‌های دابلین کور از میان مقالات منتشر شده در نشریات رایگان حوزة کتابداری و اطلاع‌رسانی که در فهرست راهنمای نشریات پیوسته رایگان[61] معرفی شده است، انتخاب گردید.

کلیدواژه‌های نمایه‌ای این مقالات به شیوة کنترل نشده (زبان طبیعی) و از بستر عنوان، کلیدواژه‌ها (در صورت وجود) چکیده، و در برخی موارد متن مقاله برگزیده شد. پژوهش بر دو دسته کلیدواژه متمرکز است: الف) کلیدواژه‌های منحصر به فرد و ب) کلیدواژه‌های تکرارشونده. کلیدواژه‌های منحصر به فرد آن دسته از کلیدواژه‌هایی هستند که منحصراً به یک عنصر ابرداده‌ای اختصاص یافته‌اند؛ با دیگر کلیدواژه‌های مربوط به سایر عناصر، همپوشانی و شباهت ندارند و پاسخگویی به نخستین پرسش را ممکن می‌سازند. کلیدواژه‌های تکرارشونده، کلیدواژه‌هایی هستند که در تمام عناصر ابرداده‌ای به یک شیوه و ترتیب، قبل از کلیدواژه‌های منحصر به فرد و به منظور سنجش اثربخشی تکرار کلیدواژه‌ها در دو تا پنج عنصر ابرداده‌ای (پرسش دوم) افزوده شده‌اند.

به طور نمونه، کلیدواژه‌های منحصر به فرد و تکرار شوندة مقاله هشتم با عنوان «A Metadata Registry for the Semantic Web» در جدول 1 آمده است.

جدول1. نمونهای از کلیدواژه‌های منحصر به فرد و تکرار شونده

Keywords

Element

Repeated

Unique

Semantic web, Metadata Registry

---

E1[62]

Semantic web, Metadata Registry

Metadata schemas, DCMI vocabulary

E2

Semantic web, Metadata Registry

Automated sharing of metadata, Dublin core metadata Initiative, DCMI Registry

E3

Semantic web, Metadata Registry

---

E4

Semantic web, Metadata Registry

Registry applications

E5

پس از تعیین کلیدواژه‌های مربوط به هر یک از عناصر مورد بررسی در مرحلة بعد، با توجه به پرسشهای اساسی پژوهش، گروههای گواه و آزمون تعیین گردید. پاسخگویی به پرسشها با وجود شش گروه صفحه امکان‌پذیر است. گروه‌بندی صفحات در جدول 2 آمده است. به منظور حفظ هم ترازی در دو گروه گواه و آزمون، تعداد صفحات گروه گواه با تعداد صفحات گروه آزمون، برابر است و محتوای صفحه آزمون در هر مقاله جز در مورد عناصر ابرداده‌ای افزوده شده، مشابه صفحه گروه گواه خود است. بدین ترتیب، چهارده مقالة منتخب در شش شمارة نشریه تکرار شده اند (84= 6*14).

جدول2. گروهبندی صفحات




گروه

حاوی کلیدواژة منحصر به فرد در

حاوی تکرار کلیدواژه‌ها در

اول

----

----

دوم

----

نشانة عنوان «اچ.تی.ام.ال» (عنصر 1)

سوم

ابرنشانة کلیدواژه‌های «اچ.تی.ام.ال» (عنصر 2)

نشانة عنوان و ابرنشانة کلیدواژه‌های «اچ.تی.ام.ال» (عناصر 1، و 2)

چهارم

ابرنشانة توصیف «اچ.تی.ام.ال»     (عنصر 3)

نشانة عنوان، ابرنشانه‌های کلیدواژه‌ها و توصیف «اچ.تی.ام.ال» (عناصر 1، 2، و3)

پنجم

----

نشانة عنوان، ابرنشانه‌های کلیدواژه‌ها و توصیف «اچ.تی.ام.ال»، ابرداده عنوان دابلین‌کور

(عناصر 1، 2، 3، و 4)

ششم

ابردادة موضوع قالب ابرداده‌ای دابلین کور (عنصر 5)

نشانة عنوان، ابرنشانه‌های کلیدواژه‌ها و توصیف «اچ.تی.ام.ال»، ابرداده‌های عنوان و موضوع دابلین‌کور (عناصر 1، 2، 3، 4، و 5)

 

سپس کلیدواژه‌های منتخب در بستر نحوی «اچ.تی.ام.ال» نشانه گذاری و در کدمنبع[63] مقالات گنجانده شد. به طور نمونه، کدگذاری مقالة هشتم چنین است: در این مثال، کلیدواژه‌های تکرار شونده به صورت توپر نمایش داده شده است. گروه نخست، فاقد کلیدواژه است.

در گروه دوم

<TITLE>A Metadata Registry for the Semantic Web</TITLE>

در گروه سوم

<TITLE>A Metadata Registry for the Semantic Web</TITLE>

<META name="keywords" content="Semantic web, Metadata Registry, Metadata schemas, DCMI vocabulary">

در گروه چهارم

<TITLE>A Metadata Registry for the Semantic Web</TITLE>

<META name="keywords" content="Semantic web, Metadata Registry, Metadata schemas, DCMI vocabulary">

<META name="description" content="Semantic web, Metadata Registry, Automated sharing of metadata, Dublin core metadata Initiative, DCMI Registry">

در گروه پنجم

<TITLE>A Metadata Registry for the Semantic Web</TITLE>

<META name="keywords" content="Semantic web, Metadata Registry, Metadata schemas, DCMI vocabulary">

<META name="description" content="Semantic web, Metadata Registry, Automated sharing of metadata, Dublin core metadata Initiative, DCMI Registry">

<META name="DC.Title" content="A Metadata Registry for the Semantic Web">

در گروه ششم

<TITLE>A Metadata Registry for the Semantic Web</TITLE>

<META name="keywords" content="Semantic web, Metadata Registry, Metadata schemas, DCMI vocabulary">

<META name="description" content="Semantic web, Metadata Registry, Automated sharing of metadata, Dublin core metadata Initiative, DCMI Registry">

<META name="DC.Title" content="A Metadata Registry for the Semantic Web">

<META name="DC.Subject" content="Semantic web, Metadata Registry, Registry applications">

 

2. انتشار صفحات طراحی شده

بدین ترتیب، 84 صفحه ایستا[64] به کمک واژه‌پرداز Word از مجموعه مایکروسافت آفیس 2003،[65] طراحی و از24 خرداد تا 8 شهریور1385[66] در دامنه فرعی «ابرداده» از سایت «پژوهشگاه اطلاعات و مدارک علمی ایران»[67] منتشر شد و در معرض نمایه سازی سه موتور کاوش گوگل[68]، یاهو[69]، ام اس ان[70] – سه موتور کاوش پراستفاده به استناد «الکسا»،[71] «سرچ اینجین واچ»،[72] «سرچ اینجین گاید»[73] و سایتهای مشابه[74] ـ قرار گرفت. در دهمین روز انتشار صفحات، موتور کاوش گوگل، تمامی صفحات منتشر شده را نمایه‌سازی نمود؛ این در حالی است که یاهو روندی کندتر داشت و پس از گذشت بازه زمانی مشخص شده، 76 صفحه مربوط به مقالات نشریه نمایه شد. اما از میان سه موتور کاوش انتخابی، «ام.اس.ان» به دلیل عدم نمایه سازی تعداد قابل قبولی از صفحات در مدت زمان تعیین شده، از مجموعه پژوهش حذف شد و ادامة پژوهش با تمرکز بر صفحات نمایه شده، در دو موتور کاوش یاهو و گوگل انجام پذیرفت.

 

3. گردآوری داده‌ها

به منظور تعیین میزان اثربخشی عناصر ابرداده‌ای در این مرحله از پژوهش، کاوش کلیدواژه ای در کادر محاوره‌ای ساده[75] دو موتور کاوش گوگل و یاهو انجام پذیرفت. از آنجا که دو گروه گواه و آزمون، در وب سایت طراحی شده گنجانده شده است و نیازی به تعیین رتبة صفحات در میان سایر صفحات موجود در وب نیست، کاوش کلیدواژه ای در دامنه وب سایت طراحی شده محدود گردید. فرمول کاوش در موتورهای کاوش گوگل و یاهو به ترتیب، چنین است:

Site:http://metadata.irandoc.ac.ir “Keywords”

Site:metadata.irandoc.ac.ir “Keywords”

یا Domain:metadata.irandoc.ac.ir “Keywords”

برای تعیین میزان اثربخشی هر یک از عناصر ابرداده‌ای (پرسش نخست پژوهش) دو مجرای آزمون وجود دارد:

  • کاوش کلیدواژه‌های منحصر به فرد که تنها به عنصر ابرداده‌ای ویژه‌ای اختصاص یافته است و مقایسة رتبة صفحه حاوی آن کلیدواژه با صفحة گروه گواه مورد نظر.
  • کاوش کلیدواژه‌های تکرار شونده؛ چنانکه بیان شد، به ترتیب افزایش شماره‌های نشریه، یک عنصر ابرداده‌ای به عناصر قبلی افزوده می گردد و تنها تفاوت میان دو مقاله مشابه در دو نشریة با شماره های متوالی، حضور کلیدواژه‌های تکرار شونده و منحصر به فردی است که در عنصر ابرداده‌ای بعدی افزوده شده است. لذا هر یک از شماره‌های نشریه در حالی که حاوی مقالات گروه آزمون نشریه شماره قبل خود است، حاوی مقالات گروه گواه نشریه شماره بعد نیز هست.  بدین ترتیب، به استثنای عناصر عنوانی (عنوان اچ.تی.ام.ال و عنوان دابلین‌کور) دو دسته آزمون برای تعیین اثربخشی حضور هر یک از عناصر ابرداده‌ای (پرسش نخست) قابل انجام شدن است.

رتبه حاصل از هر یک از کاوشهای انجام شده در موتورهای کاوش، به تفکیک موتور کاوش و گروه گواه و آزمون با توجه به سؤالهای پژوهش در نرم‌افزار آماری SPSS[76] وارد شد و مورد تجزیه و تحلیل قرار گرفت.

با توجه به این که نتایج حاصل از کاوش در موتورهای کاوش از نوع داده‌های رتبه‌ای است (ترنر و برک بیل، 1998؛صفری[77]، 2005)، میزان معنادار بودن تفاوت دو گروه گواه و آزمون (دو گروه مستقل) در بازیابی صفحات وب، با استفاده از آزمون غیرپارامتری  یومن‌ وایتنی[78] تعیین شد.

در مجموع، تحت شرایط زمانی و مکانی یکسان، 363 کاوش در موتور کاوش گوگل و 259 کاوش در موتور کاوش یاهو  انجام شد و رتبه‌های کسب شده در دو گروه صفحات آزمون و گواه ثبت گردید. تجزیه و تحلیل آماری نیز بر مبنای داده‌های جمع‌آوری شده، با نرم‌افزار آماری «اس.پی.اس.اس.» انجام پذیرفت.

تجزیه و تحلیل یافته‌ها

1. پاسخگویی به نخستین پرسش پژوهش:میزان اثربخشی هر یک از عناصر ابرداده‌ای بر رتبه‌بندی به وسیله دو موتور کاوش یاهو و گوگل.

برای درک بهتر و امکان مقایسه و تحلیل نتایج، جدول3 که نمایی کلی از مقدار پی محاسبه شده توسط نرم‌افزار آماری «اس.پی.اس.اس» در آزمون «یو من وایتنی» است، ارائه می‌شود. وجود تفاوت معنادار در هر عنصر،  با قلم[79] درشت تر و توپر نشان داده شده است. تفاوت میان میانگین رتبه‌های کسب شده در هر گروه نشانگر آن است که رتبه به نفع کدام گروه تغییر وضعیت داده است؛ لذا در هر مورد از عناصر، به تفکیک موتور کاوش، گروه صفحاتی که بهبود رتبه داشته (آزمون یا گواه)  با اصطلاح «به نفع» مشخص شده است.

جدول3. نتایج آزمون «یو من وایتنی» در پاسخ به پرسش نخست


یاهو

گوگل

نوع کلیدواژه

عنصر مورد آزمون

به نفع

Asymp. Sig. (2-tailed)

به نفع

Asymp. Sig. (2-tailed)

--

--

--

--

کلیدواژة منحصر به فرد

عنوان اچ.تی.ام.ال

آزمون

.001

آزمون

.000

کلیدواژة تکرار شونده

آزمون

.017

آزمون

.462

کلیدواژة منحصر به فرد

کلیدواژه‌های اچ.تی.ام.ال

آزمون

.172

آزمون

.472

کلیدواژة تکرار شونده

آزمون

.000

آزمون

.015

کلیدواژة منحصر به فرد

توصیف اچ.تی.ام.ال

آزمون

.000

گواه

.016

کلیدواژة تکرار شونده

--

--

--

--

کلیدواژة منحصر به فرد

عنوان دابلین کور

آزمون

.807

آزمون

.826

کلیدواژة تکرار شونده

آزمون

.023

آزمون

.110

کلیدواژة منحصر به فرد

موضوع دابلین کور

گواه

.050

گواه

.038

کلیدواژة تکرار شونده

 

یافته‌های حاصل از بررسی اثربخشی دو ابرنشانة کلیدواژه‌ها و توصیف در این پژوهش، با یافته‌های «ترنر» و «برک بیل» (1998) مبنی بر اثربخشی ابرنشانة کلیدواژه‌ها در مقایسه با ابرنشانة توصیف، تفاوت دارد. یافته‌ها در پژوهش حاضر نشان داد که ابرنشانه توصیف در مقایسه با ابرنشانه کلیدواژه‌ها اثر بیشتری در بهبود رتبة صفحات دارد.

یافته‌های «صفری» (2005) مبنی بر عدم تأثیر عنصر عنوان دابلین کور بر رتبة صفحات، در این پژوهش نیز تأیید می‌شود. یافته‌های این پژوهش در راستای نتایج زانگ و دیمیتروف (2004) تأثیر عنصر موضوع دابلین کور را در بهبود رتبة صفحات نشان می‌دهد. این یافته با یافته‌های صفری مبنی بر عدم اثربخشی عنصر موضوع دابلین کور، متفاوت است.

2. پاسخگویی به پرسش دوم: میزان اثربخشی دو تا پنج بار تکرار کلیدواژه در بخش سرآیند صفحات وب بر رتبه‌بندی صفحات وب در دو موتور کاوش یاهو و گوگل

جدول شماره4، نمایی کلی از مقدار پی محاسبه شده توسط نرم‌افزار آماری «اس.پی.اس.اس» در آزمون «یومن‌وایتنی» ارائه می‌کند. در پاسخ به پرسش دوم پژوهش، تأثیر حضور کلیدواژه‌های تکرار شونده در دو تا پنج عنصر تحت بررسی، تجزیه و تحلیل شد.

جدول4. نتایج آزمون «یو من وایتنی» در پاسخ به پرسش دوم

تعداد تکرار مورد بررسی

گوگل

یاهو

Asymp.Sig.(2-tailed)

به نفع

Asymp.Sig.(2-tailed)

به نفع

2 بار تکرار

580/0

آزمون

172/0

آزمون

3 بار تکرار

008/.

گواه

016/.

آزمون

4 بار تکرار

062/.

گواه

019/.

آزمون

5 بار تکرار

000/.

گواه

175/0

آزمون

 

عملکرد دو موتور کاوش گوگل و یاهو در مقابل عناصر ابرداده‌ای در این پژوهش بررسی شد. به طور خلاصه، عملکرد دو موتور کاوش مورد بررسی، چنین است:

  • موتورهای کاوش نسبت به حضور عناصر ابرداده‌ای مورد بررسی، بی‌اعتنا نیستند.
  • عنصر عنوان «اچ.تی.ام.ال» در مقایسه با سایر عناصر مورد بررسی، اثرگذارترین عنصر در هر دو موتور کاوش مورد بررسی است.
  • از میان ابرنشانه‌های «اچ.تی.ام.ال»، ابرنشانة توصیف، تأثیر بیشتری در مقایسه با ابرنشانه کلیدواژه‌ها دارد.
  • توجه به عناصر ابرداده‌ای زبان «اچ.تی.ام.ال» بیش از عناصر ابرداده‌ای قالب دابلین کور است.
  • توجه موتورهای کاوش مورد بررسی به عنصر موضوع قالب ابرداده‌ای دابلین کور، بیش از عنصر عنوان آن است.
  • دو موتور کاوش گوگل و یاهو، عملکرد متفاوتی نسبت به کلیدواژه‌های تکرار شونده و منحصر به فرد دارند.
  • در هر دو موتور کاوش، کلیدواژه‌های منحصر به فرد در مقایسه با کلیدواژه‌های تکرار شونده، تأثیر بیشتری دارد.
  • موتور کاوش گوگل بیش از یاهو نسبت به کلیدواژه‌های تکراری در بخش سرآیند صفحات وب، حساس است و به نظر می‌رسد که این تکرارها را نوعی تقلب به شمار می‌آورد.

 

نتیجه‌گیری

با وجود تمامی پیشرفتهای حاصل شده در فناوری موتورهای کاوش، هنوز روش اصلی نمایه سازی در موتورهای کاوش، محتوا محور است و بر مبنای کلیدواژه‌ها انجام می‌پذیرد (یو و دیگران[80]، 2002) .نمایه سازی تمام متن، کاوش کلیدواژه ای بدون توجه به بافت متن و کاستیهای موجود در رتبه‌بندیها، به جامعیت بالا و مانعیت پایین منجر می‌شود  (لی ـ اسملتزر، 2000، ص206) . تحقیقات فراوانی در زمینة مشکلات نمایه‌سازی خودکار در موتورهای کاوش انجام گرفته است (چانگ و لی[81]، 1998، ص149). آنچه پژوهشگران در باب آن به اتفاق نظر رسیده‌اند آن است که نمایه‌‌سازی غیرمتمرکز و توزیع شده، به گونه‌ای که در موتورهای کاوش کنونی در جریان است، معماری قابل تأییدی در بازیابی اطلاعات وب نیست ( لی ـ اسملتزر، 2000، ص206) .

چنانچه محتوای صفحه به درستی در فیلدهای ابرداده‌ای بازنموده شود و موتورهای کاوش از این فیلدهای ابرداده‌ای در رتبه‌بندی و بازیابی نتایج بهره ببرند، مانعیت افزایش و نتایج بازیابی به سطحی قابل مدیریت کاهش می یابد. به علاوه، رتبه‌بندی صفحات صحت بیشتری خواهد داشت (زانگ و جاستریم، 2005، ص1) و آن بخش از  ویژگیها که شناسایی آنها به درک انسانی نیاز دارد، در فرایند نمایه‌سازی منظور خواهد شد؛ اما همچنان پاسخ به این سؤال که آیا جامعة بهره‌گیر، به اهمیت وجود ابرداده پی برده است یا خیر، آن را تأیید می‌کند و یا اینکه به درستی از آن بهره می‌برد یا نه، یک معماست ( زانگ و جاستریم ، 2005، ص22).

از نظر «تیم برنرزلی»[82] و سایر پیشگامان وب معنایی، وب کنونی، اطلاعاتی انسان فهم دارد. صفحات وب به زبان اچ.تی.ام.ال نگاشته می‌شود و مرورگرها بر نشانه‌هایی تمرکز دارند که نه بر محتوای معنایی، بلکه بر ساختار متمرکزند. چنانچه وب معنایی تحقق یابد، صفحات وب آینده همانگونه که انسان فهم هستند، ماشین فهم[83] نیز خواهند بود (کمپل[84]، 2004، ص 197)، در این شیوه اطلاعات از طریق نشانه‌های معنادار ارائه می‌شود و ابرداده‌های لازم را «آر.دی.اف» به صفحات وب می‌افزاید. پدیدآورندگان وب فردا، امکان جستجوپذیر کردن سایتهای خود را با مانعیت بیشتری عملی خواهند ساخت و کارگزاران هوشمند[85] آینده، بسیار قدرتمندتر و متکامل‌تر از موتورهای کاوش امروزی عمل خواهند کرد (کمپل، 2004، ص199).

 



1. Unstructured.

2. Yaltaghian.

3. Zhang & Jastram.

4. Gotlieb & Eliopoulos.

5. Asadi & Jamali M.

6. Internet search tools.

7. Search engines.

8. Meta search engines.

9. Directories.

10. Search Utilities.

11. Spink et al.

12. Thelwall & Vaughan.

13. Bar_Ilan.

14. Zhang & Dimitroff.

15. Haltley.

1. Drott.

2. Jansen ;  Spink.; and Saracevic.

3. Fadaie Araghi.

4. Ranking.

5. Title.

6. Keyword.

7. Description.

8. Richardson.

9. Keyword Density analyzer.

10. word tracker.

11. web poisons gold.

12. Search Engine Optimization (SEO).

1. Classified.

2. Trade Secrets.

3. Truner & Brackbill.

4. Safari.

5. Mohamed.

6. Henshaw & Valauskas.

7. Semantic.

8. Content.

9. Syntax.

10. Structure.

11. Hyper- Links.

12. Markup Languages.

13. Quevedo-Torrero.

1. google.

2. Fishkin.

3. Metadata Structure.    

4. Webpage Content.

5. Hyperlink Cited status.

6. Metadata elements.

7. Technical Relevance.

8. <title>  </title> 

9. <meta name="description"  content="   ">

10. <meta name="keywords"  content="   ">

11. <meta name="DC.Title" content="   ">       

12. <meta name="DC.Subject" content="   ">             

13. Salivan

14. Noruzi

1. Lee-Smeltzer.

2. Valqui & Freire.

3. Header.

1. Semantic web.

2. Ontology.

3. Webometrics.  

4. Directory of Open Access Journals , Available at:  www.doaj.org.

5. عنصر اول: عنوان اچ.تی.ام.ال

1. Source code.

1. Static.

2. Microsoft Office Word 2003.

3. June 14, 2006 till Aug 30, 2006.

2. www.google.com

3. www.yahoo.com

4. www.msn.com

5. Jun, 11, 2006 From:  http://www.alexa.com/site/ds/top-500

9. Simple Search Box.

1. Statistical Package for Social Science.

2. Safari.

3. Mann-Whitney U.

1. Font.

1. Yu et al.

2. Chung & Lee.

1. Tim Burners Lee.

2. Machine understandable.

3. Campbell.

4. Intelligent Agents.

-Asadi, S., & Jamali M., H.R. (2004). "Shifts in search engine development: A review of past, present and future trends in research on search engines". Webology, 1(2). Retrieved Feb, 18, 2005, From http://www.webology.ir/2004/v1n2/a6.html
 
-Bar-Ilan, J. (2005). “ Comparing Rankings of Search Results on the Web” . Information Processing & Management , 41. Retrieved Oct, 12, 2005, From Elsevier Database.
 
-Campbell, D.G. (2004). “The Metadata – Bibliographic Organization nexus” In Metadata Applications and Management. London: Facet Publishing, 185-203.
 
-Chung, S.M. & Lee, J.Y. (1998). “Information Discovery on the Internet” . In Encyclopedia of Library and Information Science . vol. 62, (supple. 25) pp.146-157.
 
-Drott, M.C. (2002). "Indexing aids at Corporate websites: the use of robot.txt and meta tags". Information Processing and Management, 38(2), 209-219. Retrieved June 10, 2006, From Elsevier database.
 
-Fadaie, G. (2005). " User Satisfaction through better indexing". Cataloging & Classification Quarterly, 40(2), 5-17.
 
 
-Global Top 500 (2006) Retrieved Jun, 11, 2006, From http://www.alexa.com/site/ds/top_500
 
-Google (2004). "Information for webmasters". Retrieved Oct, 11, 2005, From http://www.google.com/webmasters/4.html
 
-Gotlieb, C. ; Eliopoulos, D. (2003). “ Evaluating Web Search Results Ranking” . Online, 27(2).  Retrieved Oct, 11, 2005, From Ebsco Computer Science Database.
 
-Henshaw, R. & Valauskas, E.J. (2001). "Metadata as a catalyst: experiments with metadata and search engines in the internet journal, First Monday" . Libri, 51(2), 86-101pp. Retrieved Oct, 23, 2005, From www.librijournal.org/pdf/1999-3pp125-131.pdf
-Jansen, B.J. ;  Spink, A.; and Saracevic, T. (2000). " Real life, real users, and real needs: a study and analysis of user queries on the web" . Information Processing & Management, 36(2), 207-227. Retrieve May, 8, 2005, From Elsevier Database.
 
-Lee-Smeltzer, K.H. (2000). “ Finding the needle: Controlled Vocabularies, Resource Discovery, and Dublin core”. Library collections, Acquisitions, & Technical Services, 24 , 205-215. Retrieve May, 8, 2005, From Elsevier Database.
 
-Lewis , E. (2005). Top Ten Search Engines - Top 10 SEs . Retrieved Apr, 22, 2006, From http://www.seoconsultants.com /search-engines/
 
-List of Top Search Engines (2006). Retrieved Apr, 22, 2006, From  http://capmex.biz/resources/top-search-engines
 
-Noruzi, A. (2005). “Editorial” .Webology, 2(4). Retrieved Apr, 20, 2006, From http://www.webology.ir/2005/v2n4/editorial6.html
 
-Quevedo_Torrero, J.U. (2004). “ Improving Web Retrieval by Mining the HTML tags for Keywords and Exploring the Hyperlink Structures of Web Pages” [Abstract] doctoral Dissertation.  University of Houston. Retrieved Oct, 10, 2005, From http://wwwlib.umi.com/dissertations/fullcit/3156028
 
-Safari, M. (2005). "Search Engines and Resource Discovery on the web: Is Dublin Core an Impact Factor?". Webology, 2(2).Retrieved Apr, 20, 2006, From  http://www.webology.ir/2005/ v2n2/a13.html
-Sullivan, D. (2002). “How to Use HTML Meta tags”. Retrieved Apr,20, 2006, From http://searchenginewatch.com/webmasters/atricle .php/2167931
 
-Thelwall, M.; Vaughan, L. (2004)." New Versions of PageRank employing alternative web document models" . ASLIB Proccedings, 56(1), 24-33. Retrieved Feb, 19, 2005, From  www.scit.wlv.ac.uk/~ cm1993/papers/2004_new_pagerank_preprint.pdf
-Turner, T.P.; Brackbill, L. (1998). “Rising to the Top: Evaluating the use of html meta tag to improve retrieval of world wide web documents through internet search engines” . Library Resources and Technical Services, 24(4), 258-271.
 
-Yaltaghian , B. (2002). “Improving the ranking of Search Engine Output: A Network Analysis Approach”. [Abstract] doctoral Dissertation.  University of Toronto.  Retrieved Feb, 21, 2006, From www.cosc.canterbury.ac.nz/open/seminars/old/2002.html
 
-Yu et al (2002). “Patterns in Unstructured Data: Discovery, Aggregation, and Visualization”.  Retrieved Jen, 21, 2005, From http://javelina.cet.middlebury.edu/lsa/out/cover_page.htm
 
-Zhang, Z .; Dimitroff, A. (2005b). “ The Impact of Metadata Implementation on Webpage Visibility in Search Engine Results (Part II)” . Information Processing & Management, 41 (3), 691-715. Retrieved Feb, 18, 2005, From Elsevier Database.
 
-Zhang, Z. ; Dimitroff, A .(2004). “Internet Search engines response to metadata Dublin core implementation” . Journal of Information Science , 30(4), 310-320. Retrieved Oct, 11, 2005, From  Elsevier Database.
 
-Zhang, Z. ; Dimitroff, A. (2005a). “ The Impact of Webpage Content Characteristics on Webpage Visibility in Search Engine Results (Part I)” . Information Processing & Management,  41 (3), 665-690. Retrieved Feb, 18, 2005, From Elsevier Database.
 
-Zhang, Z. ; Jastram, I. (2005). " A Study of the metadata creation behavior of different user groups on the Internet" Information Processing and management. Retrieved Oct, 11, 2005, From Elsevier Database.