نوع مقاله : مقاله پژوهشی
نویسنده
دانشجوی دوره دکترای کتابداری و اطلاعرسانی دانشگاه فردوسی مشهد
چکیده
کلیدواژهها
مقدمه
همزمان با تولد وب، جهان شاهد تغییرات شگرفی در حوزة ذخیره و بازیابی اطلاعات بوده است. هر روز بر تعداد صفحات وب افزوده می گردد و حجم وسیعی از اطلاعات، در بستر آن، به صورت ساختار نیافته [1] (یالتاقیان[2]، 2002) و فارغ از کنترل محتوایی و کتابشناختی منتشر میشود (زانگ و جاستریم [3]، 2004؛ گوتلیب و الیوپولوس[4] ، 2003). در چنین وضعیتی، مسئله اساسی، چگونگی کنترل و مدیریت بدنة ساختارنیافته و رشد سریع این بدنه است (اسدی و جمالی مهمویی،[5] 2004). تاکنون ابزارهای کاوش[6] از قبیل «موتورهای کاوش»[7] «ابرموتورهای کاوش»،[8] «راهنماهای موضوعی» [9] و «نرمافزارهای کاوش»[10] محیط مجازی وب را تا اندازه ای تحت کنترل و مدیریت خویش درآوردهاند.
کاربران از میان ابزارهای رایج کاوش، موتورهای کاوش را به عنوان نقطه آغازین ورود به اینترنت تلقی می کنند (اسپینک و دیگران[11]، 2001 نقل در دوال و واگان [12]، 2004؛ بار- ایلان[13] ، 2005؛ زانگ و دیمیتروف[14]، 2004)، بیش از 95% ترافیک کاوش در اینترنت به موتورهای کاوش مربوط است و 80% کاربران، اطلاعات مورد نیاز خود را از طریق موتورهای کاوش به دست می آورند (هاتلی[15] ، 2002 نقل در زانگ و دیمیتروف،a 2005 (. یافتن اطلاعات موضوعی ویژه در وب دشواریهایی دارد و هر روز بر حجم این دشواریها افزوده میگردد (دروت[16]، 2000، ص209). تعداد نتایج بازیابی شدة موتورهای کاوش، اغلب چنان فراوان است که کاربر عملاً جز مرور چند صفحه نخست نتایج، از سایر صفحات منصرف میشود (جانسن، اسپینک، و ساراسویک،[17] 2000؛ فدایی عراقی[18]، 2005، ص13؛ یالتاقیان، 2002) و به ناچار به رتبهبندی[19] ارائه شدة موتورهای کاوش اعتماد میکند (بارـ ایلان، 2005).در این وضعیت، چنانچه صفحه ای مرتبط، در رتبههای اول جای نگیرد، ممکن است از دید کاوشگر پنهان بماند (زانگ و جاستریم ، 2005، ص92؛ گوتلیب و الیوپولوس، 2003).
از سویی، یکی از اولین دغدغههای ناشران وبسایتها دستیابی به رتبههای برتر در میان وبسایتهای مشابه و هم موضوع است. بدین منظور همواره سیاههای از عناوین،[20] کلیدواژهها[21] و توصیفهایی[22] که احتمال کسب رتبههای برتر را دارند، تهیه و در طراحی صفحات لحاظ میشود (ریچاردسون،[23] 2003 نقل در زانگ و دیمیتروف، a2005). طراحی نرمافزارهایی چون «تحلیلگر چگالی کلیدواژه»،[24] «ورد ترکر»،[25] «وب پزیشن گولد»،[26] و شکلگیری و گسترش وبسایتهایی که خدمات توصیهای و مشاورهای بهینهسازی صفحات[27] را به منظور کسب رتبههای برتر در موتورهای کاوش ارائه می دهند، تأییدی بر حساسیت و توجه به این مسئله است.
نتایج تحقیقات، تفاوتهای قابل ملاحظهای را میان الگوریتمهای رتبهبندی موتورهای کاوش عمومی نشان میدهد (بار ـ ایلان، 2005). اطلاعات مربوط به الگوریتمهای رتبهبندی موتورهای کاوش به صورت طبقه بندی شده[28] و به عنوان اسرار تجاری [29] محافظت میشود. حفظ حالت رقابتی و جلوگیری از سوء استفادة طراحان وبسایتها از این اطلاعات، از جمله دلایل حفاظت هستند (بارـ ایلان، 2005،ص1512). با وجود ابهامهای موجود در زمینه الگوریتم، رتبهبندی موتورهای کاوش، پژوهش پیرامون چگونگی رتبهبندی نتایج متوقف نشده است و تلاشهایی در زمینه کشف عوامل اثرگذار و تعیین میزان اثرگذاری آن عوامل، انجام پذیرفته است (ترنر و برک بیل[30]، 1998؛ زانگ و دیمیتروف، 2004؛ a2005، b2005، صفری[31]، 2005؛ محمد[32]، 2006؛ هنشا و والاسکاس[33] ،2001).
محدودة بررسی
صفحات وب متشکل از سه جزء اند: 1. معنا[34] یا محتوا[35] 2. بستر نحوی[36] یا ساختار[37] و 3. پیوندهای فرامتنی[38]. محتوا در بستر نحوی زبانهای نشانه گذاری[39] که قالب یا ساختار ارائه محتوا را فراهم میآورند، جای میگیرد و ارتباط میان اجزای اطلاعاتی از طریق پیوندهای فرامتنی حاصل میشود. هر یک از این عناصر - محتوا، ساختار و پیوندهای فرامتنی ـ ویژگیهای خاصی دارند که بستر ارزیابی صفحات را فراهم می آورد و به طور بالقوه در بهبود کیفی رتبهبندی حاصل از کاوش اثر گذار است (کوودو-تررو[40]، 2004).
گوگل بیش از هزار عامل را در نظام رتبهبندی نتایج خود مدنظر دارد، اما به دلیل ماهیت تجاری و حفظ یکپارچگی نتایج کاوش، از ذکر جزئیات بیشتر خودداری میکند (گوگل[41]، 2004). توافقی بر سر مؤثرتر بودن یک عامل نسبت به سایر عوامل وجود ندارد (فیشکین[42]، 2005) و هر یک از موتورهای کاوش، الگوریتم رتبهبندی خاصی را دنبال میکنند (هنشا و والاسکاس، 2001، ص92). با وجود این، ساختار ابردادهای،[43] محتوای صفحه[44] و (عوامل داخلی)، و وضعیت ارجاعات فرامتنی[45] وـ (عوامل خارجی) - از جمله عوامل مؤثر بر رتبهبندی ذکر شده است (زانگ و جاستریم، 2005).
در این پژوهش، از میان عوامل مؤثر شناخته شده بر رتبهبندی نتایج کاوش، تمرکز بر عناصر ابردادهای[46] است و از میان عناصر ابردادهای، پنج عنصر به عنوان معیار ربط فنی[47] انتخاب شده و میزان اثرگذاری هر یک (به صورت منحصر به فرد و در صورت تکرار) بر رتبة صفحات بازیابی شده توسط موتورهای کاوش عمومی، بررسی و تجزیه و تحلیل شده است. عناصر ابردادهای مورد بررسی در این پژوهش عبارتند از: نشانه عنوان[48] از زبان «اچ.تی.ام.ال»، ابرنشانههای کلیدواژهها[49] و توصیف[50] از زبان «اچ.تی.ام.ال»، دو ابردادة عنوان[51] و موضوع[52] از قالب ابردادهای دابلین کور.
اگر چه نشانه عنوان زبان «اچ.تی.ام.ال»، عنصر ابردادهای محسوب نمیشود؛ اما به واسطه اهمیت ویژه اش (سالیوان[53]، 2002؛ نوروزی[54]، 2005) در میان سایر نشانههای «اچ.تی.ام.ال»، در کنار چهار عنصر ابردادهای دیگر بررسی شده است.
پنج عنصر منتخب، تنها تعدادی از عناصر ابردادهای موجود در قالب ابردادهای دابلین کور و زبان «اچ.تی.ام.ال» هستند. این عناصر بر بازنمون موضوعی مدرک متمرکزند و در برخی منابع، کاربرد آنها توصیه شده است (زانگ و دیمتروف، 2004 ؛ سالیوان، 2002؛ لی – اسملتزر[55]، 2000، ص206؛ والکی، فریر[56]، 2001، ص272).
پرسشهای اساسی
پژوهش حاضر فاقد فرضیه است و پرسشهای اساسی آن بدین قرار است:
روششناسی
پژوهشهایی که به تعیین میزان اثربخشی عناصر ابردادهای بر رتبهبندی صفحات وب در موتورهای کاوش پرداختهاند، با تفاوتهایی اندک، از روش تجربی بهره برده اند.در این پژوهش نیز با آگاهی از وجود سایر عواملی که بر رتبهبندی صفحات اثرگذارند، جهت اعمال متغیرهای مستقل، کنترل متغیرهای دخیل، و مشاهدة تغییرات در متغیر وابسته، از روش تجربی استفاده کردهایم.
جامعة مورد پژوهش، نشریه ای الکترونیکی با 84 صفحة وب است که پژوهشگر آن را طراحی کرده است. این نشریه با روندی که در ادامه میآید، طراحی شد و سپس در معرض نمایه سازی موتورهای کاوش قرار گرفت.
1. مراحل طراحی صفحات
در مرحله نخست، تعداد چهارده مقاله در موضوعات وب معنایی[58]، هستیشناختی[59]، وبسنجی[60] و ابردادههای دابلین کور از میان مقالات منتشر شده در نشریات رایگان حوزة کتابداری و اطلاعرسانی که در فهرست راهنمای نشریات پیوسته رایگان[61] معرفی شده است، انتخاب گردید.
کلیدواژههای نمایهای این مقالات به شیوة کنترل نشده (زبان طبیعی) و از بستر عنوان، کلیدواژهها (در صورت وجود) چکیده، و در برخی موارد متن مقاله برگزیده شد. پژوهش بر دو دسته کلیدواژه متمرکز است: الف) کلیدواژههای منحصر به فرد و ب) کلیدواژههای تکرارشونده. کلیدواژههای منحصر به فرد آن دسته از کلیدواژههایی هستند که منحصراً به یک عنصر ابردادهای اختصاص یافتهاند؛ با دیگر کلیدواژههای مربوط به سایر عناصر، همپوشانی و شباهت ندارند و پاسخگویی به نخستین پرسش را ممکن میسازند. کلیدواژههای تکرارشونده، کلیدواژههایی هستند که در تمام عناصر ابردادهای به یک شیوه و ترتیب، قبل از کلیدواژههای منحصر به فرد و به منظور سنجش اثربخشی تکرار کلیدواژهها در دو تا پنج عنصر ابردادهای (پرسش دوم) افزوده شدهاند.
به طور نمونه، کلیدواژههای منحصر به فرد و تکرار شوندة مقاله هشتم با عنوان «A Metadata Registry for the Semantic Web» در جدول 1 آمده است.
جدول1. نمونهای از کلیدواژههای منحصر به فرد و تکرار شونده
Keywords |
Element |
|
Repeated |
Unique |
|
Semantic web, Metadata Registry |
--- |
E1[62] |
Semantic web, Metadata Registry |
Metadata schemas, DCMI vocabulary |
E2 |
Semantic web, Metadata Registry |
Automated sharing of metadata, Dublin core metadata Initiative, DCMI Registry |
E3 |
Semantic web, Metadata Registry |
--- |
E4 |
Semantic web, Metadata Registry |
Registry applications |
E5 |
پس از تعیین کلیدواژههای مربوط به هر یک از عناصر مورد بررسی در مرحلة بعد، با توجه به پرسشهای اساسی پژوهش، گروههای گواه و آزمون تعیین گردید. پاسخگویی به پرسشها با وجود شش گروه صفحه امکانپذیر است. گروهبندی صفحات در جدول 2 آمده است. به منظور حفظ هم ترازی در دو گروه گواه و آزمون، تعداد صفحات گروه گواه با تعداد صفحات گروه آزمون، برابر است و محتوای صفحه آزمون در هر مقاله جز در مورد عناصر ابردادهای افزوده شده، مشابه صفحه گروه گواه خود است. بدین ترتیب، چهارده مقالة منتخب در شش شمارة نشریه تکرار شده اند (84= 6*14).
جدول2. گروهبندی صفحات
گروه |
حاوی کلیدواژة منحصر به فرد در |
حاوی تکرار کلیدواژهها در |
اول |
---- |
---- |
دوم |
---- |
نشانة عنوان «اچ.تی.ام.ال» (عنصر 1) |
سوم |
ابرنشانة کلیدواژههای «اچ.تی.ام.ال» (عنصر 2) |
نشانة عنوان و ابرنشانة کلیدواژههای «اچ.تی.ام.ال» (عناصر 1، و 2) |
چهارم |
ابرنشانة توصیف «اچ.تی.ام.ال» (عنصر 3) |
نشانة عنوان، ابرنشانههای کلیدواژهها و توصیف «اچ.تی.ام.ال» (عناصر 1، 2، و3) |
پنجم |
---- |
نشانة عنوان، ابرنشانههای کلیدواژهها و توصیف «اچ.تی.ام.ال»، ابرداده عنوان دابلینکور (عناصر 1، 2، 3، و 4) |
ششم |
ابردادة موضوع قالب ابردادهای دابلین کور (عنصر 5) |
نشانة عنوان، ابرنشانههای کلیدواژهها و توصیف «اچ.تی.ام.ال»، ابردادههای عنوان و موضوع دابلینکور (عناصر 1، 2، 3، 4، و 5) |
سپس کلیدواژههای منتخب در بستر نحوی «اچ.تی.ام.ال» نشانه گذاری و در کدمنبع[63] مقالات گنجانده شد. به طور نمونه، کدگذاری مقالة هشتم چنین است: در این مثال، کلیدواژههای تکرار شونده به صورت توپر نمایش داده شده است. گروه نخست، فاقد کلیدواژه است.
در گروه دوم
<TITLE>A Metadata Registry for the Semantic Web</TITLE>
در گروه سوم
<TITLE>A Metadata Registry for the Semantic Web</TITLE>
<META name="keywords" content="Semantic web, Metadata Registry, Metadata schemas, DCMI vocabulary">
در گروه چهارم
<TITLE>A Metadata Registry for the Semantic Web</TITLE>
<META name="keywords" content="Semantic web, Metadata Registry, Metadata schemas, DCMI vocabulary">
<META name="description" content="Semantic web, Metadata Registry, Automated sharing of metadata, Dublin core metadata Initiative, DCMI Registry">
در گروه پنجم
<TITLE>A Metadata Registry for the Semantic Web</TITLE>
<META name="keywords" content="Semantic web, Metadata Registry, Metadata schemas, DCMI vocabulary">
<META name="description" content="Semantic web, Metadata Registry, Automated sharing of metadata, Dublin core metadata Initiative, DCMI Registry">
<META name="DC.Title" content="A Metadata Registry for the Semantic Web">
در گروه ششم
<TITLE>A Metadata Registry for the Semantic Web</TITLE>
<META name="keywords" content="Semantic web, Metadata Registry, Metadata schemas, DCMI vocabulary">
<META name="description" content="Semantic web, Metadata Registry, Automated sharing of metadata, Dublin core metadata Initiative, DCMI Registry">
<META name="DC.Title" content="A Metadata Registry for the Semantic Web">
<META name="DC.Subject" content="Semantic web, Metadata Registry, Registry applications">
2. انتشار صفحات طراحی شده
بدین ترتیب، 84 صفحه ایستا[64] به کمک واژهپرداز Word از مجموعه مایکروسافت آفیس 2003،[65] طراحی و از24 خرداد تا 8 شهریور1385[66] در دامنه فرعی «ابرداده» از سایت «پژوهشگاه اطلاعات و مدارک علمی ایران»[67] منتشر شد و در معرض نمایه سازی سه موتور کاوش گوگل[68]، یاهو[69]، ام اس ان[70] – سه موتور کاوش پراستفاده به استناد «الکسا»،[71] «سرچ اینجین واچ»،[72] «سرچ اینجین گاید»[73] و سایتهای مشابه[74] ـ قرار گرفت. در دهمین روز انتشار صفحات، موتور کاوش گوگل، تمامی صفحات منتشر شده را نمایهسازی نمود؛ این در حالی است که یاهو روندی کندتر داشت و پس از گذشت بازه زمانی مشخص شده، 76 صفحه مربوط به مقالات نشریه نمایه شد. اما از میان سه موتور کاوش انتخابی، «ام.اس.ان» به دلیل عدم نمایه سازی تعداد قابل قبولی از صفحات در مدت زمان تعیین شده، از مجموعه پژوهش حذف شد و ادامة پژوهش با تمرکز بر صفحات نمایه شده، در دو موتور کاوش یاهو و گوگل انجام پذیرفت.
3. گردآوری دادهها
به منظور تعیین میزان اثربخشی عناصر ابردادهای در این مرحله از پژوهش، کاوش کلیدواژه ای در کادر محاورهای ساده[75] دو موتور کاوش گوگل و یاهو انجام پذیرفت. از آنجا که دو گروه گواه و آزمون، در وب سایت طراحی شده گنجانده شده است و نیازی به تعیین رتبة صفحات در میان سایر صفحات موجود در وب نیست، کاوش کلیدواژه ای در دامنه وب سایت طراحی شده محدود گردید. فرمول کاوش در موتورهای کاوش گوگل و یاهو به ترتیب، چنین است:
Site:http://metadata.irandoc.ac.ir “Keywords”
Site:metadata.irandoc.ac.ir “Keywords”
یا Domain:metadata.irandoc.ac.ir “Keywords”
برای تعیین میزان اثربخشی هر یک از عناصر ابردادهای (پرسش نخست پژوهش) دو مجرای آزمون وجود دارد:
رتبه حاصل از هر یک از کاوشهای انجام شده در موتورهای کاوش، به تفکیک موتور کاوش و گروه گواه و آزمون با توجه به سؤالهای پژوهش در نرمافزار آماری SPSS[76] وارد شد و مورد تجزیه و تحلیل قرار گرفت.
با توجه به این که نتایج حاصل از کاوش در موتورهای کاوش از نوع دادههای رتبهای است (ترنر و برک بیل، 1998؛صفری[77]، 2005)، میزان معنادار بودن تفاوت دو گروه گواه و آزمون (دو گروه مستقل) در بازیابی صفحات وب، با استفاده از آزمون غیرپارامتری یومن وایتنی[78] تعیین شد.
در مجموع، تحت شرایط زمانی و مکانی یکسان، 363 کاوش در موتور کاوش گوگل و 259 کاوش در موتور کاوش یاهو انجام شد و رتبههای کسب شده در دو گروه صفحات آزمون و گواه ثبت گردید. تجزیه و تحلیل آماری نیز بر مبنای دادههای جمعآوری شده، با نرمافزار آماری «اس.پی.اس.اس.» انجام پذیرفت.
تجزیه و تحلیل یافتهها
1. پاسخگویی به نخستین پرسش پژوهش:میزان اثربخشی هر یک از عناصر ابردادهای بر رتبهبندی به وسیله دو موتور کاوش یاهو و گوگل.
برای درک بهتر و امکان مقایسه و تحلیل نتایج، جدول3 که نمایی کلی از مقدار پی محاسبه شده توسط نرمافزار آماری «اس.پی.اس.اس» در آزمون «یو من وایتنی» است، ارائه میشود. وجود تفاوت معنادار در هر عنصر، با قلم[79] درشت تر و توپر نشان داده شده است. تفاوت میان میانگین رتبههای کسب شده در هر گروه نشانگر آن است که رتبه به نفع کدام گروه تغییر وضعیت داده است؛ لذا در هر مورد از عناصر، به تفکیک موتور کاوش، گروه صفحاتی که بهبود رتبه داشته (آزمون یا گواه) با اصطلاح «به نفع» مشخص شده است.
جدول3. نتایج آزمون «یو من وایتنی» در پاسخ به پرسش نخست
یاهو |
گوگل |
نوع کلیدواژه |
عنصر مورد آزمون |
||
به نفع |
Asymp. Sig. (2-tailed) |
به نفع |
Asymp. Sig. (2-tailed) |
||
-- |
-- |
-- |
-- |
کلیدواژة منحصر به فرد |
عنوان اچ.تی.ام.ال |
آزمون |
.001 |
آزمون |
.000 |
کلیدواژة تکرار شونده |
|
آزمون |
.017 |
آزمون |
.462 |
کلیدواژة منحصر به فرد |
کلیدواژههای اچ.تی.ام.ال |
آزمون |
.172 |
آزمون |
.472 |
کلیدواژة تکرار شونده |
|
آزمون |
.000 |
آزمون |
.015 |
کلیدواژة منحصر به فرد |
توصیف اچ.تی.ام.ال |
آزمون |
.000 |
گواه |
.016 |
کلیدواژة تکرار شونده |
|
-- |
-- |
-- |
-- |
کلیدواژة منحصر به فرد |
عنوان دابلین کور |
آزمون |
.807 |
آزمون |
.826 |
کلیدواژة تکرار شونده |
|
آزمون |
.023 |
آزمون |
.110 |
کلیدواژة منحصر به فرد |
موضوع دابلین کور |
گواه |
.050 |
گواه |
.038 |
کلیدواژة تکرار شونده |
یافتههای حاصل از بررسی اثربخشی دو ابرنشانة کلیدواژهها و توصیف در این پژوهش، با یافتههای «ترنر» و «برک بیل» (1998) مبنی بر اثربخشی ابرنشانة کلیدواژهها در مقایسه با ابرنشانة توصیف، تفاوت دارد. یافتهها در پژوهش حاضر نشان داد که ابرنشانه توصیف در مقایسه با ابرنشانه کلیدواژهها اثر بیشتری در بهبود رتبة صفحات دارد.
یافتههای «صفری» (2005) مبنی بر عدم تأثیر عنصر عنوان دابلین کور بر رتبة صفحات، در این پژوهش نیز تأیید میشود. یافتههای این پژوهش در راستای نتایج زانگ و دیمیتروف (2004) تأثیر عنصر موضوع دابلین کور را در بهبود رتبة صفحات نشان میدهد. این یافته با یافتههای صفری مبنی بر عدم اثربخشی عنصر موضوع دابلین کور، متفاوت است.
2. پاسخگویی به پرسش دوم: میزان اثربخشی دو تا پنج بار تکرار کلیدواژه در بخش سرآیند صفحات وب بر رتبهبندی صفحات وب در دو موتور کاوش یاهو و گوگل
جدول شماره4، نمایی کلی از مقدار پی محاسبه شده توسط نرمافزار آماری «اس.پی.اس.اس» در آزمون «یومنوایتنی» ارائه میکند. در پاسخ به پرسش دوم پژوهش، تأثیر حضور کلیدواژههای تکرار شونده در دو تا پنج عنصر تحت بررسی، تجزیه و تحلیل شد.
جدول4. نتایج آزمون «یو من وایتنی» در پاسخ به پرسش دوم
تعداد تکرار مورد بررسی |
گوگل |
یاهو |
||
Asymp.Sig.(2-tailed) |
به نفع |
Asymp.Sig.(2-tailed) |
به نفع |
|
2 بار تکرار |
580/0 |
آزمون |
172/0 |
آزمون |
3 بار تکرار |
008/. |
گواه |
016/. |
آزمون |
4 بار تکرار |
062/. |
گواه |
019/. |
آزمون |
5 بار تکرار |
000/. |
گواه |
175/0 |
آزمون |
عملکرد دو موتور کاوش گوگل و یاهو در مقابل عناصر ابردادهای در این پژوهش بررسی شد. به طور خلاصه، عملکرد دو موتور کاوش مورد بررسی، چنین است:
نتیجهگیری
با وجود تمامی پیشرفتهای حاصل شده در فناوری موتورهای کاوش، هنوز روش اصلی نمایه سازی در موتورهای کاوش، محتوا محور است و بر مبنای کلیدواژهها انجام میپذیرد (یو و دیگران[80]، 2002) .نمایه سازی تمام متن، کاوش کلیدواژه ای بدون توجه به بافت متن و کاستیهای موجود در رتبهبندیها، به جامعیت بالا و مانعیت پایین منجر میشود (لی ـ اسملتزر، 2000، ص206) . تحقیقات فراوانی در زمینة مشکلات نمایهسازی خودکار در موتورهای کاوش انجام گرفته است (چانگ و لی[81]، 1998، ص149). آنچه پژوهشگران در باب آن به اتفاق نظر رسیدهاند آن است که نمایهسازی غیرمتمرکز و توزیع شده، به گونهای که در موتورهای کاوش کنونی در جریان است، معماری قابل تأییدی در بازیابی اطلاعات وب نیست ( لی ـ اسملتزر، 2000، ص206) .
چنانچه محتوای صفحه به درستی در فیلدهای ابردادهای بازنموده شود و موتورهای کاوش از این فیلدهای ابردادهای در رتبهبندی و بازیابی نتایج بهره ببرند، مانعیت افزایش و نتایج بازیابی به سطحی قابل مدیریت کاهش می یابد. به علاوه، رتبهبندی صفحات صحت بیشتری خواهد داشت (زانگ و جاستریم، 2005، ص1) و آن بخش از ویژگیها که شناسایی آنها به درک انسانی نیاز دارد، در فرایند نمایهسازی منظور خواهد شد؛ اما همچنان پاسخ به این سؤال که آیا جامعة بهرهگیر، به اهمیت وجود ابرداده پی برده است یا خیر، آن را تأیید میکند و یا اینکه به درستی از آن بهره میبرد یا نه، یک معماست ( زانگ و جاستریم ، 2005، ص22).
از نظر «تیم برنرزلی»[82] و سایر پیشگامان وب معنایی، وب کنونی، اطلاعاتی انسان فهم دارد. صفحات وب به زبان اچ.تی.ام.ال نگاشته میشود و مرورگرها بر نشانههایی تمرکز دارند که نه بر محتوای معنایی، بلکه بر ساختار متمرکزند. چنانچه وب معنایی تحقق یابد، صفحات وب آینده همانگونه که انسان فهم هستند، ماشین فهم[83] نیز خواهند بود (کمپل[84]، 2004، ص 197)، در این شیوه اطلاعات از طریق نشانههای معنادار ارائه میشود و ابردادههای لازم را «آر.دی.اف» به صفحات وب میافزاید. پدیدآورندگان وب فردا، امکان جستجوپذیر کردن سایتهای خود را با مانعیت بیشتری عملی خواهند ساخت و کارگزاران هوشمند[85] آینده، بسیار قدرتمندتر و متکاملتر از موتورهای کاوش امروزی عمل خواهند کرد (کمپل، 2004، ص199).
4. Directory of Open Access Journals , Available at: www.doaj.org.
5. Jun, 11, 2006 From: http://www.alexa.com/site/ds/top-500