بررسی تطبیقی کیفیت نمایه‌سازی و رتبه بندی اشیای محتوایی حاوی عناصر فراداده‌ای هستة دوبلین و مارک 21 توسط موتورهای کاوش عمومی

نوع مقاله: مقاله پژوهشی

نویسندگان

1 دانشجوی ترم آخر کارشناسی ارشد کتابداری و اطلاع‌رسانی دانشگاه آزاد اسلامی، واحد علوم و تحقیقات تهران

2 عضو هیئت علمی دانشگاه آزاد اسلامی، واحد علوم و تحقیقات تهران

3 استاد گروه کتابداری و اطلاع‌رسانی دانشگاه فردوسی مشهد

چکیده

پژوهش حاضر با هدف تبیین کیفیت نمایه سازی و رتبه بندی اشیای محتوایی حاوی عناصر فراداده‌ای هسته دوبلین و مارک 21 مبتنی بر زبان نشانه گذاری گسترش پذیر (XML) توسط موتورهای کاوش عمومی، و مقایسه آنها با یکدیگر به روش تجربی انجام شد. جامعه پژوهش را صد شیء محتوایی مبتنی بر XML در قالب دو گروه تشکیل می‌داد؛ گروه اول حاوی پیشینه‌های فراداده‌ای هسته دوبلین، و گروه دوم حاوی پیشینه‌های فراداده‌ای مارک 21 که بر روی دو حوزه فرعی http://www.dcmixml.islamicdoc.com و http://www.marcxml.islamicdoc.com انتشار یافته بود. حوزه‌های فرعی مورد مطالعه به دو موتور کاوش گوگل و یاهو معرفی شدند. کیفیت نمایه‌سازی پیشینه‌های فراداده‌ای درج شده در اشیای محتوایی و تفاوت نمایه‌سازی و رتبه‌بندی آنها بررسی گردید. تمامی عناصر پیشینه‌های فراداده‌ای مورد مطالعه توسط موتورهای کاوش گوگل و یاهو نمایه‌سازی شدند. بر اساس نتایج آزمون غیر پارامتری یومان ـ ویتنی، تفاوتی میان کیفیت نمایه سازی پیشینه‌های فراداده‌ای هسته دوبلین و مارک 21 مبتنی بر XML توسط موتورهای کاوش گوگل و یاهو مشاهده نگردید. میزان معناداری تفاوت رتبه‌بندی اشیای محتوایی حاوی عناصر فراداده‌ای هسته دوبلین و مارک 21 در دو موتور کاوش گوگل و یاهو نیز با استفاده از آزمون «یومان ـ ویتنی» محاسبه گردید. بین رتبه‌بندی اشیای محتوایی حاوی دو طرح فراداده‌ای در موتور کاوش گوگل تفاوت معناداری مشاهده نشد، اما وضعیت رتبه‌بندی اشیای محتوایی حاوی دو طرح فراداده‌ای در موتور کاوش یاهو، تفاوت معناداری داشت. یافته‌های پژوهش نشان داد هیچ یک از دو طرح فراداده‌ای هستة دوبلین و مارک 21 مبتنی بر XML، از لحاظ دسترس‌پذیری توسط موتورهای کاوش عمومی، نسبت به یکدیگر برتری ندارند.
 

کلیدواژه‌ها


مقدمه

با گسترش وب، به عنوان مهمترین فناوری و رسانه شبکه اینترنت، که از قابلیتهای منحصر به فردی بهره‌مند بود، بسیاری از سازمانها، ناشران، مراکز اطلاع‌رسانی و پدیدآورندگان به انتشار و ارائه اطلاعات و خدمات خود بر روی این رسانه تمایل پیدا کردند. این تمایل که با رشد تصاعدی همراه بود، به یکباره حجم وسیعی از اطلاعات را بر روی شبکة وب دسترس پذیر نمود. همانند سایر محیطهای اطلاعاتی، طراحی و ایجاد ابزارها، فنون، و استانداردهایی به منظور تسریع و تسهیل دسترسی به این حجم گسترده اشیای محتوایی، ضرورت داشت. در همین راستا، دو جنبش نرم افزاری در سطح بین‌المللی به وجود آمد. در جنبش نخست، برخی اشخاص و سازمانهای انتفاعی و غیرانتفاعی به تولید ابزارهای کاوش مبادرت ورزیدند. محصول این تلاشها، موتورهای کاوش وب بود. از «واندکس»[1]، Aliweb، و «جامپ استیشن»[2] گرفته تا نسل اول، موتورهای کاوش پیمایش‌گر - پایه[3] و تمام متن مانند وب کرالر[4]، و موتورهای کاوش امروزی همچون گوگل و یاهو ـ با نرم‌افزارها و الگوریتم­ها بسیار پیشرفته برای نمایه سازی و رتبه‌بندی همگی بر مبنای جنبش نخست به وجود آمدند. تقریباً به موازات این جنبش، جنبش دوم با دستاوردی به نام فراداده[5] شکل گرفت. اساس این جنبش، همان نظامهای سازماندهی دانش بود که همواره در طول تاریخ همگام با تحولات حوزه فناوریهای اطلاعاتی گسترش یافته‌اند. این جنبش دو رویکرد را شامل می­شد: سازگاری نظامهای سنتی با محیط و رسانه‌های جدید و ایجاد نظامهایی نوین برای حداکثر بهره­وری از امکانات و قابلیتهای محیط جدید (طاهری، 1387).

موتورهای کاوش، با وجود نقاط ضعف و کاستیهایی که نسبت به نظامهای فراداده‌ای در دسترس پذیر نمودن اشیای محتوایی وب دارند، به دلیل سادگی استفاده، غنای پایگاه­های داده­ای و عواملی دیگر، 88% از زمانی را که کاربران وب صرف جستجوی اطلاعات می­کنند، به خود اختصاص داده­اند (بیفت[6] و کاستیلو[7]، 2005). گرایش قابل ملاحظة کاربران به استفاده از موتورهای کاوش از یک سو، و قابلیتها و توانایی­های بالقوه نظامهای فراداده­ای از سوی دیگر، ضرورت میان کنش پذیری دستاوردهای دو جنبش یاد شده را بدیهی ساخت. بدین منظور، خط مشی­هایی در موتورهای کاوش به منظور نمایه سازی برچسب­ها و عناصر فراداده­ای تدوین، و تمهیداتی (از جمله تغییر بستر نحوی پیشینه­ها) در نظامهای فراداده­ای برای افزایش بازیافت پذیری[8] آنها به وسیلة موتورهای کاوش[9] در نظر گرفته شد.

پژوهشهایی چند در ایران (صفری، 2005؛ رجبعلی بگلو، 1386؛ و شریف، 1386) و خارج از ایران (ترنر[10] و بریکبیل[11] ،1998؛ سوکویتن[12] 2000؛ هنشاو[13] و والوسکاس[14] 2001؛ ژانگ[15] و دیگران 2004؛ کوئودو- توررو[16] 2004؛ ژانگ و دیمیتروف[17] ، a 2005؛ ژانگ و دیمیتروف، b 2005) با هدف بررسی این میان کنش پذیری انجام گرفته است. عناصر فراداده­ای مورد مطالعه در این پژوهشها، فرا برچسبهای «زبان نشانه‌گذاری فرامتن (HTML)» (کلیدواژه، و توصیف) و برخی از عناصر طرح فراداده­ای هسته دوبلین، و بستر نحوی تمامی آنها HTML بوده است.

در این پژوهش، با رویکردی مقایسه­ای، واکنش موتورهای کاوش به بر چسب «فراداده»[18] حاوی تمامی عناصر هسته دوبلین و مارک 21 مربوط به اشیای محتوایی[19] جامعه پژوهش در بستر نحوی «زبان نشانه‌گذاری گسترش‌پذیر» (XML)، مورد مطالعه و بررسی قرار گرفت.

 

پرسشها و فرضیه‌های پژوهش

به طور کلی، این پژوهش دارای پنج پرسش و چهار فرضیه بود:

الف) پرسشها

1. کیفیت نمایه سازی اشیای محتوایی حاوی عناصر فراداده­ای هستة دوبلین مبتنی بر XML توسط موتورهای کاوش عمومی (گوگل و یاهو) چگونه است؟

2. کیفیت نمایه سازی اشیای محتوایی حاوی عناصر فراداده­ای مارک 21 مبتنی بر XML توسط موتورهای کاوش عمومی (گوگل و یاهو) چگونه است؟

3. واکنش موتورهای کاوش عمومی (گوگل و یاهو) نسبت به اشیای محتوایی مبتنی بر XML حاوی عناصر فراداده­ای با ساختار مسطح و سلسله مراتبی چگونه است؟ (با توجه به اینکه پیشینه­های فراداده­ای مارک دارای ساختار سلسله مراتبی و پیشینه­های فراداده­ای هسته دوبلین دارای ساختار مسطح هستند).

4. واکنش موتورهای کاوش عمومی (گوگل و یاهو) نسبت به طرحهای فراداده­ای با برچسبهای عناصر زبان- پایه (هسته دوبلین) و بدون برچسبهای عناصر زبان- پایه چگونه است؟

5. کدام یک از طرحهای فراداده­ای هستة دوبلین و قالب مارک 21 برای سازماندهی اشیای محتوایی شبکه جهانی وب مبتنی بر XML از لحاظ دسترس پذیری (کیفیت نمایه سازی و رتبه بندی) توسط موتورهای کاوش عمومی(گوگل و یاهو) مناسب­تر است؟

ب) فرضیه­ها

1. میان کیفیت نمایه سازی سه عنصر اصلی (عنوان، پدیدآورنده، و موضوع) اشیای محتوایی حاوی عناصر فراداده­ای هسته دوبلین و مارک 21 مبتنی بر XML توسط موتور کاوش گوگل، تفاوت معناداری وجود دارد.

2. میان کیفیت نمایه سازی سه عنصر اصلی (عنوان، پدیدآورنده، و موضوع) اشیای محتوایی حاوی عناصر فراداده­ای هسته دوبلین و مارک 21 مبتنی بر XML توسط موتور کاوش یاهو تفاوت معناداری وجود دارد.

3. میان رتبه‌بندی اشیای محتوایی حاوی عناصر فراداده­ای هسته دوبلین و مارک 21 مبتنی بر XML توسط موتور کاوش گوگل تفاوت معناداری وجود دارد.

4. میان رتبه‌بندی اشیای محتوایی حاوی عناصر فراداده­ای هسته دوبلین و مارک 21 مبتنی بر XML توسط موتور کاوش یاهو تفاوت معناداری وجود دارد.

 

روش‌شناسی

پژوهش حاضر از نظر نوع کاربردی[20] است، زیرا بر حلّ مسئله سازماندهی اشیای محتوایی وب و دسترس‌پذیری آنها از طریق ابزارهای کاوش عمومی وب در شرایط واقعی و عملی تأکید دارد و از لحاظ روش پژوهش، یک پژوهش مبتنی بر فناوری[21] و تجربی[22] محسوب می­گردد. مراحل پژوهش شامل موارد زیر است:

1. طراحی و انتشار حوزه­های فرعی (subdomains) مورد مطالعه

جامعه پژوهش عبارت بود از100 شیء محتوایی (کتاب الکترونیکی) در قالب دو گروه 50 پیشینه­ای[23] در بستر «زبان نشانه‌گذاری گسترش پذیری (XML)». هر پیشینه از گروه اول حاوی[24] یک پیشینة فراداده­ای هستة دوبلین (مبتنی بر XML) است که به عنوان برچسب فراداده[25] پس از عنصر ریشه[26] جاسازی[27] (درج) شده­ است و بر روی یک حوزة فرعی با آدرس:  http://www.dcmixml.islamicdoc.com  بر روی وب سایت مرکز اطلاعات و مدارک اسلامی انتشار یافته است. هر یک از اشیای محتوایی گروه دوم حاوی پیشینه­های فراداده­ای قالب مارک 21 (مبتنی بر XML) است که همانند پیشینه­های فراداده­ای گروه اول عمل شده، و بر روی حوزة فرعی دیگری با آدرس: http://www.marcxml.islamicdoc.com  بر روی همان وب سایت منتشر شده است[28].

اشیای محتوایی یاد شده از وب سایت http://www.archive.org  و از مجموعه منابع کتابخانه دیجیتالی کالیفرنیا[29] و از یک ردة موضوعی (Knowledge, theory of)[30] انتخاب گردید. روش گزینش به این صورت بود که با استفاده از امکان مرور موضوعی[31] در مجموعه منابع کتابخانه دیجیتالی کالیفرنیا، یکی از موضوعاتی که بیش از 50 شیء محتوایی را دارا بود، انتخاب و از طریق امکان «پروتکل انتقال بایگانی (FTP)[32]» که برای هر شیء محتوایی فراهم شده، منتقل[33] گردید. در مجموعه کتابخانه دیجیتالی کالیفرنیا، همراه هر شیء محتوایی ـ در همان امکان FTP، پیشینه­های فراداده­ای هستة دوبلین و مارک 21 (مبتنی بر XML) ـ که برای بازیابی اشیای محتوایی مرتبط ایجاد شده­اند ـ به صورت مجزا از آن شیء محتوایی وجود دارند. بنابراین، این پیشینه­ها نیز انتقال یافته و اعتبار آنها مورد سنجش قرار گرفت.[34] پس از انتقال اشیای مذکور، فرایند جاسازی پیشینه‌های فراداده­ای در اشیای محتوایی مورد مطالعه بر اساس استانداردها و راهنماهای مرتبط انجام و پس از آماده‌سازی بر روی حوزه­های فرعی یاد شده منتشر شد.

 

 
   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

نمونه­ای از یک شیء فراداده­ای حاوی عناصر فراداده­ای هسته دوبلین در قالب XML

 

 
   

 

 

 

 

 

 

 

 

 

 

 

 

 

نمونه­ای از یک شیء محتوایی حاوی عناصر فراداده­ای مارک 21 در قالب XML

 

از آنجا که هدف پژوهش، بررسی کیفیت نمایه‌سازی و رتبه‌بندی اشیای محتوایی حاوی پیشینه­های فراداده­ای به وسیلة موتورهای کاوش عمومی بود، بدیهی است ­باید بهترین موتورهای کاوش عمومی که بتوانند هدفهای این پژوهش را محقق سازند، انتخاب می­گردید. بسیاری از منابع معتبر اذعان دارند و نیز بر اساس مشاهدات، تجارب مدیران وب‌سایتها، تعداد کاربران، بررسی ساختار و ویژگیها، و سایر شواهد و دلایل، موتورهای کاوش گوگل[35] و یاهو[36] در بین موتورهای کاوش عمومی دارای بالاترین کیفیت و بالاترین بسامد استفاده هستند (شریف، 1386؛ ویکی پدیا،k2008؛  الکسا[37]، 2008؛ لوییس[38]، 2008؛ کمپکس[39]، 2008).

2. انتخاب و معرفی حوزه­های فرعی به موتورهای کاوش

 گام بعدی بر اساس مطالعات و بررسی­های انجام شده، معرفی حوزه­های فرعی جامعه پژوهش به موتورهای گوگل و یاهو، با استفاده از پیشرفته­ترین روشهای توصیه شده از سوی آنها بود. بدین منظور، حوزه­های فرعی مورد مطالعه به وسیلة امکان Webmaster Tools[40] و XML Sitemap[41] به موتور کاوش گوگل؛ و با بهره مندی از امکان Suggest a site[42]، Yahoo! Search URL Status Review Form[43]، و ROR  & Text Sitemap[44] به موتور کاوش یاهو[45] در شرایط کاملا یکسان معرفی شدند. شایان ذکر است، اعتبار همة حوزه­های فرعی جامعه پژوهش - با تعبیه کدهای مرتبط و ارائه شده از سوی گوگل و یاهو- مورد تأیید موتورهای مورد مطالعه قرار گرفت.[46]

 

3. گردآوری داده­ها

روش گردآوری داده­ها در این پژوهش از طریق مشاهده طراحی شده[47] انجام گرفته است ـ تماشای دقیق به شیوه­ای علمی و نظام­مند با استفاده از راهبردهای از پیش تعیین شده[48] که اغلب در مطالعه­های کمّی برای توصیفهای نظام‌مند یا آزمون فرضیه­های علمی، به کار می­رود (پاول، 1379، ص. 178). ابزار گردآوری داده­ها، سیاهة وارسی (چک لیست) بود که با استفاده از نرم افزار آماری SPSS ـ به عنوان ابزار ثبت مکانیکی، بر اساس سؤالهای پژوهش توسط پژوهشگر طراحی شده است. سپس داده‌های گردآوری شده در قالب جدولها و نمودارها که آنها نیز با نرم افزار SPSS تهیه گردید، ارائه شد. ابزار دیگری که برای مشاهده و ثبت داده­ها استفاده شده، تهیة تصاویری نمونه در فاصله‌های زمانی نامنظم با استفاده از امکان Screen shot و ذخیره آنها از طریق نرم‌افزار Paint بوده است. بدیهی است، این نوع ابزارها توان ثبت نظام­مند داده­ها و مقوله‌بندی آنها را ندارند و این کار باید توسط پژوهشگر انجام گیرد (پاول، 1379، ص. 178).

به منظور گردآوری داده­های مربوط به سؤالهای اول، دوم، سوم، و چهارم، و فرضیه­های اول و دوم پژوهش از راهبردهای جستجوی:

"keyphrase" site:dcmixml.islamicdoc.com

"keyphrase" site:marcxml.islamicdoc.com

 

که در کادر جستجوی پایه[49] موتورهای گوگل و یاهو وارد شدند، استفاده شد. و برای فرضیه­های سوم و چهارم این راهبردها طراحی گردید:

"keyphrase" site:dcmixml.islamicdoc.com OR site:marcxml.islamicdoc.com

 

"keyphrase" site:marcxml.islamicdoc.com OR site:dcmixml.islamicdoc.com

چنان‌که پیشتر اشاره شد، هدف از طرح فرضیه­های سوم و چهارم، بررسی رتبة هر یک از اشیای محتوایی گروه اول و دوم نسبت به یکدیگر بود. بنابراین، بررسی رتبة آنها نسبت به سایر پیشینه­های نتایج جستجو در موتورهای کاوش، مد نظر نبود. عملیات کاوش با استفاده از راهبردهای جستجوی یاد شده، تنها دو پیشینه را به عنوان نتیجه ارائه می­داد؛ یک پیشینه مربوط به گروه اول و یک پیشینه مربوط به گروه دوم که رتبه آنها نسبت به یکدیگر سنجیده می­شد.

به طور کلی، در مرحلة گردآوری داده­ها، بیش از دو هزار عملیات جستجو با استفاده از راهبردهای جستجوی مرتبط در بازة زمانی اول تا سی و یکم اردیبهشت ماه  1387 صورت گرفت.

 

تجزیه و تحلیل یافته­ها

  1. نتایج آزمون یومان ـ ویتنی[50] مربوط به فرضیه اول.

F

 

1250.000

2575.000

       .000

     1.000

Mann-Whitney U

Wilcoxon W

Z

Asymp. Sig. (2-tailed)

                 a Grouping Variable: Metadata

 

چنان که نتیجه آزمون نشان می­دهد، میان کیفیت نمایه سازی سه عنصر اصلی (پدیدآورنده، عنوان، و موضوع) اشیای محتوایی حاوی پیشینه­های فراداده­ای هسته دوبلین و مارک 21 توسط موتور کاوش گوگل، تفاوت معناداری وجود ندارد.

  1. نتایج آزمون یومان ـ ویتنی مربوط به فرضیه دوم.

F

 

11250.000

22575.000

         .000

       1.000

Mann-Whitney U

Wilcoxon W

Z

Asymp. Sig. (2-tailed)

                 a Grouping Variable: Metadata

میان کیفیت نمایه سازی سه عنصر اصلی اشیای محتوایی حاوی پیشینه­های فراداده‌ای هسته دوبلین و مارک 21 توسط موتور کاوش یاهو نیز تفاوت معناداری مشاهده نشد.

  1. نتایج آزمون یومان- ویتنی مربوط به فرضیة سوم.

F

 

1250.000

2525.000

       .000

     1.000

Mann-Whitney U

Wilcoxon W

Z

Asymp. Sig. (2-tailed)

                 a. Grouping Variable: Metadata

                 b. SE = Google

 

در موتور کاوش گوگل، 25 پیشینه­ فراداده­ای هستة دوبلین و 25 پیشینه فراداده­ای مارک 21 درج شده در اشیای محتوایی، نسبت به یکدیگر بالاتر قرار گرفتند. بنابراین، تفاوت معناداری میان رتبه‌بندی اشیای محتوایی عناصر فراداده­ای مربوط به هستة دوبلین و مارک 21 در گوگل وجود ندارد.

  1. نتایج آزمون یومان- ویتنی مربوط به فرضیه چهارم.

F

 

1250.000

2525.000

       .000

     1.000

Mann-Whitney U

Wilcoxon W

Z

Asymp. Sig. (2-tailed)

                 a. Grouping Variable: Metadata

                 b. SE = Google

 

اما رتبه اشیای محتوایی در موتور کاوش یاهو متفاوت بود. 40 شیء محتوایی حاوی عناصر فراداده­ای هستة دوبلین و 10 شیء محتوایی حاوی عناصر فراداده­ای مارک 21 در این موتور کاوش نسبت به یکدیگر رتبه بالاتری کسب نمودند.

پاسخ مربوط به پرسشهای اول و دوم. کیفیت نمایه‌سازی اشیای محتوای حاوی عناصر فراداده­ای هسته دوبلین و مارک 21 توسط موتورهای کاوش گوگل و یاهو

جدول1. وضعیت نمایه‌سازی عناصر فراداده­ای مارک 21

و هسته دوبلین توسط موتور کاوش گوگل

طرح فراداده­ای (در گوگل)

وب سایت

تعداد عناصر مورد مطالعه

تعداد پیشینه­ها

درصد نمایه‌سازی

مارک

marcxml.islamicdoc.com

10

50

100%

هسته دوبلین

dcmixml.islamicdoc.com

9

50

100%

 

موتور کاوش گوگل محتوای تمامی 10 عنصر قالب مارک و 9 عنصر طرح هسته دوبلین را به طور کامل (صد در صد) نمایه سازی کرده است.

جدول 2. وضعیت نمایه سازی عناصر فراداده­ای مارک 21

و هسته دوبلین توسط موتور کاوش گوگل

طرح فراداده­ای (یاهو)

وب سایت

تعداد عناصر مورد مطالعه

تعداد پیشینه­ها

درصد نمایه‌سازی

مارک

marcxml.islamicdoc.com

10

50

100%

هسته دوبلین

dcmixml.islamicdoc.com

9

50

100%

 

کیفیت نمایه‌سازی عناصر مربوط به طرحهای فراداده­ای هسته دوبلین و مارک     21 توسط موتور کاوش یاهو 100% است.

بر اساس یافته­های مربوط به پرسشهای اول و دوم، می­توان به پرسشهای سوم و چهارم نیز پاسخ داد. برای موتورهای کاوش گوگل و یاهو، بین اشیای محتوایی با ساختار مسطح و سلسله مراتبی تفاوتی وجود ندارد. موتورهای یاد شده، الگوریتمی برای نمایه‌سازی پیشینه­های فراداده­ای با برچسب­های عناصر زبان-پایه و بدون آن نیز ندارد.

پاسخ پرسش پنجم در نتایج چهار فرضیه و چهار پرسش پیشین نهفته است. یافته­ها حاکی از آن است که هیچ یک از دو طرح فراداده­ای هستة دوبلین و مارک از لحاظ دسترس پذیری توسط موتورهای کاوش عمومی، بر دیگری برتری ندارند، و هر دو طرح برای سازماندهی اشیای محتوایی وب مناسب می­باشند.

به طور اجمالی، مطالعه بر روی میان کنش‌پذیری اشیای محتوایی حاوی عناصر هسته دوبلین و مارک 21 مبتنی بر XML با موتورهای  کاوش گوگل و یاهو بیانگر آن است که:

-   تمامی عناصر فراداده ای دو طرح هستة دوبلین و مارک 21 توسط موتورهای کاوش نمایه سازی شده اند. بنابراین، اشیای محتوایی حاوی این عناصر، از طریق جستجوی کلیدواژه‌ای و عبارتهای کلیدی، به آسانی قابل بازیابی هستند.

-  موتورهای کاوش الگوریتمی برای انتخاب عناصری خاص نداشته­اند. به عبارت دیگر، تمامی عناصر فراداده­ای برای نرم افزارهای نمایه سازی موتورهای کاوش گوگل و یاهو، ارزش نمایه شدن داشته­اند.

 به طور ضمنی، این یافته می­تواند نویدی برای فراهم کنندگان اطلاعات دسترس پذیر از طریق شبکه جهانی وب باشد، زیرا پیاده‌سازی پیشینه‌های فراداده‌ای در بستر «زبان نشانه گذاری فرامتن (HTML)» چنین قابلیتی را دارا نبود.

- بستر XML برای طرح های فراداده‌ای، رهایی از محدودیتهای بستر HTML در میان کنش پذیری موتورهای کاوش - به عنوان مهمترین ابزار جستجو در اینترنت- با پیشینه های فراداده­ای ـ به عنوان ابزاری برای توصیف، شناسایی، و کشف اشیای محتوایی ـ است.

- پژوهشهای پیشین تنها بخشی از عناصر (4 یا 5 عنصر اصلی) را که تقریباً با فرا برچسبهای HTML مطابقت داشته، انتخاب نموده­اند. اما پژوهش حاضر تمامی عناصر موجود در پیشینه­های فراداده­ای مربوط به اشیای محتوایی جامعه پژوهش را مورد بررسی قرار داد، و بازیافت پذیری همه عناصر را تأیید نمود.

- قالب مارک پیش از ایجاد قالب مبتنی بر XML خود (MARCXML)، قالب پایگاه اطلاعاتی ـ پایه[51] بود، و امکان پیاده سازی آن در صفحات وب وجود نداشت. مارک در قالب «زبان نشانه گذاری گسترش‌پذیر» (HTML)، به دلیل محدودیتهای این زبان (محدودیت برچسبهای آن) پیاده‌سازی نشد. بنابراین، نمی­توانست در صفحات وب جاسازی شود و در نتیجه مانع حضور فعال آن در سازماندهی اشیای محتوایی نظامهای ایستای وب گردید. پیاده سازی مارک در بستر XML باعث حذف این محدودیت گردید، و از همه مهمتر بازیافت پذیری آنها از طریق ابزارهای عمومی کاوش را میسر ساخت.

- تمامی اشیای محتوایی حاوی عناصر فراداده‌ای هسته دوبلین و مارک، از طریق سه عنصر اصلی مذکور (عنوان، موضوع، پدیدآورنده) دسترس‌پذیر می‌باشند. بنابراین، هیچ تفاوتی بین نمایه‌سازی پیشینه های فراداده ای هسته دوبلین و مارک درج شده در اشیای محتوایی مبتنی بر XML توسط هر دو موتور کاوش گوگل و یاهو مشاهده نمی‌شود. در نتیجه، نمی‌توان گفت کدام طرح فراداده‌ای توسط موتورهای کاوش بهتر نمایه‌سازی می‌شود.

- بررسی فرضیه­های سوم و چهارم با استفاده از آزمون یومان- ویتنی، وجود تفاوت بین رتبه بندی پیشینه­های دو طرح فراداده ای مورد مطالعه در موتور کاوش یاهو را نشان داد.

 - نرم افزارهای پیمایشگر- نمایه ساز موتورهای کاوش گوگل و یاهو حساسیت خاصی (الگوریتم) نسبت به مدارک مبتنی بر XML با ساختار مسطح (مانند هسته دوبلین) و سلسله مراتبی ندارند (مانند مارک 21)، و کنش مشابهی را نشان می‌دهند. نیز بین پیشینه‌های با برچسبهای زبان- پایه و دیگر پیشینه­ها، تفاوتی قایل نمی­شوند؛ یعنی خط مشی­هایی که نسبت به نمایه‌سازی برچسبهای HTML داشتند، حداقل در مورد برچسبهای فراداده­های درج شده در مدارک مبتنی بر XML ندارند. به عبارت دیگر، کنش موتورهای کاوش گوگل و یاهو نسبت به طرحهای فراداده‌ای با برچسبهای عناصر زبان-پایه (هسته دوبلین) و بدون برچسبهای عناصر زبان - پایه (مارک) یکسان است. 

- به منظور تعیین برتری دو طرح فراداده­ای هسته دوبلین و مارک 21 از لحاظ دسترس پذیری (کیفیت نمایه سازی و رتبه بندی) چهار عامل[52] در نظر گرفته شد. از میان این چهار عامل، یافته­های سه عامل حاکی از برتری نداشتن هر یک از دو طرح نسبت به یکدیگر بود. اما عامل چهارم (رتبه بندی اشیای محتوایی مورد مطالعه در موتور کاوش یاهو) برتری اشیای محتوای حاوی عناصر هسته دوبلین را نسبت به گروه دوم نشان داد. با توجه به اینکه سه عامل اول مناسب بودن هر دو طرح را از لحاظ دسترس‌پذیری نشان می‌داد، و از سوی دیگر تفاوت در رتبه بندی در مهمترین و قویترین موتور کاوش حال حاضر وب (گوگل) - که الگوی سایر موتورهای کاوش مهم در طراحی الگوریتمهای نمایه‌سازی و رتبه‌بندی نیز هست ـ دیده ­نشد، و از همه مهمتر آنکه رتبة اشیای محتوایی مربوط به هر دو گروه جامعه پژوهش در یاهو با تغییر عناصر مورد جستجو تغییر می­نمود. هیچ یک از طرحهای فراداده­ای هستة دوبلین و قالب فراداده­ای مارک 21 از لحاظ دسترس­پذیری (کیفیت نمایه سازی و رتبه‌بندی) به وسیلة موتورهای کاوش عمومی بر دیگری برتری ندارند.  

 

نتیجه‌گیری

همان‌طور که در مقدمه اشاره شد، برای تسهیل و تسریع دسترسی به حجم گستردة اشیای محتوایی انتشار یافته بر روی شبکه وب، دو جنبش نرم افزاری با دو رویکرد متفاوت رخ داد. جنبش نخست، جنبش کاملا فناوری-پایه بود. ضعفهای دستاوردهای آن را می‌توان ناشی از نوعی فن زدگی دانست؛ اما جنبش دیگر بر پایة مدیریت اطلاعات شکل گرفت و استفاده از فناوری را به منظور سازگاری با رسانه­ها و محیط جدید مد نظر قرار داد (فتاحی، 1386). محبوبیت ابزارهای مبتنی بر جنبش نخست و قابلیتهای محصول جنبش دوم، بیانگر اهمیت میان کنش پذیری آنهاست. بررسی تلاشهای صورت گرفته از سوی دو جنبش در جهت میان کنش‌پذیری، نشان می­دهد جنبش دوم گامهای جدی­تر و برجسته‌تری برداشته است.

گرایش دو طرح فراداده ای یاد شده به سوی استفاده از فناوری پیشرفته «زبان نشانه‌گذاری گسترش‌پذیر» (XML) به عنوان بستر نحوی (یا محیط پیاده سازی)، با هدف استفاده از قابلیتهای این فناوری، در راستای حرکت آگاهانه به سوی سازگاری و پاسخگویی به تحولات اخیر است.این امر ارزشهای افزودة فراوانی برای این دو طرح داشته است:

-   امکان جاسازی پیشینه­های فراداده ای هسته دوبلین و مارک 21 در اشیای دیجیتالی در قالبهای مختلف، از جمله قالب PDF با استفاده از RDF

-    امکان نمایه سازی کامل آنها توسط موتورهای کاوش عمومی (ابزاری که بیش از 80% جستجوهای محیط وب را به خود اختصاص داده­اند).

-    تسهیل تبدیل طرحهای فراداده­ای به یکدیگر، و در نتیجه افزایش میان‌کنش‌پذیری نظامهای فراداده­ای

-    امکان ایجاد پروفایلهای کاربردی[53] به منظور تأمین نیازهای خاص سازمانها و محیطهای اطلاعاتی مختلف (مانند قالب METS)

-    بستری بسیار منعطف و با قابلیتهای منحصر به فرد برای انجام پردازشهای سطح بالا بر روی پیشینه­های فراداده­ای.



1. Wandex.

2. Jump station.

3. Crawler-based search engines.

4. WebCrawler.

5. Metadata.

1. Bifet.

2. Castillo.

3. Retrievability. 

4. این امر اکنون به عنوان یکی از شاخصهای ارزیابی طرح­های فراداده­ای محسوب می­گردد.

5. Turner, Thomas P.

6. Brackbill

7. Sokvitne, Lloyd

8. Henshaw, Robin

9. Valauskas

10. Zhang, Jin

11. Quevedo-Torrero, Jesus Ubaldo

12. Dimitroff

1.

2. Digital objects موجودیتی که داده­ها یا اطلاعات را در بر می­گیرد. یک شیء محتوایی خود می تواند از اشیای محتوایی دیگر ساخته شود. برای مثال، یک مجله یک شیء محتوایی است که خود از مجموعه‌ای مقاله‌ها که هریک از آنها نیز یک شیء محتوایی هستند، ساخته شده است. متن، تصاویر و اشکالی که در یک مقاله هستند نیز می‌توانند یک شیء محتوایی باشند. نقشه‌ها، نقاشیها، عکسها، و دیگر اشیای غیر متنی نیز شیء محتوایی محسوب می‌شوند. حتی فراداده‌های مربوط به یک شیء محتوایی نیز خود اشیای محتوایی می‌باشند (سازمان ملی استانداردهای اطلاعاتی، 2005).

 

1. Applied or action research.

2. Technology – based Research.

3. Experimental research.

f (ادامه3 از صفحه قبل) شایان ذکر است، پژوهشهایی که به تعیین میزان اثر بخشی عناصر فراداده­ای بر نمایه‌سازی و رتبه‌بندی اشیای محتوایی وب در موتورهای کاوش پرداخته­اند، با اندکی تفاوت، از روش تجربی استفاده نموده‌اند (شریف، 1386).

1. Record.

2. Root element.

3. metadata tag.

4. Root element.

5. Embedding.

6. به منظور توصیف، شناسایی و تسهیل کشف صفحات خانگی هر یک از حوزه­های فرعی ایجاد شده، با استفاده از ابزارها(Tools) و فرمهای از پیش آماده (Templates) معرفی شده در وب سایت طرح فراداده­ای هسته دوبلین، دو پیشینه­ فراداده‌ای هسته دوبلین در بستر نحوی HTML تولید، و توسط پژوهشگر ویرایش و تکمیل داده­ها گردید. سپس این پیشینه­ها در منبع (Source) صفحات خانگی حوزه­های فرعی جاسازی شدند.

7. California Digital Library.

8. گزینش پیشینه­ها از یک ردة موضوعی، برای فراهم نمودن شرایطی کاملا یکسان در فرایند پژوهش انجام شده است. 

9. Subject browsing.

1. File Transfer Protocol.

2. Download.

3. اعتبار پیشینه­ها ـ از لحاظ ساختار و رعایت قواعد فنی ـ به وسیلة نرم‌افزار ارائه شده از سوی دفتر توسعه شبکه و استانداردهای مارک صورت پذیرفت.

1. Google search engine: http://www.google.com

2. Yahoo search engine and subject directory: http://www.yahoo.com

3. Alexa

4. Lewis

1. Campex.

3. این بایگانی (فایل) مبتنی بر XML از طریق تولید کننده پیوسته گوگل (Google Online Sitemap Generator) با آدرس: http://www.xml-sitemap.com تولید شد.

6. این بایگانی­ها (فایل­ها) نیز به وسیلة تولید کننده پیوسته گوگل تهیه گردید.

7. برای معرفی وب‌سایتهای جامعه پژوهش به موتور کاوش یاهو، به دلیل کندی و ضعف روباتها و خزنده­های (crawler) این موتور نسبت به گوگل،  از روشهای متنوع و مورد تأیید این موتور استفاده شد. این مشکل موجب صرف وقت و زحمت فراوان در حین فرایند پژوهش گردید.

1. Structured observation.

2. در این پژوهش، منظور راهبردهای جستجو ((Search strategies تعیین شده بر اساس قوانین و توصیه­های ارائه شده از سوی موتورهای کاوش گوگل و یاهو است.

3. Basic search.

1. در آزمونهای مربوط به چهار فرضیة پژوهش، α=%5 در نظر گرفته شد.

1. Database-based format.

1. Factor.

1. Application profiles.

مجموعه عناصر فراداده ای (از یک یا چند استاندارد فراداده‌ای)، خط مشی ها، و رهنمودهایی که به منظور کاربردهای خاص (محلی) تعریف شده است (فتاحی و دیگران، 1387).

-    پاول، رونالد آر. (1385). روش­های اساسی پژوهش برای کتابداران. ترجمه نجلا حریری. تهران: دانشگاه آزاد اسلامی

-   شریف، عاطفه (1386). «بررسی میزان اثر بخشی عناصر ابرداده­ای بر رتبه بندی صفحات وب توسط موتورهای کاوش». فصلنامه کتابداری و اطلاع رسانی. شماره          38 (تابستان 1386) ]پیوسته[، دسترس‌پذیر:

www.aftab.ir/articles/publications/information/c17c1205315159_ketabdari_va_etelarasani38_p1.php  [ 30 آبان 1386].

-   رجبعلی بگلو، رضا (1385). «بررسی رابطه وب سنجی و میزان استفاده از عناصر فراداده­ای دابلین کور در مجلات الکترونیکی دسترسی آزاد در رشته علوم کتابداری و اطلاع‌رسانی». پایان نامه کارشناسی ارشد کتابداری و اطلاع‌رسانی، دانشکده علوم تربیتی و روانشناسی، دانشگاه شیراز. ]پیوسته[، دسترس پذیر:

 http://alpha-5.irandoc.ac.ir/scripts/wxis.exe?a=5:49:42 [ 30 آبان 1386] .

-   طاهری، مهدی (1387). «مقایسه کارایی طرح فراداده ای هسته دوبلین و قالب فراداده مارک 21 در سازماندهی منابع اطلاعاتی شبکه جهانی وب». فصلنامه کتابداری و اطلاع‌رسانی، شماره 43 (پاییز 1387) ]پیوسته[، دسترس پذیر:

http://aqlibrary.ir/Issue/ShowOneArticle.aspx?ArticleCode=622  

] 14 تیر 1387[.

-   فتاحی، رحمت­الله (1386). «از آرمانها تا واقعیت: تحلیلی از مهمترین چالشها و رویکردهای سازماندهی اطلاعات در عصر حاضر». فصلنامه کتابداری و اطلاع رسانی، شماره 40 (زمستان 1386) ]پیوسته[، دسترس پذیر:

http://aqlibrary.ir/Issue/ShowOneArticle.aspx?ArticleCode=469

] 14 تیر 1387[.

-   فتاحی، رحمت‌الله، مهدی طاهری و فرشته ناقد احمدی (1387). فهرستنویسی رایانه­ای: مفاهیم، شیوه‌ها، و ابزارهای فهرستنویسی در محیط رایانه­ای. تهران: کتابدار.

 

- Alexa: The Web Information Company (2008). "Global Top 500".  [online], available at: http://www.alexa.com/site/ds/top_sites? ts_mode=global&lang=none .    [14 Dec. 2007].

 

-  Bifet, Albert; Castillo, Carlos (2005). "An Analysis of Factors Used in Search Engine Ranking". [online], available at:  http://airweb.cse.lehigh.edu/2005/bifet.pdf. [14 Dec. 2007].

 

-  Campex (2005). "Top Search Engines". [online], available at:  http://capmex.biz/resources/top-search-engines .[14 Dec. 2007].

 

-  Google (2006). "Add your URL to Google". [online], available at:  http://www.google.com/addurl/. [14 Dec. 2007].

 

-  Google (2008a). "Create your Google Sitemap Online". [online], available at:  http://www.xml-sitemaps.com/. [25 May 2008].

 

 

-  Google (2008b). "Google Webmaster Tools" [online], available at:   https://google.com/webmasters/tools/docs/en/about. html. [25 May 2008].

 

-  Henshaw, Robin; Valauskas, Edward J (2001). " Metadata as a Catalyst: Experiments with Metadata and Search Engines in theInternet Journal, First Monday ". [online], available at: www.librijournal.org/pdf/1999-3pp125-131.pdf . [5 Dec. 2007].

 

-  Kelly (2006). "MARC and MARC XML". [online], available at:  http://threegee.files.wordpress.com/2006/05/marcxml.pdf. [14 Dec. 2007].

 

-  Lewis, Edward (2008). "Top Ten Search Engines". [online], available at: http://www.seoconsultants.com/search-engines/ .[25 May 2008].

 

-  Luk, Robert, et al (2000). "A Survey of Search Engines for XML Documents".[online], available at: http://www.haifa.il.ibm.com/ sigir00-xml/final-papers/Luk/XMLSUR.htm. [14 Dec. 2007].

 

-  The National Information Standards Organization (2005). “Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies”. [online], available at:

 

- Quevedo-Torrero, Jesus Ubaldo (2004). "IMPROVING WEB RETRIEVAL BY MINING THE HTML TAGS FOR KEYWORDS AND EXPLORING THE HYPERLINK STRUCTURES WEB PAGES". Ph. D. Dissertation, Department of Computer Science, University of Houston. [online], available at: ‎http://wwwlib.umi.com/ dissertations/fullcit/3156028‎. [5 Dec. 2007].

 

-  Safari, Mehdi (2005). "Search Engine and Resource Discovery on the Web: Is Dublin Core an Impact Factor". [online], available at: www.webology.ir/2005/v2n2/a13.html . [5 Dec. 2007].

 

-  Sokvine, Lloyd (2000). "An Evaluation of the Effectiveness of Current Dublin Core Metadata for Retrieval". [online], available at: www.vala.org.au/vala2000/2000pdf/Sokvitne.PDF . [5 Dec. 2007].

 

-  Turner, Thomas P.; Brackbill, Lise (1998). "Rising to the Top: Evaluating the Use of the HTML META Tag To Improve Retrieval of World Wide Web Documents through Internet Search Engines". [online], available at: http://cat.inist.fr/?aModele=afficheN& cpsidt=1748620 . [5 Dec. 2007].

 

-  Wikipedia (2008k). "Web search engine". [online], available at: http://en.wikipedia.org/wiki/Search_engines. [25 May 2008].

 

-  Yahoo! (2008a). "Yahoo! Site Explorer". [online], available at: http://en.wikipedia.org/wiki/Yahoo!_Site_Explorer. [25 May 2008].

 

-  Yahoo! (2008b). "Yahoo Search Content Quality Guidelines". [online], available at:  http://help.yahoo.com/l/us/yahoo/search/basics/ basics-18.html . [25 May 2008].

 

-  Yahoo! (2008c). "Yahoo! Submit Your Site". [online], available at: http://search.yahoo.com/info/submit.html . [25 May 2008].

 

-  Zhang, Jin; Dimitroff, Alexandra (2004). "Internet search engine's response to metadata Dublin Core implementation ". [online], available at: http://portal.acm.org/citation.cfm?id=1142111 . [5 Dec. 2007].

 

-  Zhang, Jin; Dimitroff, Alexandra (2005a). "The impact of metadata implementation on Webpage visibility in search engine result (Part II)". [online], available at: http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6VC8-4BHCBX4-2&_user=10&_rdoc=1&_fmt=&_orig=search&_sort=d&view=c&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=a853d410a866732d3f8ab5dd3217d412 . [5 Dec. 2007].

 

-  Zhang, Jin; Dimitroff, Alexandra (2005b). "The impact of  Webpage content characteristics on webpage visibility in search engine result (Part I)". [online], available at: http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6VC8-4BHCBX4-1&_user=10&_rdoc=1&_fmt=&_orig=search&_sort=d&view=c&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=33927751b92200b392f8c79b950dcdb1 . [5 Dec. 2007].