بررسی تطبیقی کیفیت نمایه‌سازی و رتبه بندی اشیای محتوایی حاوی عناصر فراداده‌ای هستة دوبلین و مارک 21 توسط موتورهای کاوش عمومی

طاهری, سید مهدی; حریری, نجلا; فتاحی, رحمت‌ الله

بررسی تطبیقی کیفیت نمایه‌سازی و رتبه بندی اشیای محتوایی حاوی عناصر فراداده‌ای هستة دوبلین و مارک 21 توسط موتورهای کاوش عمومی

نوع مقاله : مقاله پژوهشی

نویسندگان

سید مهدی طاهری ¹

نجلا حریری ²

رحمت‌ الله فتاحی ³

¹ دانشجوی ترم آخر کارشناسی ارشد کتابداری و اطلاع‌رسانی دانشگاه آزاد اسلامی، واحد علوم و تحقیقات تهران

² عضو هیئت علمی دانشگاه آزاد اسلامی، واحد علوم و تحقیقات تهران

³ استاد گروه کتابداری و اطلاع‌رسانی دانشگاه فردوسی مشهد

چکیده

پژوهش حاضر با هدف تبیین کیفیت نمایه سازی و رتبه بندی اشیای محتوایی حاوی عناصر فراداده‌ای هسته دوبلین و مارک 21 مبتنی بر زبان نشانه گذاری گسترش پذیر (XML) توسط موتورهای کاوش عمومی، و مقایسه آنها با یکدیگر به روش تجربی انجام شد. جامعه پژوهش را صد شیء محتوایی مبتنی بر XML در قالب دو گروه تشکیل می‌داد؛ گروه اول حاوی پیشینه‌های فراداده‌ای هسته دوبلین، و گروه دوم حاوی پیشینه‌های فراداده‌ای مارک 21 که بر روی دو حوزه فرعی http://www.dcmixml.islamicdoc.com و http://www.marcxml.islamicdoc.com انتشار یافته بود. حوزه‌های فرعی مورد مطالعه به دو موتور کاوش گوگل و یاهو معرفی شدند. کیفیت نمایه‌سازی پیشینه‌های فراداده‌ای درج شده در اشیای محتوایی و تفاوت نمایه‌سازی و رتبه‌بندی آنها بررسی گردید. تمامی عناصر پیشینه‌های فراداده‌ای مورد مطالعه توسط موتورهای کاوش گوگل و یاهو نمایه‌سازی شدند. بر اساس نتایج آزمون غیر پارامتری یومان ـ ویتنی، تفاوتی میان کیفیت نمایه سازی پیشینه‌های فراداده‌ای هسته دوبلین و مارک 21 مبتنی بر XML توسط موتورهای کاوش گوگل و یاهو مشاهده نگردید. میزان معناداری تفاوت رتبه‌بندی اشیای محتوایی حاوی عناصر فراداده‌ای هسته دوبلین و مارک 21 در دو موتور کاوش گوگل و یاهو نیز با استفاده از آزمون «یومان ـ ویتنی» محاسبه گردید. بین رتبه‌بندی اشیای محتوایی حاوی دو طرح فراداده‌ای در موتور کاوش گوگل تفاوت معناداری مشاهده نشد، اما وضعیت رتبه‌بندی اشیای محتوایی حاوی دو طرح فراداده‌ای در موتور کاوش یاهو، تفاوت معناداری داشت. یافته‌های پژوهش نشان داد هیچ یک از دو طرح فراداده‌ای هستة دوبلین و مارک 21 مبتنی بر XML، از لحاظ دسترس‌پذیری توسط موتورهای کاوش عمومی، نسبت به یکدیگر برتری ندارند.

کلیدواژه‌ها

طرح فرادادهای هسته دوبلین

قالب فرادادهای مارک 21

موتورهای کاوش عمومی

کیفیت نمایه سازی عناصر فرادادهای

رتبه‌بندی نتایج کاوش

زبان نشانه گذاری گسترش‌پذیر (XML)

مقدمه

با گسترش وب، به عنوان مهمترین فناوری و رسانه شبکه اینترنت، که از قابلیتهای منحصر به فردی بهره‌مند بود، بسیاری از سازمانها، ناشران، مراکز اطلاع‌رسانی و پدیدآورندگان به انتشار و ارائه اطلاعات و خدمات خود بر روی این رسانه تمایل پیدا کردند. این تمایل که با رشد تصاعدی همراه بود، به یکباره حجم وسیعی از اطلاعات را بر روی شبکة وب دسترس پذیر نمود. همانند سایر محیطهای اطلاعاتی، طراحی و ایجاد ابزارها، فنون، و استانداردهایی به منظور تسریع و تسهیل دسترسی به این حجم گسترده اشیای محتوایی، ضرورت داشت. در همین راستا، دو جنبش نرم افزاری در سطح بین‌المللی به وجود آمد. در جنبش نخست، برخی اشخاص و سازمانهای انتفاعی و غیرانتفاعی به تولید ابزارهای کاوش مبادرت ورزیدند. محصول این تلاشها، موتورهای کاوش وب بود. از «واندکس»[1]، Aliweb، و «جامپ استیشن»[2] گرفته تا نسل اول، موتورهای کاوش پیمایش‌گر - پایه[3] و تمام متن مانند وب کرالر[4]، و موتورهای کاوش امروزی همچون گوگل و یاهو ـ با نرم‌افزارها و الگوریتمها بسیار پیشرفته برای نمایه سازی و رتبه‌بندی همگی بر مبنای جنبش نخست به وجود آمدند. تقریباً به موازات این جنبش، جنبش دوم با دستاوردی به نام فراداده[5] شکل گرفت. اساس این جنبش، همان نظامهای سازماندهی دانش بود که همواره در طول تاریخ همگام با تحولات حوزه فناوریهای اطلاعاتی گسترش یافته‌اند. این جنبش دو رویکرد را شامل میشد: سازگاری نظامهای سنتی با محیط و رسانه‌های جدید و ایجاد نظامهایی نوین برای حداکثر بهرهوری از امکانات و قابلیتهای محیط جدید (طاهری، 1387).

موتورهای کاوش، با وجود نقاط ضعف و کاستیهایی که نسبت به نظامهای فراداده‌ای در دسترس پذیر نمودن اشیای محتوایی وب دارند، به دلیل سادگی استفاده، غنای پایگاههای دادهای و عواملی دیگر، 88% از زمانی را که کاربران وب صرف جستجوی اطلاعات میکنند، به خود اختصاص دادهاند (بیفت[6] و کاستیلو[7]، 2005). گرایش قابل ملاحظة کاربران به استفاده از موتورهای کاوش از یک سو، و قابلیتها و تواناییهای بالقوه نظامهای فرادادهای از سوی دیگر، ضرورت میان کنش پذیری دستاوردهای دو جنبش یاد شده را بدیهی ساخت. بدین منظور، خط مشیهایی در موتورهای کاوش به منظور نمایه سازی برچسبها و عناصر فرادادهای تدوین، و تمهیداتی (از جمله تغییر بستر نحوی پیشینهها) در نظامهای فرادادهای برای افزایش بازیافت پذیری[8] آنها به وسیلة موتورهای کاوش[9] در نظر گرفته شد.

پژوهشهایی چند در ایران (صفری، 2005؛ رجبعلی بگلو، 1386؛ و شریف، 1386) و خارج از ایران (ترنر[10] و بریکبیل[11] ،1998؛ سوکویتن[12] 2000؛ هنشاو[13] و والوسکاس[14] 2001؛ ژانگ[15] و دیگران 2004؛ کوئودو- توررو[16] 2004؛ ژانگ و دیمیتروف[17] ، a 2005؛ ژانگ و دیمیتروف، b 2005) با هدف بررسی این میان کنش پذیری انجام گرفته است. عناصر فرادادهای مورد مطالعه در این پژوهشها، فرا برچسبهای «زبان نشانه‌گذاری فرامتن (HTML)» (کلیدواژه، و توصیف) و برخی از عناصر طرح فرادادهای هسته دوبلین، و بستر نحوی تمامی آنها HTML بوده است.

در این پژوهش، با رویکردی مقایسهای، واکنش موتورهای کاوش به بر چسب «فراداده»[18] حاوی تمامی عناصر هسته دوبلین و مارک 21 مربوط به اشیای محتوایی[19] جامعه پژوهش در بستر نحوی «زبان نشانه‌گذاری گسترش‌پذیر» (XML)، مورد مطالعه و بررسی قرار گرفت.

پرسشها و فرضیه‌های پژوهش

به طور کلی، این پژوهش دارای پنج پرسش و چهار فرضیه بود:

الف) پرسشها

1. کیفیت نمایه سازی اشیای محتوایی حاوی عناصر فرادادهای هستة دوبلین مبتنی بر XML توسط موتورهای کاوش عمومی (گوگل و یاهو) چگونه است؟

2. کیفیت نمایه سازی اشیای محتوایی حاوی عناصر فرادادهای مارک 21 مبتنی بر XML توسط موتورهای کاوش عمومی (گوگل و یاهو) چگونه است؟

3. واکنش موتورهای کاوش عمومی (گوگل و یاهو) نسبت به اشیای محتوایی مبتنی بر XML حاوی عناصر فرادادهای با ساختار مسطح و سلسله مراتبی چگونه است؟ (با توجه به اینکه پیشینههای فرادادهای مارک دارای ساختار سلسله مراتبی و پیشینههای فرادادهای هسته دوبلین دارای ساختار مسطح هستند).

4. واکنش موتورهای کاوش عمومی (گوگل و یاهو) نسبت به طرحهای فرادادهای با برچسبهای عناصر زبان- پایه (هسته دوبلین) و بدون برچسبهای عناصر زبان- پایه چگونه است؟

5. کدام یک از طرحهای فرادادهای هستة دوبلین و قالب مارک 21 برای سازماندهی اشیای محتوایی شبکه جهانی وب مبتنی بر XML از لحاظ دسترس پذیری (کیفیت نمایه سازی و رتبه بندی) توسط موتورهای کاوش عمومی(گوگل و یاهو) مناسبتر است؟

ب) فرضیهها

1. میان کیفیت نمایه سازی سه عنصر اصلی (عنوان، پدیدآورنده، و موضوع) اشیای محتوایی حاوی عناصر فرادادهای هسته دوبلین و مارک 21 مبتنی بر XML توسط موتور کاوش گوگل، تفاوت معناداری وجود دارد.

2. میان کیفیت نمایه سازی سه عنصر اصلی (عنوان، پدیدآورنده، و موضوع) اشیای محتوایی حاوی عناصر فرادادهای هسته دوبلین و مارک 21 مبتنی بر XML توسط موتور کاوش یاهو تفاوت معناداری وجود دارد.

3. میان رتبه‌بندی اشیای محتوایی حاوی عناصر فرادادهای هسته دوبلین و مارک 21 مبتنی بر XML توسط موتور کاوش گوگل تفاوت معناداری وجود دارد.

4. میان رتبه‌بندی اشیای محتوایی حاوی عناصر فرادادهای هسته دوبلین و مارک 21 مبتنی بر XML توسط موتور کاوش یاهو تفاوت معناداری وجود دارد.

روش‌شناسی

پژوهش حاضر از نظر نوع کاربردی[20] است، زیرا بر حلّ مسئله سازماندهی اشیای محتوایی وب و دسترس‌پذیری آنها از طریق ابزارهای کاوش عمومی وب در شرایط واقعی و عملی تأکید دارد و از لحاظ روش پژوهش، یک پژوهش مبتنی بر فناوری[21] و تجربی[22] محسوب میگردد. مراحل پژوهش شامل موارد زیر است:

1. طراحی و انتشار حوزههای فرعی (subdomains) مورد مطالعه

جامعه پژوهش عبارت بود از100 شیء محتوایی (کتاب الکترونیکی) در قالب دو گروه 50 پیشینهای[23] در بستر «زبان نشانه‌گذاری گسترش پذیری (XML)». هر پیشینه از گروه اول حاوی[24] یک پیشینة فرادادهای هستة دوبلین (مبتنی بر XML) است که به عنوان برچسب فراداده[25] پس از عنصر ریشه[26] جاسازی[27] (درج) شده است و بر روی یک حوزة فرعی با آدرس: http://www.dcmixml.islamicdoc.com بر روی وب سایت مرکز اطلاعات و مدارک اسلامی انتشار یافته است. هر یک از اشیای محتوایی گروه دوم حاوی پیشینههای فرادادهای قالب مارک 21 (مبتنی بر XML) است که همانند پیشینههای فرادادهای گروه اول عمل شده، و بر روی حوزة فرعی دیگری با آدرس: http://www.marcxml.islamicdoc.com بر روی همان وب سایت منتشر شده است[28].

اشیای محتوایی یاد شده از وب سایت http://www.archive.org و از مجموعه منابع کتابخانه دیجیتالی کالیفرنیا[29] و از یک ردة موضوعی (Knowledge, theory of)[30] انتخاب گردید. روش گزینش به این صورت بود که با استفاده از امکان مرور موضوعی[31] در مجموعه منابع کتابخانه دیجیتالی کالیفرنیا، یکی از موضوعاتی که بیش از 50 شیء محتوایی را دارا بود، انتخاب و از طریق امکان «پروتکل انتقال بایگانی (FTP)[32]» که برای هر شیء محتوایی فراهم شده، منتقل[33] گردید. در مجموعه کتابخانه دیجیتالی کالیفرنیا، همراه هر شیء محتوایی ـ در همان امکان FTP، پیشینههای فرادادهای هستة دوبلین و مارک 21 (مبتنی بر XML) ـ که برای بازیابی اشیای محتوایی مرتبط ایجاد شدهاند ـ به صورت مجزا از آن شیء محتوایی وجود دارند. بنابراین، این پیشینهها نیز انتقال یافته و اعتبار آنها مورد سنجش قرار گرفت.[34] پس از انتقال اشیای مذکور، فرایند جاسازی پیشینه‌های فرادادهای در اشیای محتوایی مورد مطالعه بر اساس استانداردها و راهنماهای مرتبط انجام و پس از آماده‌سازی بر روی حوزههای فرعی یاد شده منتشر شد.

نمونهای از یک شیء فرادادهای حاوی عناصر فرادادهای هسته دوبلین در قالب XML

نمونهای از یک شیء محتوایی حاوی عناصر فرادادهای مارک 21 در قالب XML

از آنجا که هدف پژوهش، بررسی کیفیت نمایه‌سازی و رتبه‌بندی اشیای محتوایی حاوی پیشینههای فرادادهای به وسیلة موتورهای کاوش عمومی بود، بدیهی است باید بهترین موتورهای کاوش عمومی که بتوانند هدفهای این پژوهش را محقق سازند، انتخاب میگردید. بسیاری از منابع معتبر اذعان دارند و نیز بر اساس مشاهدات، تجارب مدیران وب‌سایتها، تعداد کاربران، بررسی ساختار و ویژگیها، و سایر شواهد و دلایل، موتورهای کاوش گوگل[35] و یاهو[36] در بین موتورهای کاوش عمومی دارای بالاترین کیفیت و بالاترین بسامد استفاده هستند (شریف، 1386؛ ویکی پدیا،k2008؛ الکسا[37]، 2008؛ لوییس[38]، 2008؛ کمپکس[39]، 2008).

2. انتخاب و معرفی حوزههای فرعی به موتورهای کاوش

گام بعدی بر اساس مطالعات و بررسیهای انجام شده، معرفی حوزههای فرعی جامعه پژوهش به موتورهای گوگل و یاهو، با استفاده از پیشرفتهترین روشهای توصیه شده از سوی آنها بود. بدین منظور، حوزههای فرعی مورد مطالعه به وسیلة امکان Webmaster Tools[40] و XML Sitemap[41] به موتور کاوش گوگل؛ و با بهره مندی از امکان Suggest a site[42]، Yahoo! Search URL Status Review Form[43]، و ROR & Text Sitemap[44] به موتور کاوش یاهو[45] در شرایط کاملا یکسان معرفی شدند. شایان ذکر است، اعتبار همة حوزههای فرعی جامعه پژوهش - با تعبیه کدهای مرتبط و ارائه شده از سوی گوگل و یاهو- مورد تأیید موتورهای مورد مطالعه قرار گرفت.[46]

3. گردآوری دادهها

روش گردآوری دادهها در این پژوهش از طریق مشاهده طراحی شده[47] انجام گرفته است ـ تماشای دقیق به شیوهای علمی و نظاممند با استفاده از راهبردهای از پیش تعیین شده[48] که اغلب در مطالعههای کمّی برای توصیفهای نظام‌مند یا آزمون فرضیههای علمی، به کار میرود (پاول، 1379، ص. 178). ابزار گردآوری دادهها، سیاهة وارسی (چک لیست) بود که با استفاده از نرم افزار آماری SPSS ـ به عنوان ابزار ثبت مکانیکی، بر اساس سؤالهای پژوهش توسط پژوهشگر طراحی شده است. سپس داده‌های گردآوری شده در قالب جدولها و نمودارها که آنها نیز با نرم افزار SPSS تهیه گردید، ارائه شد. ابزار دیگری که برای مشاهده و ثبت دادهها استفاده شده، تهیة تصاویری نمونه در فاصله‌های زمانی نامنظم با استفاده از امکان Screen shot و ذخیره آنها از طریق نرم‌افزار Paint بوده است. بدیهی است، این نوع ابزارها توان ثبت نظاممند دادهها و مقوله‌بندی آنها را ندارند و این کار باید توسط پژوهشگر انجام گیرد (پاول، 1379، ص. 178).

به منظور گردآوری دادههای مربوط به سؤالهای اول، دوم، سوم، و چهارم، و فرضیههای اول و دوم پژوهش از راهبردهای جستجوی:

"keyphrase" site:dcmixml.islamicdoc.com

"keyphrase" site:marcxml.islamicdoc.com

که در کادر جستجوی پایه[49] موتورهای گوگل و یاهو وارد شدند، استفاده شد. و برای فرضیههای سوم و چهارم این راهبردها طراحی گردید:

"keyphrase" site:dcmixml.islamicdoc.com OR site:marcxml.islamicdoc.com

"keyphrase" site:marcxml.islamicdoc.com OR site:dcmixml.islamicdoc.com

چنان‌که پیشتر اشاره شد، هدف از طرح فرضیههای سوم و چهارم، بررسی رتبة هر یک از اشیای محتوایی گروه اول و دوم نسبت به یکدیگر بود. بنابراین، بررسی رتبة آنها نسبت به سایر پیشینههای نتایج جستجو در موتورهای کاوش، مد نظر نبود. عملیات کاوش با استفاده از راهبردهای جستجوی یاد شده، تنها دو پیشینه را به عنوان نتیجه ارائه میداد؛ یک پیشینه مربوط به گروه اول و یک پیشینه مربوط به گروه دوم که رتبه آنها نسبت به یکدیگر سنجیده میشد.

به طور کلی، در مرحلة گردآوری دادهها، بیش از دو هزار عملیات جستجو با استفاده از راهبردهای جستجوی مرتبط در بازة زمانی اول تا سی و یکم اردیبهشت ماه 1387 صورت گرفت.

تجزیه و تحلیل یافتهها

نتایج آزمون یومان ـ ویتنی[50] مربوط به فرضیه اول.

1250.000

2575.000

.000

1.000

Mann-Whitney U

Wilcoxon W

Asymp. Sig. (2-tailed)

a Grouping Variable: Metadata

چنان که نتیجه آزمون نشان میدهد، میان کیفیت نمایه سازی سه عنصر اصلی (پدیدآورنده، عنوان، و موضوع) اشیای محتوایی حاوی پیشینههای فرادادهای هسته دوبلین و مارک 21 توسط موتور کاوش گوگل، تفاوت معناداری وجود ندارد.

نتایج آزمون یومان ـ ویتنی مربوط به فرضیه دوم.

11250.000

22575.000

.000

1.000

Mann-Whitney U

Wilcoxon W

Asymp. Sig. (2-tailed)

a Grouping Variable: Metadata

میان کیفیت نمایه سازی سه عنصر اصلی اشیای محتوایی حاوی پیشینههای فراداده‌ای هسته دوبلین و مارک 21 توسط موتور کاوش یاهو نیز تفاوت معناداری مشاهده نشد.

نتایج آزمون یومان- ویتنی مربوط به فرضیة سوم.

1250.000

2525.000

.000

1.000

Mann-Whitney U

Wilcoxon W

Asymp. Sig. (2-tailed)

a. Grouping Variable: Metadata

b. SE = Google

در موتور کاوش گوگل، 25 پیشینه فرادادهای هستة دوبلین و 25 پیشینه فرادادهای مارک 21 درج شده در اشیای محتوایی، نسبت به یکدیگر بالاتر قرار گرفتند. بنابراین، تفاوت معناداری میان رتبه‌بندی اشیای محتوایی عناصر فرادادهای مربوط به هستة دوبلین و مارک 21 در گوگل وجود ندارد.

نتایج آزمون یومان- ویتنی مربوط به فرضیه چهارم.

1250.000

2525.000

.000

1.000

Mann-Whitney U

Wilcoxon W

Asymp. Sig. (2-tailed)

a. Grouping Variable: Metadata

b. SE = Google

اما رتبه اشیای محتوایی در موتور کاوش یاهو متفاوت بود. 40 شیء محتوایی حاوی عناصر فرادادهای هستة دوبلین و 10 شیء محتوایی حاوی عناصر فرادادهای مارک 21 در این موتور کاوش نسبت به یکدیگر رتبه بالاتری کسب نمودند.

پاسخ مربوط به پرسشهای اول و دوم. کیفیت نمایه‌سازی اشیای محتوای حاوی عناصر فرادادهای هسته دوبلین و مارک 21 توسط موتورهای کاوش گوگل و یاهو

جدول1. وضعیت نمایه‌سازی عناصر فرادادهای مارک 21

و هسته دوبلین توسط موتور کاوش گوگل

طرح فرادادهای (در گوگل)	وب سایت	تعداد عناصر مورد مطالعه	تعداد پیشینهها	درصد نمایه‌سازی
مارک	marcxml.islamicdoc.com	10	50	100%
هسته دوبلین	dcmixml.islamicdoc.com	9	50	100%

موتور کاوش گوگل محتوای تمامی 10 عنصر قالب مارک و 9 عنصر طرح هسته دوبلین را به طور کامل (صد در صد) نمایه سازی کرده است.

جدول 2. وضعیت نمایه سازی عناصر فرادادهای مارک 21

و هسته دوبلین توسط موتور کاوش گوگل

طرح فرادادهای (یاهو)	وب سایت	تعداد عناصر مورد مطالعه	تعداد پیشینهها	درصد نمایه‌سازی
مارک	marcxml.islamicdoc.com	10	50	100%
هسته دوبلین	dcmixml.islamicdoc.com	9	50	100%

کیفیت نمایه‌سازی عناصر مربوط به طرحهای فرادادهای هسته دوبلین و مارک 21 توسط موتور کاوش یاهو 100% است.

بر اساس یافتههای مربوط به پرسشهای اول و دوم، میتوان به پرسشهای سوم و چهارم نیز پاسخ داد. برای موتورهای کاوش گوگل و یاهو، بین اشیای محتوایی با ساختار مسطح و سلسله مراتبی تفاوتی وجود ندارد. موتورهای یاد شده، الگوریتمی برای نمایه‌سازی پیشینههای فرادادهای با برچسبهای عناصر زبان-پایه و بدون آن نیز ندارد.

پاسخ پرسش پنجم در نتایج چهار فرضیه و چهار پرسش پیشین نهفته است. یافتهها حاکی از آن است که هیچ یک از دو طرح فرادادهای هستة دوبلین و مارک از لحاظ دسترس پذیری توسط موتورهای کاوش عمومی، بر دیگری برتری ندارند، و هر دو طرح برای سازماندهی اشیای محتوایی وب مناسب میباشند.

به طور اجمالی، مطالعه بر روی میان کنش‌پذیری اشیای محتوایی حاوی عناصر هسته دوبلین و مارک 21 مبتنی بر XML با موتورهای کاوش گوگل و یاهو بیانگر آن است که:

- تمامی عناصر فراداده ای دو طرح هستة دوبلین و مارک 21 توسط موتورهای کاوش نمایه سازی شده اند. بنابراین، اشیای محتوایی حاوی این عناصر، از طریق جستجوی کلیدواژه‌ای و عبارتهای کلیدی، به آسانی قابل بازیابی هستند.

- موتورهای کاوش الگوریتمی برای انتخاب عناصری خاص نداشتهاند. به عبارت دیگر، تمامی عناصر فرادادهای برای نرم افزارهای نمایه سازی موتورهای کاوش گوگل و یاهو، ارزش نمایه شدن داشتهاند.

به طور ضمنی، این یافته میتواند نویدی برای فراهم کنندگان اطلاعات دسترس پذیر از طریق شبکه جهانی وب باشد، زیرا پیاده‌سازی پیشینه‌های فراداده‌ای در بستر «زبان نشانه گذاری فرامتن (HTML)» چنین قابلیتی را دارا نبود.

- بستر XML برای طرح های فراداده‌ای، رهایی از محدودیتهای بستر HTML در میان کنش پذیری موتورهای کاوش - به عنوان مهمترین ابزار جستجو در اینترنت- با پیشینه های فرادادهای ـ به عنوان ابزاری برای توصیف، شناسایی، و کشف اشیای محتوایی ـ است.

- پژوهشهای پیشین تنها بخشی از عناصر (4 یا 5 عنصر اصلی) را که تقریباً با فرا برچسبهای HTML مطابقت داشته، انتخاب نمودهاند. اما پژوهش حاضر تمامی عناصر موجود در پیشینههای فرادادهای مربوط به اشیای محتوایی جامعه پژوهش را مورد بررسی قرار داد، و بازیافت پذیری همه عناصر را تأیید نمود.

- قالب مارک پیش از ایجاد قالب مبتنی بر XML خود (MARCXML)، قالب پایگاه اطلاعاتی ـ پایه[51] بود، و امکان پیاده سازی آن در صفحات وب وجود نداشت. مارک در قالب «زبان نشانه گذاری گسترش‌پذیر» (HTML)، به دلیل محدودیتهای این زبان (محدودیت برچسبهای آن) پیاده‌سازی نشد. بنابراین، نمیتوانست در صفحات وب جاسازی شود و در نتیجه مانع حضور فعال آن در سازماندهی اشیای محتوایی نظامهای ایستای وب گردید. پیاده سازی مارک در بستر XML باعث حذف این محدودیت گردید، و از همه مهمتر بازیافت پذیری آنها از طریق ابزارهای عمومی کاوش را میسر ساخت.

- تمامی اشیای محتوایی حاوی عناصر فراداده‌ای هسته دوبلین و مارک، از طریق سه عنصر اصلی مذکور (عنوان، موضوع، پدیدآورنده) دسترس‌پذیر می‌باشند. بنابراین، هیچ تفاوتی بین نمایه‌سازی پیشینه های فراداده ای هسته دوبلین و مارک درج شده در اشیای محتوایی مبتنی بر XML توسط هر دو موتور کاوش گوگل و یاهو مشاهده نمی‌شود. در نتیجه، نمی‌توان گفت کدام طرح فراداده‌ای توسط موتورهای کاوش بهتر نمایه‌سازی می‌شود.

- بررسی فرضیههای سوم و چهارم با استفاده از آزمون یومان- ویتنی، وجود تفاوت بین رتبه بندی پیشینههای دو طرح فراداده ای مورد مطالعه در موتور کاوش یاهو را نشان داد.

- نرم افزارهای پیمایشگر- نمایه ساز موتورهای کاوش گوگل و یاهو حساسیت خاصی (الگوریتم) نسبت به مدارک مبتنی بر XML با ساختار مسطح (مانند هسته دوبلین) و سلسله مراتبی ندارند (مانند مارک 21)، و کنش مشابهی را نشان می‌دهند. نیز بین پیشینه‌های با برچسبهای زبان- پایه و دیگر پیشینهها، تفاوتی قایل نمیشوند؛ یعنی خط مشیهایی که نسبت به نمایه‌سازی برچسبهای HTML داشتند، حداقل در مورد برچسبهای فرادادههای درج شده در مدارک مبتنی بر XML ندارند. به عبارت دیگر، کنش موتورهای کاوش گوگل و یاهو نسبت به طرحهای فراداده‌ای با برچسبهای عناصر زبان-پایه (هسته دوبلین) و بدون برچسبهای عناصر زبان - پایه (مارک) یکسان است.

- به منظور تعیین برتری دو طرح فرادادهای هسته دوبلین و مارک 21 از لحاظ دسترس پذیری (کیفیت نمایه سازی و رتبه بندی) چهار عامل[52] در نظر گرفته شد. از میان این چهار عامل، یافتههای سه عامل حاکی از برتری نداشتن هر یک از دو طرح نسبت به یکدیگر بود. اما عامل چهارم (رتبه بندی اشیای محتوایی مورد مطالعه در موتور کاوش یاهو) برتری اشیای محتوای حاوی عناصر هسته دوبلین را نسبت به گروه دوم نشان داد. با توجه به اینکه سه عامل اول مناسب بودن هر دو طرح را از لحاظ دسترس‌پذیری نشان می‌داد، و از سوی دیگر تفاوت در رتبه بندی در مهمترین و قویترین موتور کاوش حال حاضر وب (گوگل) - که الگوی سایر موتورهای کاوش مهم در طراحی الگوریتمهای نمایه‌سازی و رتبه‌بندی نیز هست ـ دیده نشد، و از همه مهمتر آنکه رتبة اشیای محتوایی مربوط به هر دو گروه جامعه پژوهش در یاهو با تغییر عناصر مورد جستجو تغییر مینمود. هیچ یک از طرحهای فرادادهای هستة دوبلین و قالب فرادادهای مارک 21 از لحاظ دسترسپذیری (کیفیت نمایه سازی و رتبه‌بندی) به وسیلة موتورهای کاوش عمومی بر دیگری برتری ندارند.

نتیجه‌گیری

همان‌طور که در مقدمه اشاره شد، برای تسهیل و تسریع دسترسی به حجم گستردة اشیای محتوایی انتشار یافته بر روی شبکه وب، دو جنبش نرم افزاری با دو رویکرد متفاوت رخ داد. جنبش نخست، جنبش کاملا فناوری-پایه بود. ضعفهای دستاوردهای آن را می‌توان ناشی از نوعی فن زدگی دانست؛ اما جنبش دیگر بر پایة مدیریت اطلاعات شکل گرفت و استفاده از فناوری را به منظور سازگاری با رسانهها و محیط جدید مد نظر قرار داد (فتاحی، 1386). محبوبیت ابزارهای مبتنی بر جنبش نخست و قابلیتهای محصول جنبش دوم، بیانگر اهمیت میان کنش پذیری آنهاست. بررسی تلاشهای صورت گرفته از سوی دو جنبش در جهت میان کنش‌پذیری، نشان میدهد جنبش دوم گامهای جدیتر و برجسته‌تری برداشته است.

گرایش دو طرح فراداده ای یاد شده به سوی استفاده از فناوری پیشرفته «زبان نشانه‌گذاری گسترش‌پذیر» (XML) به عنوان بستر نحوی (یا محیط پیاده سازی)، با هدف استفاده از قابلیتهای این فناوری، در راستای حرکت آگاهانه به سوی سازگاری و پاسخگویی به تحولات اخیر است.این امر ارزشهای افزودة فراوانی برای این دو طرح داشته است:

- امکان جاسازی پیشینههای فراداده ای هسته دوبلین و مارک 21 در اشیای دیجیتالی در قالبهای مختلف، از جمله قالب PDF با استفاده از RDF

- امکان نمایه سازی کامل آنها توسط موتورهای کاوش عمومی (ابزاری که بیش از 80% جستجوهای محیط وب را به خود اختصاص دادهاند).

- تسهیل تبدیل طرحهای فرادادهای به یکدیگر، و در نتیجه افزایش میان‌کنش‌پذیری نظامهای فرادادهای

- امکان ایجاد پروفایلهای کاربردی[53] به منظور تأمین نیازهای خاص سازمانها و محیطهای اطلاعاتی مختلف (مانند قالب METS)

- بستری بسیار منعطف و با قابلیتهای منحصر به فرد برای انجام پردازشهای سطح بالا بر روی پیشینههای فرادادهای.

1. Wandex.

2. Jump station.

3. Crawler-based search engines.

4. WebCrawler.

5. Metadata.

1. Bifet.

2. Castillo.

3. Retrievability.

4. این امر اکنون به عنوان یکی از شاخصهای ارزیابی طرحهای فرادادهای محسوب میگردد.

5. Turner, Thomas P.

6. Brackbill

7. Sokvitne, Lloyd

8. Henshaw, Robin

9. Valauskas

10. Zhang, Jin

11. Quevedo-Torrero, Jesus Ubaldo

12. Dimitroff

2. Digital objects موجودیتی که دادهها یا اطلاعات را در بر میگیرد. یک شیء محتوایی خود می تواند از اشیای محتوایی دیگر ساخته شود. برای مثال، یک مجله یک شیء محتوایی است که خود از مجموعه‌ای مقاله‌ها که هریک از آنها نیز یک شیء محتوایی هستند، ساخته شده است. متن، تصاویر و اشکالی که در یک مقاله هستند نیز می‌توانند یک شیء محتوایی باشند. نقشه‌ها، نقاشیها، عکسها، و دیگر اشیای غیر متنی نیز شیء محتوایی محسوب می‌شوند. حتی فراداده‌های مربوط به یک شیء محتوایی نیز خود اشیای محتوایی می‌باشند (سازمان ملی استانداردهای اطلاعاتی، 2005).

1. Applied or action research.

2. Technology – based Research.

3. Experimental research.

f (ادامه3 از صفحه قبل) شایان ذکر است، پژوهشهایی که به تعیین میزان اثر بخشی عناصر فرادادهای بر نمایه‌سازی و رتبه‌بندی اشیای محتوایی وب در موتورهای کاوش پرداختهاند، با اندکی تفاوت، از روش تجربی استفاده نموده‌اند (شریف، 1386).

1. Record.

2. Root element.

3. metadata tag.

4. Root element.

5. Embedding.

6. به منظور توصیف، شناسایی و تسهیل کشف صفحات خانگی هر یک از حوزههای فرعی ایجاد شده، با استفاده از ابزارها(Tools) و فرمهای از پیش آماده (Templates) معرفی شده در وب سایت طرح فرادادهای هسته دوبلین، دو پیشینه فراداده‌ای هسته دوبلین در بستر نحوی HTML تولید، و توسط پژوهشگر ویرایش و تکمیل دادهها گردید. سپس این پیشینهها در منبع (Source) صفحات خانگی حوزههای فرعی جاسازی شدند.

7. California Digital Library.

8. گزینش پیشینهها از یک ردة موضوعی، برای فراهم نمودن شرایطی کاملا یکسان در فرایند پژوهش انجام شده است.

9. Subject browsing.

1. File Transfer Protocol.

2. Download.

3. اعتبار پیشینهها ـ از لحاظ ساختار و رعایت قواعد فنی ـ به وسیلة نرم‌افزار ارائه شده از سوی دفتر توسعه شبکه و استانداردهای مارک صورت پذیرفت.

1. Google search engine: http://www.google.com

2. Yahoo search engine and subject directory: http://www.yahoo.com

3. Alexa

4. Lewis

1. Campex.

2.https://www.google.com/accounts/ServiceLogin?service=sitemaps&passive=true &nui=1&continue=http%3A%2F%2Fwww.google.com%2Fwebmasters%2Ftools%2Fsiteoverview&followup=http%3A%2F%2Fwww.google.com%2Fwebmasters%2Ftools%2Fsiteoverview&hl=en

3. این بایگانی (فایل) مبتنی بر XML از طریق تولید کننده پیوسته گوگل (Google Online Sitemap Generator) با آدرس: http://www.xml-sitemap.com تولید شد.

4. http://search.yahoo.com/info/submit.html

5. http://help.yahoo.com/l/us/yahoo/search/urlstatus.html

6. این بایگانیها (فایلها) نیز به وسیلة تولید کننده پیوسته گوگل تهیه گردید.

7. برای معرفی وب‌سایتهای جامعه پژوهش به موتور کاوش یاهو، به دلیل کندی و ضعف روباتها و خزندههای (crawler) این موتور نسبت به گوگل، از روشهای متنوع و مورد تأیید این موتور استفاده شد. این مشکل موجب صرف وقت و زحمت فراوان در حین فرایند پژوهش گردید.

8. Google:

https://www.google.com/accounts/ServiceLogin?service=sitemaps&passive=true&nui=1&continue=http%3A%2F%2Fwww.google.com%2Fwebmasters%2Ftools%2Fsiteoverview&followup=http%3A%2F%2Fwww.google.com%2Fwebmasters%2Ftools%2Fsiteoverview&hl=en

Yahoo: https://login.yahoo.com/config/login_verify2?.src=siteexplorer&.done=http%3A%2F%2Fsiteexplorer.search.yahoo.com%2Fmysites

1. Structured observation.

2. در این پژوهش، منظور راهبردهای جستجو ((Search strategies تعیین شده بر اساس قوانین و توصیههای ارائه شده از سوی موتورهای کاوش گوگل و یاهو است.

3. Basic search.

1. در آزمونهای مربوط به چهار فرضیة پژوهش، α=%5 در نظر گرفته شد.

1. Database-based format.

1. Factor.

1. Application profiles.

مجموعه عناصر فراداده ای (از یک یا چند استاندارد فراداده‌ای)، خط مشی ها، و رهنمودهایی که به منظور کاربردهای خاص (محلی) تعریف شده است (فتاحی و دیگران، 1387).

- پاول، رونالد آر. (1385). روشهای اساسی پژوهش برای کتابداران. ترجمه نجلا حریری. تهران: دانشگاه آزاد اسلامی

- شریف، عاطفه (1386). «بررسی میزان اثر بخشی عناصر ابردادهای بر رتبه بندی صفحات وب توسط موتورهای کاوش». فصلنامه کتابداری و اطلاع رسانی. شماره 38 (تابستان 1386) ]پیوسته[، دسترس‌پذیر:

www.aftab.ir/articles/publications/information/c17c1205315159_ketabdari_va_etelarasani38_p1.php [ 30 آبان 1386].

- رجبعلی بگلو، رضا (1385). «بررسی رابطه وب سنجی و میزان استفاده از عناصر فرادادهای دابلین کور در مجلات الکترونیکی دسترسی آزاد در رشته علوم کتابداری و اطلاع‌رسانی». پایان نامه کارشناسی ارشد کتابداری و اطلاع‌رسانی، دانشکده علوم تربیتی و روانشناسی، دانشگاه شیراز. ]پیوسته[، دسترس پذیر:

http://alpha-5.irandoc.ac.ir/scripts/wxis.exe?a=5:49:42 [ 30 آبان 1386] .

- طاهری، مهدی (1387). «مقایسه کارایی طرح فراداده ای هسته دوبلین و قالب فراداده مارک 21 در سازماندهی منابع اطلاعاتی شبکه جهانی وب». فصلنامه کتابداری و اطلاع‌رسانی، شماره 43 (پاییز 1387) ]پیوسته[، دسترس پذیر:

http://aqlibrary.ir/Issue/ShowOneArticle.aspx?ArticleCode=622

] 14 تیر 1387[.

- فتاحی، رحمتالله (1386). «از آرمانها تا واقعیت: تحلیلی از مهمترین چالشها و رویکردهای سازماندهی اطلاعات در عصر حاضر». فصلنامه کتابداری و اطلاع رسانی، شماره 40 (زمستان 1386) ]پیوسته[، دسترس پذیر:

http://aqlibrary.ir/Issue/ShowOneArticle.aspx?ArticleCode=469

] 14 تیر 1387[.

- فتاحی، رحمت‌الله، مهدی طاهری و فرشته ناقد احمدی (1387). فهرستنویسی رایانهای: مفاهیم، شیوه‌ها، و ابزارهای فهرستنویسی در محیط رایانهای. تهران: کتابدار.

- Alexa: The Web Information Company (2008). "Global Top 500". [online], available at: http://www.alexa.com/site/ds/top_sites? ts_mode=global&lang=none . [14 Dec. 2007].

- Bifet, Albert; Castillo, Carlos (2005). "An Analysis of Factors Used in Search Engine Ranking". [online], available at: http://airweb.cse.lehigh.edu/2005/bifet.pdf. [14 Dec. 2007].

- Campex (2005). "Top Search Engines". [online], available at: http://capmex.biz/resources/top-search-engines .[14 Dec. 2007].

- Google (2006). "Add your URL to Google". [online], available at: http://www.google.com/addurl/. [14 Dec. 2007].

- Google (2008a). "Create your Google Sitemap Online". [online], available at: http://www.xml-sitemaps.com/. [25 May 2008].

- Google (2008a). "Dashboard". [online], available at: https://www.google.com/accounts/ServiceLogin?service=sitemaps&passive=true&nui=1&continue=http%3A%2F%2Fwww.google.com%2Fwebmasters%2Ftools%2Fsiteoverview&followup=http%3A%2F%2Fwww.google.com%2Fwebmasters%2Ftools%2Fsiteoverview&hl=en. [25 May 2008].

- Google (2008b). "Google Webmaster Tools" [online], available at: https://google.com/webmasters/tools/docs/en/about. html. [25 May 2008].

- Henshaw, Robin; Valauskas, Edward J (2001). " Metadata as a Catalyst: Experiments with Metadata and Search Engines in theInternet Journal, First Monday ". [online], available at: www.librijournal.org/pdf/1999-3pp125-131.pdf . [5 Dec. 2007].

- Kelly (2006). "MARC and MARC XML". [online], available at: http://threegee.files.wordpress.com/2006/05/marcxml.pdf. [14 Dec. 2007].

- Lewis, Edward (2008). "Top Ten Search Engines". [online], available at: http://www.seoconsultants.com/search-engines/ .[25 May 2008].

- Luk, Robert, et al (2000). "A Survey of Search Engines for XML Documents".[online], available at: http://www.haifa.il.ibm.com/ sigir00-xml/final-papers/Luk/XMLSUR.htm. [14 Dec. 2007].

- The National Information Standards Organization (2005). “Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies”. [online], available at:

http://www.niso.org/standards/resources/Z39-19-2005.pdf . [5 Dec. 2006].

- Quevedo-Torrero, Jesus Ubaldo (2004). "IMPROVING WEB RETRIEVAL BY MINING THE HTML TAGS FOR KEYWORDS AND EXPLORING THE HYPERLINK STRUCTURES WEB PAGES". Ph. D. Dissertation, Department of Computer Science, University of Houston. [online], available at: ‎http://wwwlib.umi.com/ dissertations/fullcit/3156028‎. [5 Dec. 2007].

- Safari, Mehdi (2005). "Search Engine and Resource Discovery on the Web: Is Dublin Core an Impact Factor". [online], available at: www.webology.ir/2005/v2n2/a13.html . [5 Dec. 2007].

- Sokvine, Lloyd (2000). "An Evaluation of the Effectiveness of Current Dublin Core Metadata for Retrieval". [online], available at: www.vala.org.au/vala2000/2000pdf/Sokvitne.PDF . [5 Dec. 2007].

- Turner, Thomas P.; Brackbill, Lise (1998). "Rising to the Top: Evaluating the Use of the HTML META Tag To Improve Retrieval of World Wide Web Documents through Internet Search Engines". [online], available at: http://cat.inist.fr/?aModele=afficheN& cpsidt=1748620 . [5 Dec. 2007].

- Wikipedia (2008k). "Web search engine". [online], available at: http://en.wikipedia.org/wiki/Search_engines. [25 May 2008].

- Yahoo! (2008a). "Yahoo! Site Explorer". [online], available at: http://en.wikipedia.org/wiki/Yahoo!_Site_Explorer. [25 May 2008].

- Yahoo! (2008b). "Yahoo Search Content Quality Guidelines". [online], available at: http://help.yahoo.com/l/us/yahoo/search/basics/ basics-18.html . [25 May 2008].

- Yahoo! (2008c). "Yahoo! Submit Your Site". [online], available at: http://search.yahoo.com/info/submit.html . [25 May 2008].

- Zhang, Jin; Dimitroff, Alexandra (2004). "Internet search engine's response to metadata Dublin Core implementation ". [online], available at: http://portal.acm.org/citation.cfm?id=1142111 . [5 Dec. 2007].

- Zhang, Jin; Dimitroff, Alexandra (2005a). "The impact of metadata implementation on Webpage visibility in search engine result (Part II)". [online], available at: http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6VC8-4BHCBX4-2&_user=10&_rdoc=1&_fmt=&_orig=search&_sort=d&view=c&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=a853d410a866732d3f8ab5dd3217d412 . [5 Dec. 2007].

- Zhang, Jin; Dimitroff, Alexandra (2005b). "The impact of Webpage content characteristics on webpage visibility in search engine result (Part I)". [online], available at: http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6VC8-4BHCBX4-1&_user=10&_rdoc=1&_fmt=&_orig=search&_sort=d&view=c&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=33927751b92200b392f8c79b950dcdb1 . [5 Dec. 2007].

http://www.archive.org

http://www.dcmixml.islamicdoc.com

http://www.google.com

http://www.marcxml.islamicdoc.com

http://www.yahoo.com