نوع مقاله : مقاله پژوهشی
نویسندگان
1 Bernard J. Jansen
2 Amanda Spink
3 Tefko Saracevic
4 مترجم
چکیده
کلیدواژهها
مقدمه
در سال 1997 کنفرانسی توسط اعضای «گروه علاقه ویژه»[1] در خصوص مطالعات مربوط به بازیابی اطلاعاتی [2] با عنوان «بازیابی اطلاعات در زندگی واقعی: موتورهایجستجوگر بازرگانی» انجام گرفت که نمایندگانی از چندین شرکت خدماترسانی اینترنتی در آن حضور داشتند. در این کنفرانس، «داوکاتینگ»،[3] نمایندة شرکت Excite، یکی از سرویسهای اطلاعرسانی برجسته، نیز حضور داشت. «کاتینگ» پیشنهاد داد برای پیشبرد تحقیقات مجموعهای از پرسوجوهای کاربران را که به شرکت آنها ارائه شده است، در اختیار گروه قرار دهد. تحلیلی که در اینجا بر اساس چگونگی نشستها، پرسوجوها و عبارتهای انجام دادهایم، نتیجة این پیشنهاد سخاوتمندانه است. جالب است بدانیم، دو مؤلف اول این مقاله به طور جداگانه به این موضوع علاقهمند شدند و پس از آشنایی و تبادل اطلاعات از طریق پست الکترونیکی[4]، شروع به همکاری اینترنتی کردند. پس از آن بود که برای اولین بار یکدیگر را در کنفرانس «روتگرز»[5] در فوریه 1998 ملاقات کردند و نتایج کار خود را ارائه دادند. این رخداد به نوبة خود میتواند نمونهای باشد از چگونگی روند تغییر اینترنت و تأثیر آن بر جستجوی اینترنتی.
در قسمت «نتیجهگیری» به این مهم اشاره خواهیم کرد که جستجوی اینترنتی در زندگی واقعی، بازیابی اطلاعات (IR) را نیز تحت تأثیر قرار میدهد. درست است که موتورهای جستجوگر اینترنتی بر اصول IR استوارند، اما جستجوی اینترنتی با جستجوی IR تفاوت بسیاری دارد. جستجوهای اینترنتی از دیرباز از طریق پایگاههای اطلاعاتی آنلاین، سیدیرامها و فهرستهای رایانهای آنلاین (اپک)[6] انجام میگرفته است. بازیابی اطلاعات اینترنتی، گونهای متفاوت از بازیابی اطلاعات است که میتواند تغییرات را به دیگر محیطهای IR گسترش دهد.
افزایش شگفتانگیز میزان استفادة کاربران از وب، موجب شده تا علاقه به انجام مطالعات در خصوص موضوعها و مسائل مرتبط به استفاده از وب نیز افزایش یابد. به عنوان مثال، «کرولا و بستاوروز»[7] (1996) در حوزة سختافزاری، حجم کار از طرف سرویس گیرنده[8] را بررسی کردند و «عبدا...، فاکس و آبرامز»[9] (1997) نیز مطالعهای در خصوص استفاده از سرویسدهندهها[10] انجام دادند. در حوزة نرمافزاری نیز، ارزیابیهای توصیفی بسیاری از موتورهای جستجوی وب ارائه شده است. (به عنوان مثال، «لینچ»[11] (1997). در رابطه با میزان استفاده از وب نیز به طور مرتب مطالعات آماری صورت میگیرد. («کهو و همکاران»[12] 1997 و FIND/SVP، 1997)، اما نتایج روز به روز در حال تغییر است. آثار متعددی نیز اطلاعات مربوط به خدمات متنوع موتورهای جستجوگر وب را تحلیل کردهاند. مقالهای که اخیراً توسط «لورانس و گیلز»[13] (1998) در اینباره ارائه شده، قابل توجه است. الگوی چگونگی استفادة کاربران از وب نیز توسط «هوبرمن، پیرولی، پیتکو و لوکس»[14] (1998) مورد تحلیل قرار گرفته است. با این حال، تا امروز هیچ مطالعة کیفی یا کمی گسترده و تمامعیاری از جستجوی وب انجام نگرفته است.
کاربران چگونه وب را جستجو میکنند ؟ به هنگام جستجو به دنبال چه چیزی میگردند ؟ در این مقاله در جستجوی پاسخی علمی و جامع برای اینگونه پرسشها هستیم. با توجه به افزایش چشمگیر میزان استفاده از وب در سالهای اخیر، نبود چنین مطالعات علمی، هم جای تعجب دارد و هم جای تأسف. در مقابل، در خصوص کاربران اپک مطالعات فراوانی انجام گرفتهاست. بسیاری از این مطالعات در اثر «پیترز»[15] (1993) بازنگری شده است. به همین ترتیب، در خصوص کاربران سیستمهای IR اولیه نیزمطالعات فراوانی صورت گرفتهاست.
با وجود این، در رابطه با کاربران وب تنها دو مطالعة جزئی انجام گرفته است. یکی از این مطالعات بر روی سیستم THOMAS «کرافت، کوک و ویلور»[16] (1995) انجام شده و اطلاعاتی کلی در مورد کاربران آن سایت ارائه داده است. با این حال، این بررسی منحصراً بر روی سایت THOMAS متمرکز شده و به تشریح چگونگی جستجوی وب به شیوهای نظاممند نپرداخته و تنها به ارائة توصیفی از این سیستم بسنده کرده است.
مطالعة دوم توسط «جونز، کانینگام و مکناب»[17] (1995) صورت گرفته که آن نیز تنها بر روی یک سایت ـ سایت کتابخانة دیجیتالی نیوزیلند که شامل گزارشهای تکنیکی از علم رایانه است ـ متمرکز بوده است. با توجه به ماهیت تکنیکی این سایت، جای سؤال است که آیا کاربران آن میتوانند نمایندة کل کاربران آن وب باشند یا خیر. در مقایسه با مطالعات متعددی که در خصوص استفاده از اپک و بازیابی اطلاعات (IR) صورت پذیرفته، در مورد خود کاربران وب مطالعات هرچند اندک اما رو به رشدی در حال انجام است.
در مقالة حاضر، یافتههای حاصل از یک مطالعة گسترده و رو به رشد از رفتار جستجویی کاربران وب ارائه میشود. ما مجموعهای از پایگاههای ثبت وقایع تعاملی جستجوهای کاربران سایت Excite[18] را مورد مطالعه قرار دادهایم. این مطالعه شامل کاربران واقعیاست که پرسوجوهای واقعی انجام دادهاند، نیازهای اطلاعاتی واقعی داشته و از موتور جستجوی واقعی استفاده کردهاند. نقطة قوّت این بررسی این است که برشی واقعی از زندگی وب را شامل میشود. نقطة ضعف آن نیز این است که تنها یک برش را در برمیگیرد ـ مشاهدة مصنوعی از آنچه کاربران به طور واقعی انجام دادهاند، بدون هیچگونه اطلاعاتی از خود کاربران و یا در مورد نتایج کسب شده از جستجوها و استفاده از آنها. کاربران برای ما ناشناخته هستند، اما این امکان وجود دارد که یک یا مجموعهای از پرسوجوهایی را که از یک کاربر ویژه نشأت میگیرند، شناسایی کنیم. تنها نکتهای که در مورد کاربران برای ما آشکار است، زمان موضوع جستجوی آنهاست. گزارشی که ارائه میشود با مشاهدة رفتار مصنوعی آنهاست و هیچ بافتی در اختیار نداریم. با وجود این، مشاهده و تحلیل چنین رفتاری زمینة لازم را برای درک چگونگی رابطة متقابل کاربران و موتور جستجوی وب فراهم میکند. مهمتر اینکه، این بررسی اطلاعات آماری دقیقی از رفتار کاربران وب ارائه میدهد که تا به حال ارائه نشده است؛ همچنین مبنایی خواهد بود برای مقایسه با مطالعات مشابه در خصوص جستجوی کاربران از سیستمهای قدیمیتر IR و اپک.
این وب تعدادی موتور جستجو دارد. رویکردهای جستجو شامل الگوریتمها، نمایشها[19]، شیوههای تعامل و ...، از یک موتور جستجو به موتور جستجوی دیگر متفاوت است. با وجود این، تمامی موتورهای جستجوی وب ابزار بازیابی اطلاعاتی برای جستجوی منابع اطلاعاتی بسیار متنوع و پراکندهای هستند که در وب یافت میشود. اما با توجه به ماهیت منابع وب، ممکن است موارد متعددی پیدا شود که به راهحلهایی متفاوت از آنچه موتورهای جستجو در تمامی سیستمهای سازمانبندیشده پیدا کردهاند، نیاز داشته باشند. به عنوان نمونه، در سیستم DIALOG، یا در آزمایشهای آزمایشگاهی نظیر کنفرانس بازیابی متن[20] (TREC) «اسپارک جونز»[21] (1995). به علاوه، چنانکه میدانیم، کاربران وب جمعیتی گستردهتر و احتمالاً متفاوت را تشکیل میدهند، «اسپینک، بتمن و جانسن»[22] (1999) که نیازهای اطلاعاتی متفاوتی دارند که احتمالاً میتواند بر روی پرسوجوها و جستجوها و تعاملهایشان تأثیر بگذارد. از این رو، مطالعة شباهتها و یا تفاوتهای جستجوهای وب در مقایسه با سیستمهای IR قدیمیتر به طور قابل ملاحظهای در خور توجه است. در هر مورد، سیستم بازیابی اطلاعات متفاوتی وجود دارد. اهمیت این مطالعه، همسطح با مطالعة مشابهای است که در زمینة تعامل، پرسوجو و جستجوهای IR انجام گرفته است. در این بررسی، از تجربیات مطالعات گوناگون کمک گرفته و همواره این اصل کلی را مدنظر قراردادهایم که :
«موفقیت یا عدم موفقیت هر نوع فناوری یا هر سیستم تعاملی به این وابسته است که تا چه حد مسائل مربوط به کاربران - عوامل انسانی- از همان آغاز تا انتها مدنظر قرار داده میشود ؛ از تئوری، مفهومسازی و طرحریزی گرفته تا پیشبرد، ارزیابی و تجهیز خدمات». (ساراسویک[23] 1997).
مطالعات بازیابی اطلاعات مرتبط
در مقالة حاضر، بر روی سه متغیر «نشست»، «پرسوجو» و «عبارت» به عنوان متغیرهای اصلی در تعامل بازیابی اطلاعات در وب تأکید شده است. با اینکه مقالات زیادی با بحث درباره جنبههای مختلف جستجوی وب ارائه شده است، بیشتر آنها جنبة توصیفی، تجویزی یا پیشنهادی دارند. به غیر از دو نمونة مطالعاتی که در قسمت مقدمه ذکر آنها رفت، مطالعة مشابهی در زمینة جستجوی وب پیدا نکردیم. با وجود این، مطالعات چندی انجام گرفته که دادههای خود را از سیستمهای IR موجود که بیشتر سیستمهای بازرگانی هستند، جمعآوری کردهاند. ما نیز دادههای خود را از چنین پایگاههایی انتخاب کردهایم تا برای مقایسة مطالعاتی که بر روی وب صورت گرفته و مطالعاتی که بر روی سیستمهای IR خارج از وب انجام شده، مبنایی داشته باشیم.
مطالعاتی که در زیر آمده، بر روی متغیرها و جنبههای مختلف جستجو تأکید دارد و از آنجا که از روشهای مختلفی در آنها استفاده شده، مقایسة آنها با یکدیگر دشوار است. با وجود این، هر یک از آنها اطلاعاتی در مورد میانگین عبارتهای جستجو شده در پرسوجوها توسط جستجوگران را به دست داده اند. فهرستی از این نوع مطالعات در زیر آمده است:
این مطالعات حاکی از آن است، جستجوهایی که توسط افراد مختلف صورت گرفته بازهای در حدود 7 تا 15 عبارت را در برمیگیرد. چنانکه متعاقباً توضیح داده خواهد شد، این میزان، به طور قابل ملاحظهای از بازهای که در مطالعة حاضر به دست آمده، بیشتر است.
پیشینهای از Excite و دادهها
شرکت Excite که در سال 1994 بنیانگذاری شد، یک شرکت اینترنتی عظیم است که خدمات متعددی از جمله خدمات اینترنتی رایگان را در اختیار عموم قرار میدهد. اطلاعات کامل در خصوص شرکت و خدمات آن در سایت شرکت، به آدرس http://www.excite.com آمده است. از این رو، تنها به ارائة توصیفی از تواناییهای جستجوگرهای این سایت که به مطالعة ما مربوط میشود، بسنده میکنیم.
جستجوهایی که Excite انجام میدهد، بر پایة عبارتهای دقیقی که کاربر در هر پرسوجو وارد میکند، صورت میپذیرد. بزرگ نوشتن حروف، تأثیری در تعبیر یا معنای عبارت ندارد؛ البته به استثنای برخی نشانههای قراردادی که به صورت فرمانهای منطقی به سایت داده میشود، مثل AND، OR یا ANDNOT. سیستم به نرمافزار ریشهیابی عبارات مجهز نیست. یک روش اصطلاحیابی و مفهومسازی تحت عنوان «استخراج هوشمند مفاهیم»[28] به منظور جستجوی عبارتها و پیدا کردن ارتباط بین مفاهیم به کار گرفته میشود تا علاوه بر عبارتهای وارد شده، دیگر موارد مربوط را نیز پیدا کند. نتایج جستجو به صورت رتبهبندی شده نمایش داده میشود. تعدادی مؤلفههای جستجوگر پیشرفته نیز وجود دارند که به طور قراردادی به کار میروند. در ادامه به تعدادی از آنها که به مطالعة ما مربوط است، اشاره میکنیم:
هر رکورد تعاملی ] منظور هر ورود به سایت[ سه حوزه را در بر میگیرد. با مطالعة این سه حوزه میتوانیم پرسوجوی اولیة کاربر را مکانیابی و ترتیب زمانی عملیاتی را که توسط کاربر در هر نشست انجام گرفته است، بازسازی کنیم :
1. زمان مراجعه در روز: بر حسب ساعت، دقیقه یا ثانیه از نیمهشب 9 مارس 1997
2. مشخصات کاربر: کد مربوط به یک کاربر ناشناس که توسط سرویسدهندة Excite تعیین شده است.
3. واژههای پرسوجو شده: دقیقاً به همان شکلی که کاربر وارد کرده است.
با تکیه بر روی سه سطح تحلیل ـ نشستها، پرسوجوها، عبارات ـ این متغیرها را به صورت زیر تعریف میکنیم:
1. نشست: هر نشست مجموعة کامل پرسوجوهایی است که توسط یک کاربر در طول چند دقیقه یا چند ساعت انجام گرفته است. یک نشست میتواند یک پرسوجوی کوتاه یا مجموعهای از چند پرسوجو باشد.
2. پرسوجو: یک پرسوجو شامل یک یا چند عبارت جستجو شده است و ممکن است شامل عملگرهای منطقی و بیانگرها باشد.
3. عبارت: یک عبارت زنجیرهای پیوسته از نویسههاست[32]. ( یعنی مجموعهای از نویسهها که بین آنها هیچ فاصلهای نباشد). نویسههای یک عبارت شامل هر چیزی مثل حروف، اعداد، و علایم میباشد. عبارات میتوانند واژهها، واژههای اختصاری، اعداد، علایم و آدرسهای سایت یا هر نوع ترکیب دیگری باشند. عملگرهای منطقی را که با حروف بزرگ نوشته میشوند، عبارت در نظر میگیریم. با این حال، در تحلیلهای دیگر ممکن است آنها را فرمان تلقی کنیم نه عبارت.
دادههای خام جمعآوری شده در تحلیلما خیلی نامرتب هستند. کاربران عبارات، فرمانها و بیانگرها را به هر شکلی و به هر طریقی وارد میکنند که خود شامل نگارشهای غلط و دیگر اشتباهات میباشد. در موارد بسیاری، قراردادهایی که Excite در نظر گرفته، رعایت نمیشود. در تحقیق حاضر این سرپیچیها از قراردادهای سایت را اشتباه قلمداد کرده و آنها را در بخش تحلیل اشتباه در همین مقاله آوردهایم. در بیشتر موارد، دادهها را به همان صورت اولیه و واقعی خود ثبت کردهایم؛ یعنی به هیچ وجه دادهای را «پاک» نکردهایم. این پرسوجوها نمایندة جستجوهای واقعی کاربران واقعی هستند. تنها مطلوبسازی که در یکی از موارد (عبارتهای منحصر به فردی که نسبت به حروف بزرگ و کوچک حساس[33] نیستند صورت گرفته]فرقی نمیکند که با حروف بزرگ نوشته شده باشند یا با حروف کوچک[، نادیده گرفتن بزرگنویسی کلمات است، زیرا خود سایت Excite نیز این مسئله را نادیده میگیرد. (به عنوان مثال، Topic, TOPIC و topic هر سه پاسخ یکسانی را بازیابی میکنند). Excite سیستم ریشهیابی خودکار ندارد، بنابراین topic و topics دو عبارت منحصر به فرد قلمداد میشوند و گذاردن علایم ‘?’ یا ‘*’ در پایان عبارت به عنوان فرمان ریشهیابی اشتباه است و هر کدام به عنوان عبارتی جدا خوانده میشوند. ما همچنین مجموعهای از عبارتها را پاک کردیم؛ یعنی مثلاً بیانگرهایی چون + و - را در نظر نگرفتیم. در این مقاله، به منظور گستردهتر کردن یافتهها، از منبع «جانسن؛ جانسن و جانسن»[34] کمک گرفته شده است.
نتایج
نخستین مسئلة قابل بحث این است که الگوی پرسوجوهای کاربران چیست ؟ ما تعداد پرسوجوهایی را که توسط هر کاربر خاص انجام شده بود و همچنین تفاوت میان پرسوجوهای متوالی همان کاربر را در نظر گرفتیم. تعداد 51474 پرسوجو را تحت عناوین «منحصر به فرد» [35]، «اصلاح شده»[36] و «همسان»[37] طبقهبندی کردیم که در جدول 1 نشان داده شده است.
جدول 1. پرسوجوهای منحصر به فرد، اصلاح شده و همسان
نوع پرس و جو |
تعداد |
درصد کل پرس و جو |
منحصر به فرد |
098/18 |
35% |
اصلاح شده |
249/11 |
22% |
همسان |
127/22 |
43% |
مجموع |
|
100% |
پرسوجوی منحصر به فرد، اولین پرسوجویی است که توسط یک کاربر صورت گرفته است (که میتواند نشاندهندة تعداد کاربران باشد). پرسوجوی اصلاحشده، پرسوجویی است که به صورت متوالی توسط همان کاربر انجام میگیرد (دومین، سومین،...، جستجو) که میتواند شامل عبارات اضافهشده، حذف شده و یا هر دو حالت، از پرسوجوی منحصر به فرد باشد. پرسوجوهای منحصر به فرد و اصلاح شده بر روی هم نشاندهندة پرسوجوهایی است که کاربر با عبارات انجام دادهاست. پرسوجوهای همسان، پرسوجوهایی هستند که توسط همان کاربر انجام گرفته و با پرسوجوهایی که قبل از آن بوده، همانند است. انجام دو پرسوجوی همسان پشت سر هم، به دو طریق ممکن است. اولین امکان این است که کاربر عبارت پرسوجوی خود را دوباره وارد کند. مطالعات نشان داده است کاربران اغلب این روش را بر میگزینند. «پیترز»[38] (1993). امکان دوم این است که پرسوجو توسط Excite بسط داده شود. هنگامی که کاربر دومین صفحه و صفحات بعدی را از پرسوجوی واحدی مشاهده میکند (هر صفحه شامل 10 نتیجة جستجوست)، Excite یک پرسوجوی دیگر را فراهم میآورد که همسان یا مشابه پرسوجوی قبلی است. تحلیل ما نتوانست ابهام بین این دو عامل پرسوجوهای همسان را رفع نماید. پرسوجوهای منحصر به فرد به علاوة پرسوجوهای اصلاحشده (هنگامی که کاربران فعالانه عبارتها را وارد یا اصلاح میکنند) 29437 پرسوجو یا به عبارتی 57% تمامی پرسوجوها را شامل میشوند. چنانچه فرض کنیم تمامی پرسوجوهای همسان بنا به درخواست کاربر برای دیدن صفحات بعدی باشد، 43% پرسوجوها در نتیجة تمایل خود کاربران برای دیدن صفحات بعدی خواهد بود. اصلاحات و بازدید از صفحات بعدی در دو جدول بعدی بیشتر توضیح داده خواهد شد.
1.اصلاحات
برخی کاربران در هر نشست خود تنها یک پرسوجو و برخی دیگر تعداد متعددی پرسوجوی متوالی را انجام میدهند. یک نشست متداول که هر سه نوع پرسوجو را در بر بگیرد، به طور میانگین 84/2 پرسوجو را شامل میشود. این به معنای تعداد کاربرانی است که خواهان اصلاح پرسوجوی خود یا بازدید از صفحة بعدی و یا هر دوی این حالتها هستند. میانگین طول[39] هر نشست، بدون در نظر گرفتن پرسوجوهای همسان، 6/1 پرسوجو برای هر کاربر است. جدول2، فهرستی از تعداد پرسوجوهای هر کاربر را به دست میدهد.
جدول 2.تعداد پرسوجوهای هر کاربر
پرس و جوهای هر کاربر |
تعداد کاربران |
تعداد کاربران بر حسب درصد |
1 |
12067 |
67 |
2 |
3501 |
19 |
3 |
1321 |
7 |
4 |
583 |
3 |
5 |
287 |
6/1 |
6 |
144 |
80/0 |
7 |
79 |
44/0 |
8 |
32 |
18/0 |
9 |
36 |
20/0 |
10 |
17 |
09/0 |
11 |
7 |
04/0 |
12 |
8 |
04/0 |
13 |
15 |
08/0 |
14 |
2 |
01/0 |
15 |
2 |
01/0 |
17 |
1 |
01/0 |
25 |
1 |
01/0 |
این تحلیل تنها شامل29337 پرسوجوی منحصر به فرد و اصلاح شده است. پرسوجوهای همسان نادیده گرفته شدهاند، زیرا چنانکه ذکر شد، تعبیر معنادار اینگونه پرسوجوها ممکن است، و دلیل آن نیز این است که مشخص نیست آیا خود کاربر درخواست پرسوجوی دوباره را داده یا خیر. اکثریت قابل توجه کاربران (67%) فراتر از پرسوجوی اولیه نمیروند. بنابراین، اصلاح پرسوجو امری رایج نیست. این یافتهها با یافتههایی که از مطالعة سیستمهای IR به دست آمده، متفاوت است زیرا در آن نوع سیستمها اصلاح پرسوجوها امری رایج است. البته با وجود این نیز، 33% کاربران از همان پرسوجوی اولیة خود فراتر نمیروند. به طور تقریبی، 14% کاربران سه یا بیشتر پرسوجو داشتهاند. این ارقام 33 درصدی و 14 درصدی میتوانند به نوبة خود درصد قابل توجهی از کل کاربران سیستمها را شامل شوند. این بدان معناست که درصد قابل ملاحظهای از کاربران وب، کاربرانی تازهکار و معمولی نیستند. این زیرمجموعه از کاربران در جستجوی اطلاعات بیشتری هستند که همین نشان دهندة تجربة بیشتر و یا انگیزة بیشتر آنها از جستجوست.
ما همچنین چگونگی اصلاحات پرسوجو را توسط کاربران مورد بررسی قرار دادهایم. نتایج این بررسی در جدول 3 نشان داده شده است.
جدول 3. تغییرات در تعداد عبارتها در پرسوجوهای متوالی
افزایش در عبارات |
تعداد |
درصد |
0 |
3909 |
76/34 |
1 |
2140 |
03/19 |
2 |
1068 |
50/9 |
3 |
367 |
26/3 |
4 |
155 |
38/1 |
5 |
70 |
62/0 |
6 |
22 |
20/0 |
7 |
6 |
05/0 |
8 |
10 |
09/0 |
9 |
1 |
01/0 |
10 |
4 |
04/0 |
کاهش در عبارات |
تعداد |
درصد |
1- |
1837 |
33/16 |
2- |
937 |
33/8 |
3- |
388 |
45/3 |
4- |
181 |
61/1 |
5- |
76 |
68/0 |
6- |
46 |
41/0 |
7- |
14 |
12/0 |
8- |
8 |
07/0 |
9- |
2 |
02/0 |
10- |
6 |
05/0 |
در اینجا تمرکز ما بر روی 11247 پرسوجویی است که با افزودن یا کاستن تعداد عبارتها از پرسوجوی اول یا پرسوجوی بعدی کاربر ( یعنی پرسوجوهای بعدی توسط همان کاربر در زمان T و T+1 ) اصلاح شده است. تغییرات صفر بدین معناست که کاربر یک یا چند عبارت را در یک جستجو اصلاح کرده، اما تعداد عبارتها را در جستجوهای بعدی تغییر نداده است. افزایش یا کاهش یک عبارت، به معنای افزودن یا کاستن عبارتهای پرسوجوی مرحلة قبل است. درصد نیز بر حسب تعداد پرسوجوها نسبت به کل پرسوجوهای اصلاح شده (11247) محاسبه گردیده است.
مشاهده میشود که کاربران اغلب، عبارتهای پرسوجوی قبلی را کم یا زیاد نمیکنند. اصلاحات بر روی پرسوجوها در گسترة محدودتری اتفاق میافتد. معمولترین شیوة اصلاح، تغییر یک عبارت است. این روش به صورت افزایش یا کاهش صفرِ عبارت در جستجوها نمایش داده میشود. تقریباً یک پرسوجو از هر سه پرسوجویی که اصلاح شده است، همان تعداد عبارات پرسوجوی قبلی را دارد. در 7338 پرسوجوی متوالی باقیمانده که در آنها عبارتها افزوده یا کاسته شده بودند، تقریباً تعداد عبارتهای حذف شده و افزوده شده با هم برابر بود (52-48%). بنابراین کاربران هم از حذف و هم از افزودن عبارتها برای انجام اصلاحات استفاده میکنند. از هر 5 پرسوجوی اصلاح شده، حدود 1 پرسوجو، یک عبارت بیشتر از پرسوجوی مرحلة قبل دارد، و از هر 6 پرسوجوی اصلاح شده، 1 پرسوجو، یک عبارت از مرحلة قبل کمتر دارد.
2.بازدید نتایج
Excite نتایج پرسوجو را در گروههای 10 تایی نمایش میدهد. هر بار که کاربر به گروه 10تایی بعدی ـ که ما آن را صفحهبعدی مینامیم ـ دست مییابد، یک پرسوجوی همسان اتفاق میافتد. ما تعداد صفحات بازدید شده توسط هر کاربر و درصد آن را بر اساس تعداد کل کاربران تحلیل کردهایم. نتایج این تحلیل در جدول 4 نشان داده شده است.
جدول 4. تعداد صفحات بازدید شده توسط هر کاربر
صفحات بازدید شده |
تعداد کاربران |
درصد کل کاربران |
1 |
10474 |
58 |
2 |
3363 |
19 |
3 |
1563 |
9 |
4 |
896 |
5 |
5 |
530 |
3 |
6 |
354 |
2 |
7 |
252 |
1 |
8 |
153 |
85/0 |
9 |
109 |
60/0 |
10 |
85 |
47/0 |
11 |
75 |
41/0 |
12 |
47 |
26/0 |
13 |
31 |
17/0 |
14 |
29 |
16/0 |
15 |
25 |
14/0 |
16 |
28 |
15/0 |
17 |
13 |
07/0 |
18 |
4 |
02/0 |
19 |
14 |
08/0 |
20 |
9 |
05/0 |
21 |
3 |
02/0 |
22 |
4 |
02/0 |
23 |
5 |
03/0 |
24 |
7 |
04/0 |
25 |
4 |
02/0 |
26 |
7 |
04/0 |
27 |
2 |
01/0 |
28 |
3 |
02/0 |
29 |
1 |
01/0 |
32 |
4 |
02/0 |
33 |
1 |
01/0 |
40 |
1 |
01/0 |
43 |
1 |
01/0 |
49 |
1 |
01/0 |
50 |
2 |
01/0 |
55 |
1 |
01/0 |
میانگین تعداد صفحات آزمایش شده توسط هر کاربر برابر است با 35/2. بیشتر کاربران (58% آنها)، به صفحات بعدی رجوع نکردهاند. آیا آنها از نتایج جستجو راضی بوده و به بازدید صفحات بیشتر نیازی نداشتهاند؟ آیا کاربران از میزان دقت کار راضی بودهاند و یا اینکه خسته شده و از جستجو دست برداشتهاند؟ تنها با در دست داشتن پایگاههای تعاملی نمیتوان به پاسخ این پرسشها رسید. اما در هر صورت، با توجه به این نتیجه و همچنین تعداد اندک پرسوجوهای هر نشست، شاید نیاز به بالا بردن میزان دقت و میزان بازیابی الگوریتمهای بازیابی اطلاعات وب ضروری باشد. به عنوان نمونه، استفاده از روش کلاسیک ارزیابی دقت نشان میدهد هر نتیجة جستجویی که رتبهای بالاتر از 10 در فهرست جستجوها داشته باشد، از نظر 58% کاربران بیاستفاده است. دیگر تعبیر ممکن این است که افراد از یافتههای نسبتاً مرتبط در صفحة اول استفاده میکنند تا از جستجوی صفحات بعدی اجتناب نمایند. با توجه به اینکه وب دارای صفحات اطلاعرسانی مرتبط به هم است، یافتههای نسبتاً مرتبط در 10 نتیجة اول جستجو میتواند میانبر یا پرشی باشد برای یافتن موضوعهای مرتبط. به عنوان مثال، کاربری که به دنبال صفحة اصلی سایت یکی از دانشکدههای یک دانشگاه است، ممکن است صفحة اصلی سایت دانشکده را در 10 نتیجة اول پیدا نکند، اما صفحة اول سایت دانشگاه را ببیند. کاربر به جای ادامة جستجو میتواند با انجام عمل مرور[40] از صفحة اصلی سایت دانشگاه، جستجو را ادامه دهد.
3.پرسوجوها
پس از بررسی نشست، به تحلیل پرسوجوها میرسیم. اعداد و ارقام اصلی مربوط به پرسوجوها و عبارتهای جستجو، در جدول 5 نشان داده شده است.
جدول5. تعداد کاربران، پرسوجوها و عبارتها
تعداد کاربران |
تعداد کل پرس وجوها |
عبارتهای غیرمنحصربهفرد |
میانگین تعداد عبارتها در هر پرس و جو |
18113 |
51473 |
113793 |
(10-0) 21/2 |
پرسوجوها بر اساس طول (تعداد عبارتها)، ساختار (استفاده از عملگرهای بولی و بیانگرها) و تحلیلهای اشتباه (انحراف از قواعد منتشر شده در ساختار پرسوجو) مورد تحلیل قرار گرفتهاند. همچنین، تعداد کاربرانی که از منطق بولی و بیانگرها استفاده کردهاند، تعیین شده است.
1-3. طول
به طور میانگین، یک پرسوجو 21/2 عبارت را در بر میگیرد. جدول6، رتبهبندی تمامی پرسوجوها را بر اساس تعداد عبارتها نشان داده است.
جدول 6. تعداد عبارتها در پرسوجوها
عبارتها در هر پرس و جو |
تعداد پرس و جوها |
درصد کل پرس و جوها |
10 |
185 |
36/0 |
9 |
125 |
24/0 |
8 |
224 |
44/0 |
7 |
484 |
94/0 |
6 |
617 |
1 |
5 |
2158 |
4 |
4 |
3789 |
7 |
3 |
9242 |
18 |
2 |
16191 |
31 |
1 |
15874 |
31 |
0 |
2584 |
5 |
ارقام مربوط به درصد، درصد پرسوجوهایی است که آن تعداد عبارت مربوط به تعداد کل پرسوجوها را دارا میباشند. پرسوجوهای وب کوتاه هستند. حدود 62% از کل پرسوجوها، یک یا دو عبارت را در بر میگیرند. کمتر از 4% آنها نیز بیش از 6 عبارت دارند. همانطور که گفته شد، نمیتوانستیم غیر از این دادهها، دادههای دیگری از یک موتور جستجوگر اصلی وب به دست آوریم، بنابراین چنانچه بخواهیم مقایسهای داشته باشیم، تنها میتوانیم نتایج دو بررسیای را که توسط «کرافت و جونز» انجام گرفته، با هم مقایسه کنیم. طول پرسوجویی که در بررسی ما آمده، با نتایج حاصل از این دو مطالعه یکی است، اما این نتیجه با نتایج جستجوهای سیستمهای IR قدیمی متفاوت است. چنانکه نشان داده شده، میانگین عبارتهای جستجوی مورد استفاده در سیستمهای IR معمولی بین 7 تا 15 متغیر است. این رقم سه تا هفت برابر بیشتر از میانگینی است که در مطالعة ما به دست آمده است؛ البته نتیجة ما قابل استنادتر است، زیرا عملگرها را نیز به شمار آوردهایم. مسلماً شرایط و بافت جستجوهای انجام شده توسط کاربران سیستمهای IR نظیرDIALOG و جستجوهای وب که کاربر زیادی دارد، بسیار با یکدیگر متفاوت است. از این رو، مقایسه این دو، نتیجة چندانی در بر ندارد.
2-3. بازخورد ربط
در مورد پرسوجوهای صفر عبارتی (آخرین ردیف جدول 6) نکتهای قابل ذکر است. چنانکه گفته شد، هنگامی که یک کاربر فرمانی را به یک بازخورد (مثل "more like this") ربط میدهد، پایگاه تعاملی Excite آن را یک پرسوجو قلمداد میکند، اما پرسوجویی با صفر عبارت. بنابراین، ردیف آخر نشان دهندة پرسوجوهای محتملتری است که در آنها از بازخورد ربط استفاده شده و یا نشان دهندة ترکیبی از این نوع پرسوجوها و پرسوجوهایی است که در آنها کاربران مرتکب اشتباهی شدهاند که این نتیجه را باعث شده است. با فرض اینکه تمامی آنها بازخورد ربط باشد (یعنی اشتباهی رخ نداده باشد) تنها در 5% پرسوجوها از این مؤلفه استفاده شده است،که با توجه به قابلیت بالای بازخوردها این رقم، رقم پایینی است. در مقایسه با مطالعهای که در خصوص جستجوهای IR توسط جستجوگرهای حرفهای انجام شده است، به این نتیجه رسیدهاند که در حدود 11% عبارتهای جستجو از بازخورد ربط آمدهاند. «اسپینک و ساراسیویک (1997).[41]
البته در این مطالعه به بازخوردهای ربطی که توسط انسان انجام گرفته توجه شده است. بنابراین، در این دو بررسی، بازخوردهای ربط مورد استفاده در وب نصف بازخورد ربط مورد استفاده در جستجوهای IR است. همین نتیجه لزوم مطالعات بیشتر را نشان میدهد، بویژه با توجه به میزان استفادة کم از این مؤلفة بسیار کارآمد و بسیار در خور توجه.
3-3. ساختار
در مرحلة بعد، ساختار پرسوجوها را مورد بررسی قرار دادیم. در وهلة اول، به این مسئله پرداختیم که چه تعداد از 51473 پرسوجو صریحاً از عملگرهای بولی یا بیانگرها استفاده میکند (جدول 7 را ببینید).
جدول 7. استفاده از عملگرهای بولی و بیانگرها در پرسوجوها
عملگر یا بیانگر |
تعداد پرسوجوها |
درصد کل پرسوجوها |
اشتباه |
درصد اشتباه |
AND |
4094 |
8 |
1309 |
32 |
OR |
177 |
34/0 |
46 |
26 |
ANDNOT |
105 |
20/0 |
39 |
37 |
( ) |
273 |
53/0 |
0 |
0 |
+ (جمع) |
3010 |
6 |
1182 |
39 |
- (منها) |
1766 |
3 |
1678 |
95 |
“ ” |
3282 |
6 |
179 |
5 |
ستون دوم تعداد پرسوجوهایی را نشان میدهد که در آنها از عملگر بولی یا بیانگرها استفاده شده است. ستون بعدی درصد این ارقام را نسبت به کل پرسوجوها نشان میدهد. ستون چهارم، نمایانگر تعداد پرسوجوهایی است که از عملگری ویژه یا بیانگری ویژه استفاده کردهاند که مطابق قواعد Excite نبوده است ـ این موارد را میتوان اشتباه محسوب کرد. ستون آخر درصد پرسوجوهایی است که عملگر یا بیانگر اشتباه ( یا نابجا) را دارند. در مورد اشتباهات، در بخش بعدی بحث میشود.
جدول 7 نشان میدهد که عملگر بولی زیاد مورد استفاده قرار نمیگیرد و دیگر اینکه AND بیشترین کاربرد را دارد. ارقام جدول به وضوح از نتایجی که «جونز و همکاران» (1998) ارائه دادند، کمتر است. همچنین از ارقام حاصل از مطالعة سیستمهای IR و اپک نیز کمتر میباشد. ]کرافت و همکاران (1995) این اطلاعات را گزارش ندادند[. بیانگرها به نسبت بیشتر مورد استفاده قرار گرفتهاند، و دو بیانگر’ +‘ و " " بیشترین کاربرد را داشتهاند. به عنوان مثال، بر اساس آنچه تا به حال در این مقاله دیدیم، تعداد زیادی پرسوجو داریم که بسیار کوتاهند، بندرت اصلاح شدهاند و ساختار بسیار سادهای دارند. با این حال، اکثریت قریب به اتفاق کاربران پس از 10 نتیجة اول به سراغ دیگر نتیجهها نرفتهاند. آیا میزان بازیابی و دقت Excite تا این حد بالاست یا اینکه مسئله چیز دیگری است؟ یک تعبیر میتواند این باشد که کاربران تنها نگاهی به صفحة اول میاندازند تا ببینند جستجویشان تا چه حد موفق و یا ناموفق بودهاست و به جای اینکه با صرف زمان لازم سعی در پی بردن به روش کار Excite داشته باشند، به آزمایش و خطا دست میزنند و بعد سعی میکنند از آنچه به دست آوردهاند، به این نتیجة کلی برسند که اشتباه کارشان در کجا بوده است.
4-3.تعداد کاربران
در جدول 8، برآورد کردهایم که از میان 18113 کاربر چه تعداد از منطق بولی (چهار ردیف اول) یا بیانگر ( سه ردیف آخر ) در جستجوهای خود استفاده کردهاند. (بدون در نظر گرفتن تعداد پرسوجوهایی که انجام دادهاند).
جدول 8. استفاده از منطق بولی و بیانگرها توسط کاربران
عملگر یا بیانگر |
تعداد کاربرانی که از عملگر یا بیانگر استفاده کردهاند |
درصد کل کاربران |
اشتباه |
درصد اشتباه |
AND |
823 |
5 |
418 |
50 |
OR |
39 |
0 |
11 |
28 |
ANDNOT |
47 |
0 |
9 |
19 |
( ) |
120 |
1 |
0 |
0 |
+ (جمع) |
826 |
5 |
303 |
30 |
- (منها) |
508 |
3 |
362 |
38 |
“ ” |
1019 |
6 |
32 |
0 |
سپس میان این ارقام و تعداد پرسوجوها ارتباط برقرار کردیم. ستون مربوط به «اشتباهات» به معنی تعداد کاربرانی است که دچار اشتباه شدهاند؛ یعنی از قواعدی که در دستورالعمل Excite برای چگونگی استفاده از عملگرها و بیانگرها آمده، پیروی نکردهاند. درصد اشتباهات نیز نشان دهندة نسبت کاربرانی است که از بیانگر یا عملگر اشتباهی استفاده کردهاند. تعداد کاربرانی که از عملگرهای بولی استفاده کردهاند، خیلی پایین است. تنها 6% از 18113 کاربر، از یکی از قابلیتهای بولی استفاده کردهاند و تعداد پرسوجوهای آنها نیز کمتر از 10% کل 51473 پرسوجوست. درصدی جزئی از کاربران و پرسوجوها نیز از OR یا ANDNOT استفاده کردهاند. تنها حدود 1% کاربران و 2/1% پرسوجوها از منطق لانهگزینی[42] که از طریق اعمال پرانتز بیان میشود، استفاده کردهاند. میزان استفاده از بیانگرهای ’+ ‘و ’- ‘نیز به اندازة استفاده از عملگر بولی بوده است. این دو بیانگر بر روی هم توسط 1334 کاربر (7% کاربران) در 4776 پرسوجو (9% پرسوجوها) به کار برده شده است. از علامت نقل قول در دو طرف عبارت به منظور ساختن عبارت زبانی[43] نیز تنها در 6% پرسوجوها و توسط 6% کاربران استفاده شده است. این نتایج نشان میدهد تنها تعداد اندکی از کاربران به دنبال پرسوجوهای ظریفتر و پیشرفتهتر هستند. حدود 5% کاربران 5/8% پرسوجویی را داشتهاند که عملگرهای بولی را شامل میشده است. در مورد نتایج پیچیدة این یافته در طراحی سیستم، در ادامة این مقاله بحث خواهد شد.
تحلیل اشتباهات
در مرحلة بعد، به بحث و تحلیل شمار بالای کاربردهای نابهجا و اشتباه پرداختیم. 50% در استفاده از AND و 28% در استفاده از OR دچار اشتباه شدهاند، و تنها 19% ANDNOT را نابهجا به کار بردهاند. اما مسئله اینجاست که تنها 47% کاربرها ـ که درصد پایینی است ـ در کل از ANDNOT استفاده کردهاند. رایجترین اشتباه استفاده نکردن از حروف بزرگ در عملگر بولی ـ چنانکه Excite اقتضا میکند ـ بود. به عنوان مثال، یک پرسوجوی صحیح به این صورت است: اطلاعات AND پردازش. اما معمولاً این عبارت به اشتباه به صورت : اطلاعات and پردازش، وارد میشود. نگاهی به پرسوجوها نشان میدهد 32% آنها در کاربرد AND، 26% در OR و 37% در ANDNOT اشتباه داشتهاند. ‘AND’ بیشترین احتمال اشتباه را دارد و به همین دلیل به تحلیل بیشتری نیازمند است. ما تعداد 4094 پرسوجو را که از AND به هر شکلی ( مثلاً به صورت ‘AND’، ‘ and ‘، ‘ And’ ) استفاده کرده بودند، در نظر گرفتیم. در برخی پرسوجوها بیش از یک AND موجود بود. در کل تعداد4828 شکل متفاوت از AND وارد شده بود : 3067 ورودی به صورت ‘AND’، 41 ورودی به صورت ‘And’ و 1720ورودی به صورت ‘and’. طبق عملگرهای بولی، دو کاربرد آخر و یا تعداد 1761 ورودی اشتباه بوده است؛ یعنی بیشتر ورودیها. در تعدادی از پرسوجوها ‘and’ به عنوان یک حرف ربط به کار برده شده است؛ مثلاً در پرسوجوی : سیاست دانشگاه and دانشکده. متأسفانه، امکان تشخیص اینکه آیا کاربر به عمد از بیانگر ‘and’ به عنوان حرف ربط استفاده کرده یا به اشتباه، ممکن نیست ؛ بنابراین تشخیص کاربردهای اشتباه AND دشوار است.
در مورد استفاده از عملگرهای + و – نیز درصد اشتباه بالا بود. این دو به ترتیب 30% و 38% کاربرد اشتباه داشتهاند. در بیشتر موارد، فاصلهها اشتباه تایپ شده بود. بیانگر ـ بخصوص بسیار مشکلساز است، زیرا در عباراتی چون pre-teen نیز به کار میرود. بنابراین، تشخیص کاربرد اشتباه این بیانگر نیز دشوار است. این امر کاملاً بدیهیاست که کاربران وب از منطق بولی زیاد استفاده نکرده و حتی تمامی قواعد جستجو را نیز رعایت نمیکنند. حداقل کار ممکن این است که سیستم دوباره طراحی شود. رایجترین اشتباه، آوردن عبارت جستجو به صورت زنجیرهای پشت سر هم است. به عنوان مثال، اگر یک پرسوجوی صحیح به این صورت باشد: + اطلاعات + پردازش، صورت اشتباه آن به این صورت وارد میشود: +اطلاعات+پردازش (بدون گذاشتن فاصله میان اطلاعات و + بعدی). قواعد ثابت فاصلهگذاری بین عملگرهای بولی و بیانگر بعدی میتواند این مشکل را حل کند. به هنگام استفاده از عملگر بولی، رعایت فاصله بین عملگر و عبارت ضروری است. اما به هنگام استفاده از بیانگرها، فاصله ضروری نیست.
تعداد زیادی از پرسوجوها نیز دیده میشوند که از فناوریهایی برای جستجو استفاده کرده بودند که مورد حمایت Excite نبود. این اشتباهات به عنوان اشتباهاتی طبقهبندی میشوند که کاربر از اطلاعات خود در مورد سایر موتورهای جستجو، مانند دیگر وبها، سیستمهای اپک یا IR استفاده کرده است. به عنوان مثال، 26 مورد استفاده از عملگر همجواری NEAR مشاهده شد. در 79 مورد از ‘:’ به عنوان جداکنندة عبارتها استفاده شده است. نشانة ‘&’ نیز در بیش از 200 مرتبه به جای AND به کار رفته است. این علایم در دیگر موتورهای جستجو متداول هستند.
عبارتها
ما همچنینپرسوجوها را بر اساس عبارتهایی که وارد کردهاند، تحلیل کردیم. یک عبارت مجموعهای از نویسههاست که با فاصلههای خالی به دنبال هم میآیند. در کل 113793 عبارت موجود بود. (تمام عبارتهای تمام پرسوجوها). پس از حذف عبارتهای تکراری، 21862 عبارت منحصر به فرد باقی ماند که به حروف بزرگ و کوچک حساس[44] نبودند ]فرقی نمیکند که با حروف بزرگ نوشته شدهباشند یا با حروف کوچک[. در این توزیع، عملگرهای منطقی AND، OR، NOT نیز هر کدام یک عبارت محسوب شدند، زیرا نه تنها به عنوان عملگر به کار رفته بودند، بلکه کارکرد حروف ربط را نیز داشتند. (مانند نمونهای که از ‘and’ مثال زدیم، و شکلهای مختلف آن را نیز ارائه دادیم. بنابراین حذف صورتهای نامربوط به راحتی انجام گرفت). عبارتها از سه منظر «میزان رخداد»، «سازگاری با پراکندگیهای شناختهشده» و «طبقهبندی موضوعی» بررسی شدند.
1. میزان رخداد
تمامی 113793 عبارت را از لحاظ فراوانی در جدولی رتبهبندی کردیم. از میان آنها عبارتهایی را که فراوانی بالایی ( 100 بار یا بیشتر ) داشتند، انتخاب کردیم. به جدول 9 نگاه کنید.
جدول 9. فهرست عبارتهایی که بیش از 100 رخداد داشتهاند
فراوانی عبارت فراوانی عبارت فراوانی عبارت
74 عبارتی که 100 بار یا بیشتر در تمامی جستجوها مورد استفاده قرار گرفته بودند، در کل 20698 بار در عبارتهای جستجو ظاهر شده و تنها 34% کل عبارتهای منحصر به فرد را شامل میشدند. با وجود این 2/18% کل 113776 عبارت جستجو در تمامی پرسوجوها را در بر میگرفتند. اگر 9121 رخداد 11 عبارت معمولی را که به تنهایی معنایی ندارند (a , & , or , to , on , + , and , of , the , in , for ) حذف کنیم، 63 عبارت باقی میماند که فراوانی آنها برابر با 11557 رخداد است؛ یعنی 29%، عبارتهای موضوعی منحصر به فردی که 3/10% کل عبارتهای تمامی پرسوجوها را شامل میشود. ظهور بالای ‘+’ نشان دهندة احتمال بروز اشتباه است ـ گذاشتن فاصله بین این نشانه و عبارت کناری، طبق قواعد Excite احتمال اشتباه را کم میکند.
به همین ترتیب ‘&’ نیز اغلب در حروف اختصاری مثل AT & T به کار برده شده است، اما به عنوان جانشینی برای AND در عملگرهای منطقی نیز به کار میرود، نظیر Ontanio & map. در مورد دوم، این کاربرد اشتباه است و به عنوان یک عبارت مجزا قلمداد میشود. از طرف دیگر، 9790 عبارت داریم که تنها یک بار ظاهر شدهاند. این عبارتها 78/44% عبارتهای منحصر به فرد و 6/8% کل عبارتها همة پرسوجوها را تشکیل میدهند. زنجیرة پایانی عبارتهای منحصر به فرد میتواند خیلی طولانی باشد، از این رو مستلزم مطالعات زبانشناختی است. در حقیقت، تمامی حوزة مربوط به پرسوجوهای زبانی به بررسی بیشتر نیاز دارد. تا به حال مطالعات جامعی از عبارتها، پراکندگی عبارتها، اصلاحات و بازنگری عبارتها ودیگر مسائل مربوط صورت نگرفته است. چنین مطالعاتی در بهبود سیستم IR و توسعة سایتهای وب بسیار تأثیرگذار خواهد بود.
2. مقولههای عبارت
به منظور پیدا کردن موضوعهای غالب جستجو شده، 63 موضوع عمده را که بیشتر مورد کاوش قرار گرفته بودند، طبقهبندی کردیم. بدیهی است، این طبقهبندی اختیاری است. با این حال، نمایی کلی از موضوعات کاوش شده را به دست میدهد. موضوعات عمدة کاوش شده، در جدول زیر نشان داده شده است.
جدول 9.
مقوله |
عبارتهای انتخابی از 63 عبارت با بسامد 100 و بیشتر |
بسامد مقوله |
درصد بسامد درمیان 63 عبارت |
درصد کل عبارتها |
جنسی |
sex, nude, gay, xxx, pussy, naked, erotic, porno adult, porn, anal, |
2862 |
72/24 |
51/2 |
توصیفگرها |
free, new, big, real, black, young, De, high, page |
1902 |
42/16 |
67/1 |
مکان
|
state, American, home, world york, texas, florida, city |
1144 |
88/9 |
01/1 |
اقتصاد
|
employment, jobs, company, business, service, stock, state, car |
968 |
36/8 |
85/0 |
تصاویر |
pictures, pics, photos, video |
906 |
82/7 |
80/0 |
اجتماعی |
Chat,stories, celebrities, games, john |
804 |
94/6 |
71/0 |
تحصیلی |
university, college, school, history |
758 |
54/6 |
67/0 |
جنسیت |
woman, girls, men |
648 |
59/5 |
60/0 |
جدول 10. مقولات موضوعی عبارتهایی که بیش از 100 بار ظاهر شدهاند.
مقوله |
عبارتهای انتخابی از 63 عبارت با بسامد 100 و بیشتر |
بسامد مقوله |
درصد بسامد درمیان 63 عبارت |
درصد کل عبارتها |
ورزش |
naca, basketball, wrestling |
477 |
12/4 |
42/0 |
رایانهای |
software, computer, internet |
437 |
77/3 |
38/0 |
اخبار |
magazine, news, war |
361 |
12/3 |
32/0 |
هنرهای زیبا |
music, art |
310 |
68/2 |
72/0 |
حدود 25% عبارتهایی که بیشترین ورودی را داشتهاند، به مسائل جنسی[45] مربوط میشدند. با این حال، این میزان کمتر از 3% کل عبارتها است. البته، اگر عبارتهایی را که زیرمقولة “Gender” قرار میگیرند به مقولة “sextual” اضافه کنیم، این درصد بالاتر خواهد بود. بررسی عبارتهای باقیمانده نشان داد عبارتهایی که به اشتباه زیر این مقوله قرار میگیرند، چندان زیاد نیست. در نظر گرفتن تمامی این موارد، بسامد عبارتهای مربوط به مسائل جنسی را بالا میبرد، البته نه خیلی. با توجه به فراوانی 63 عبارت پر بسامد، فراوانی مقولة جنس از دیگر مقولهها بیشتر است. با وجود این، هنوز سه عبارت از هر چهار عبارتی که جزء 63 عبارت پر بسامد قرار میگیرند، به مسائل جنسی مربوط نیستند. با در نظر گرفتن فراوانی تمامی عبارتهای به کار رفته، میتوان برآورد کرد که از هر 40 عبارت 39 عدد آن به مسائل جنسی مربوط نیست.
با اینکه مقولة مسائل جنسی وسعت زیادی دارد، در مقایسه با دیگر مقولهها نمیتوان گفت که حوزة جستجو را تحت سلطه قرار داده است. دیگر مقولهها نیز درصد بالایی را به خود اختصاص دادهاند. از 63 عبارت پر بسامد، 16% آن توصیفگرها (آزاد، تازه، بزرگ،...)، 10% آن مکانها (ایالت، امریکایی،...)، 8% آن مسائل اقتصادی (استخدام، شغل،...) و باقیمانده نیز مسائل اجتماعی، آموزشی، ورزشی، ریاضیات و هنر بودهاند. جستجوی وب علاقة شخصی افراد را پوشش میدهد و بسیار متنوع است. با توجه به این نکته، تکیه به این مسئله که بیشترین موضوع جستجو به مسائل جنسی مربوط میباشد، غیر قابل استناد نیست. دو گروهبندی عمدة دیگر وجود دارد که در جدول قید نشده، اما قابل ذکر است. اول اینکه، تعداد 1393 پرسوجو برای یافتن یو.آر.ال های متعدد]آدرسهای متعدد سایت[ انجام گرفته است. چنانچه بخواهیم این جستجوها را در یک مقوله جمعبندی کنیم، ممکن است مقولة بزرگی را به خود اختصاص دهد. گروه دوم، در جستجوی اطلاعات رسانهای ( چون تصاویر، ویدئوها، پوشههای صوتی ) بودهاند، که تعداد 708 پرسوجو را شامل میشود، که بسیاری از این عبارتها با قالب[46] خاصی وارد شدهاند.
3. پراکندگی عبارتها
در زیر، گراف پراکندگی رتبه ـ فراوانی تمامی عبارتها نشان داده شده است. (شکل1).
|
(شکل 1)
توزیع نهایی عبارتها در دو انتهای گراف ـ دو انتهایی که عبارت بالاترین رتبه و پایینترین رتبه را دارد ـ نا متعادل است. در نواحی مرکزی و پائینتر، گراف از شیب معمولی پراکندگی زیف[47] پیروی میکند که خود نشان دهندة پراکندگی واژهها در متنهای طولانی انگلیسی است. در آغاز، گراف شیب ملایمی دارد، و هر چه به پایان گراف نزدیک میشویم، ناپیوستگی و پایانههای طولانی غیر معمولی را میبینیم، که نمایانگر عبارتهایی است که فراوانی یکسانی دارند. یک خط مایل با معادلیابی متعاقب[48] بر روی گراف ترسیم شده است. این خط مایل به طور تقریبی پراکندگی زیف را نشان میدهد. یک پراکندگی زیف ایدهآل، خط مستقیمی با شیب 1- است. در مورد عبارتهایی که فراوانی بیشتری دارند، ترسیم خط مایل به راحتی ممکن نیست زیرا تعداد عبارتهایی که تنها یک یا دو بار اتفاق میافتند بسیار زیاد است.
جای تردید است که آیا تعداد بیانگرها (’+‘، ’-‘، " و... ) و تعداد پرسوجوهایی که دارای عبارت زنجیرهای هستند (نظیر + اطلاعات + پردازش + مجله) تأثیری بر روی پراکندگی رتبه ـ فراوانی دارد یا خیر؛ بدین معنا که آیا تعداد بیانگرها، نویسههای پراکنده و عبارتهای پراستفاده باعث به وجود آمدن چنین زنجیره طولانی از عبارتهای تک رخدادی شدهاند؟ بنابراین، تصمیم گرفتیم تمامی عبارتها را پاک و نمودار «رتبه ـ پراکندگی» را از نو ترسیم کنیم. بدین منظور، تمامی بیانگرها را حذف و تمامی عبارتهایی را که به وضوح به هم زنجیره شده بودند، جدا کردیم. با توجه به ماهیت متغیر عبارتها، این عمل به طور خودکار ممکن نیست. به عنوان مثال، نمیتوانیم تنها بیانگر‘+’ را از تمامی عبارتها حذف کنیم، زیرا برای نمونه در عبارت c++ ( که یک زبان برنامهنویسی است ) ‘+’ بخشی از یک عبارت معتبر و تعریف شده است. در فرایند پاکسازی، تمامی 113793 عبارت به طور کیفی مورد بررسی قرار گرفت. در بیشتر موارد، به طور جداگانه تصمیم گرفته شد عبارتی پاک شود یا خیر. در مواردی که تردید داشتیم، عبارت را تغییر ندادیم. پس از مرحلة پاکسازی، گراف رتبه-فراوانی دیگری رسم کردیم که در شکل 2 نشان داده شده است.
|
(شکل2)
روی هم رفته، گراف جدید همان ویژگیهای گراف اول را داراست، تعداد کمی از عبارتها از مقیاس پایینتر هستند، نمودار میانة نسبتاً گستردهای دارد و در پایان به چندین بخش مسطح[49] ختم میشود. تنها تغییر قابل ذکر، تغییر در طول بخشهای مسطح است که برخی کوتاهتر و برخی بلندتر شدهاند. خط مایل نیز دوباره به طور تقریبی پراکندگی زیف را نشان میدهد و تنها شیب آن اندکی افزایش یافته است. در اینجا نیز پایانة گراف، مشابه پراکندگی زیف است. این نکته، لزوم مطالعة بیشتر نقاط انتهایی گراف پراکندگی رتبه ـ فراوانی را مشخص میسازند. همچنین محققان درمییابند که پاکسازی عبارتها تنها هدردادن انرژی است، زیرا پراکندگیها تغییر محسوسی نمیکنند. در جدول 11، دادههای اولیه پراکندگی رتبه-فراوانی و گراف پاکسازی شده مقایسه گردیده است.
جدول 11. مقایسة عبارتهای اصلی و عبارتهای پاکسازی شده
اندازهها |
اصلی |
پاکسازی شده |
درصد تغییرات |
تعداد کل عبارتها |
113793 |
117608 |
35/3 |
عبارتهای منحصر به فرد |
21862 |
18942 |
36/13- |
عبارتهایی که تنها یک بار رخ دادهاند |
9790 |
7805 |
28/20- |
عبارتهایی که 100بار یا بیشتر رخ دادهاند |
73 |
91 |
66/24 |
شکل 3، گراف اولیة پراکندگی رتبه ـ فراوانی و گراف پاکسازی شده را همراه با خطوط مایل نشان میدهد.
(شکل3)
4. خلاصهای از نتایج
در مقالة حاضر 51437 پرسوجوی صورتگرفته توسط 18113 کاربر، تحلیل گردید که بر روی هم شامل 113776 عبارت میشد.از این تعداد، 21862 عبارت، منحصر به فرد (بدون در نظر گرفتن بزرگنویسی حروف) بودند. مهمترین یافتههای حاصل از این تحقیق به قرار زیر است :
نتیجهگیری و مطالعات بیشتر
در این بررسی، نمونههای بسیاری از جستجوهای وب که از پرسوجوهای سایت Excite انتخاب شده بود، تحلیل گردید. با وجود این، این بررسی تنها نقطة شروعی است برای مطالعات مشابه. تحلیل خود را بر روی نمونة جدیدی از بیش از یک میلیون پرسوجو انجام دادیم. نتایج حاصل از این بررسی با مطالعات گستردهتر قبلی مقایسه میشوند تا شباهتها و تفاوتها آشکار گردد. در این مطالعة گسترده، بسیاری از سؤالهای تحقیق که در این مقاله مطرح شدند، مورد بررسی قرار خواهند گرفت. با وجود اینکه موتورهای جستجوی وب از اصول اولیة بازیابی اطلاعات (IR=) پیروی میکنند، کاربران جستجوی وب با کاربران سیستمهای IR قدیمتر نظیر کاربران DIALOG و یا کاربران (فرضی) TREC تفاوت چشمگیری دارند. این سیستم هنوز هم نوعی سیستم IR است ولی تفاوتهای بسیاری با آن دارد. واضح است که کاربران وب تمایل چندانی برای بهکارگیری عملگرهای بولی و دیگر ابزار پیشرفتة جستجو ندارند و اغلب نتایج جستجویی را که در صفحات بعدی پس از صفحه یا صفحات اول ظاهر میشود، مرور[51] نمیکنند. این حقایق به خودی خود بر لزوم طراحی مجدد سیستمهای بازیابی اطلاعات وب، موتورهای جستجو و حتی سایت وب تأکید میکنند، به طوریکه این طراحی مجدد بهطور قابل ملاحظهای با طرحهای سیستمهای IR به گونهای که اکنون وجود دارند، تفاوت داشته باشد. همچنین، این حقایق از نیاز به مطالعة بیشتر و عمیقتر ویژگیهای کاربران وب حکایت دارند، به طور مثال:
پر واضح است، وب یک فناوری جدید بسیار شگفتانگیز است. این امر که مؤلفان این مقاله نیز از طریق وب با یکدیگر همکاری داشتهاند، نشان دهندة قابلیت بالقوة این فناوری است. پیشبینی اینکه افراد چگونه با فناوری جدید برخورد میکنند، هیچگاه ممکن نیست. تأثیری که فناوری جدید بر روی سیستمهای موجود میگذارد نیز قابل پیشبینی نیست. در مورد وب نیز دقیقاً چنین وضعیتی وجود دارد. این امکان وجود دارد که کاربران وب به طریقی از آن استفاده کنند که هیچگاه مد نظر طراحان و پژوهشگران IR نبودهاست.
3. http://www.excite.com
2. Fenichel: Novice searchers.
3. Hsieh-yee: Familiar topics: Novices.
1. Bates, Wilde and Siegfried: Humanities scholars.
2. Spink and Saracevic: Experienced searchers.