نوع مقاله : مقاله پژوهشی
نویسنده
دانشجوی دکترای کتابداری واطلاع رسانی دانشگاه فردوسی مشهد
چکیده
کلیدواژهها
حرف اول: هستی شناسی وب
به منظور کاهش مشکلاتی چون محدودیت دامنة معنایی و انعطاف پذیری اندک نظامهای ذخیره و بازیابی، همچنین افزایش قابلیتهای استنتاج در نظامها، حرکتهایی به سمت نظامهای بازنمون دانش جدید در جریان است. این حرکتها که بیشتر در حوزة هوش مصنوعی مشاهده میشود، با ظهور کتابخانههای دیجیتال و اندیشة وب معنایی، رنگ دیگری به خود گرفته است. تحقیقات در زمینة هستیشناسیها[1] به عنوان ابزارهای جدید بازنمون دانش، از جمله این حرکتهاست (شریف، 1385، ص 67). هستیشناسیها به منزلة ابزار بازنمون دانش در نظامهای ذخیره و بازیابی، استفاده میشوند (ونگ و دیگران[2]، 2006) و آن را مجموعهای از مفاهیم، خصیصهها[3]، و روابط میان آن مفاهیم تعریف کردهاند (هس و اشلیدر[4]، 2006، ص545؛ ). این تعریف در حوزة مدلسازی مفهومی، چندان جدید نیست. در مدلهای موجودیت ـ رابطه[5] که از دهه 1970 در پایگاههای اطلاعاتی استفاده میشود و در مدلهای گسترش یافتة آن[6] نیز چنین الگویی از مفاهیم، خصیصهها و روابط قابل شناسایی است. اما دلیل این همه استقبال از هستی شناسی ها در این نکته نهفته است که هستیشناسیها برخلاف مدلهای مفهومی پیش گفته، استنتاج هوشمند را ممکن میسازند (هس و اشلیدر، 2006، ص545).
معماریهای متنوعی در طراحی و اجرای هستی شناسی ها وجود دارد. این معماریها در سه دسته قابل بررسی اند (میکا[7] ، 2006، ص 289):
1. هستیشناسی واحد:[8] در این صورت، تمام افراد سازمان به تفاهم وتوافق بر هستی شناسی واحدی می رسند. این معماری تنها در موارد بسیار ایدهآل و هوشمند مؤثر خواهد بود. نقطه قوّت این نوع معماری آن است که در صورت تمایل به اشتراک، به هیچگونه ترسیمی[9] نیاز نیست.
2. هستیشناسیهای محلی:[10] در کنار هستی شناسی واحد: در این نوع معماری، گروههایی از افراد سازمان فعال در حوزهای خاص از هستیشناسی محلی استفاده میکنند. در این صورت چنانچه اشتراک دانش میان گروه ها نیاز باشد، استفاده از ترسیم هستی شناسانه ضروری است.
3. هستیشناسیهای فردی: هنگامی که هر یک از افراد در سازمان از هستیشناسی منحصر به فرد و مستقلی استفاده کند، این معماری تحقق مییابد. در این صورت، استفاده از ترسیمها با وسعت بیشتری انجام میپذیرد.
از میان سه مدل معماری ذکر شده، دومین معماری، قابل دفاع ترین نوع معماری به شمار میرود. «برنرزلی»[11] در توضیح این مطلب می افزاید: معماری نخست بر کنترل مرکزی بنا شده است، در حالی که سومین معماری به مکانی آرمانی نظر دارد! (نقل در میکا ،2006، ص 289). بر مبنای معماری دوم، هستیشناسی واحد مشترکی در سطح بالا[12] تعریف میشود و همزمان، امکان افزودن و گسترش[13] هستیشناسی بهطور محلی برای هر یک از نظیرها[14] [کارگروههای مشابه] فراهم میآید. اغلب این نوع معماری بهطور سلسله مراتبی به اجرا میرسد؛ به گونهای که تمام زیرمجموعهها ـ نظیرها ـ از هستیشناسی واحد مشترکی استفاده میکنند و هر زیرمجموعه میتواند گسترشهای لازم را به هستیشناسی سطح بالا بیفزاید و هستیشناسی محلی خود را داشته باشد (میکا ، 2006، ص 289).
امروزه با توجه به روند رو به رشد استفاده از هستیشناسیها در نظامهای اطلاعاتی، ساخت هستیشناسیها، روششناسی ساخت، ابزارهای ساخت، ساخت خودکار و یادگیری هستیشناسیها، از مباحث مطرح در میان محققان است (شمس فرد، عبدالهزاده بارفروش، 1381: ص 49). رویکردهای متنوعی در ساخت، توسعه و روزآمدسازی هستیشناسیها در جریان است. طیفی از روشهای متنوع در استخراج و مدلسازی دانش در متون مختلف قابل شناسایی است. اغلب در ساخت هستیشناسیها از روشهای نیمه خودکار استفاده میشود، اما مطالعاتی در زمینة خودکارسازی کامل این فرایند نیز در جریان است (ونگ و دیگران، 2006). صرف نظر از نوع معماری انتخابی در ساخت و توسعه هستیشناسیها، در مورد شیوههای استخراج مفاهیم و روابط نیز باید مطالعه و تصمیم گیری شود.
ساخت و توسعه هستی شناسی ها به سه شیوة کلی انجام پذیر است:
ساخت دستی هستیشناسیها، برای قلمروها و کاربردهای مختلف، پرهزینه، وقتگیر و مستعد خطاست و هستیشناسیهایی که به صورت دستی ساخته میشوند، معمولاً گران، متمایل به نظرهای شخصی طراح، انعطافناپذیر در مقابل تغییرات و دقیقاً خاص منظوری هستند که برای آن تهیه شدهاند (شمس فرد، عبداله زاده بارفروش، 1381: ص 49). در دیگر سوی، ابزارهای مهندسی هستی شناسی مانند [15]Protégé واسط کاربری فراهم می آورند که در آن امکان تعریف مفاهیم، نمونهها، ویژگیها و محدودیتهای مفاهیم و همچنین روابط، وجود دارد. در این صورت، باز هم هزینة زیادی در ساخت هستیشناسیها صرف میشود و افراد متخصصی برای ساخت هستیشناسی در فعالیت شرکت دارند. مزیت استفاده از ابزارها آن است که در صورت وجود، میتوان از مفاهیم و روابط موجود در سایر هستیشناسیها به منظور ساخت و توسعة هستیشناسی جدیدی استفاده کرد؛ لذا بخشی از کار به صورت خودکار انجام پذیر است.
اما در روشهای خودکار ـ سومین شیوة مهندسی و توسعه هستیشناسیها ـ دخالت عامل انسانی کاهش و سرعت ساخت و توسعة هستی شناسی ها افزایش می یابد. در این صورت، باید به اکتساب یا استخراج دانش پرداخت. از آنجا که هستیشناسی را مجموعة مفاهیم و روابط آن میدانیم، این استخراج در دو بُعد انجام میپذیرد: الف) استخراج مفاهیم و ب) استخراج روابط معنایی میان این مفاهیم.
مروری اجمالی بر پیشینه
مشکل اصلی انسان با ماشین، چگونگی آموختن مفاهیم به آن است. در یک نگاه کلی، روشهای یادگیری ماشینی به دو دستة «روشهای ریاضی/ آماری» و «روشهای زبان پایه» قابل تقسیم است. برای مثال، فنون مورد استفاده در نمایهسازی معنای پنهان[16] صرفاَ بر محاسبات ریاضی استوار است، بدون اینکه نیازی به درک مفهوم از سوی ماشین باشد (یو و دیگران[17]، 2002). در این روش، محدودیت زبانی به حداقل میرسد و نوع زبان به فراموشی سپرده میشود. در واقع، در روش نمایهسازی معنای پنهان ویژگیهای زبانی نادیده گرفته میشود. از سویی، بسیاری از روشهای یادگیری بر روشهای زبان پایه استوار است (مانند میلر و دیگران[18]، 2000 و زلنکو و دیگران[19]، 2003؛ نقل در زو و زانگ[20]، 2007، ص970). کاربرد مؤلفههای زبان شناختی در دامنة وسیعی ـ دانش واژگانی[21]، درخت تجزیه[22]، درخت وابستگی[23] و مؤلفههای معنایی[24] ـ در برخی از متون مورد توجه قرار گرفته است. بهطور مثال، «زانگ، زو، او»[25] (2008) با بررسی مؤلفههای نحوی ساخت یافته،[26] روابط معنایی را استخراج کردهاند.
پروژههای مختلف ساخت و به کارگیری هستیشناسیها بویژه در محیطهای اینترانت، از جمله مواردی است که نمونه های فراوانی از آنها در حوزه های موضوعی متنوع موجود است (از جمله راسکین و پن[27]، 2005؛ کازانوا و دیگران[28] 2005). «کازانوا و دیگران» (2005) مراحل و چگونگی ساخت هستیشناسی موضوعی حقوق را با استفاده از زبان طبیعی و بر مبنای پژوهش قوم نگارانه[29] بیان می دارند. گفته شد که ساخت هستیشناسیها اغلب نیمه خودکار صورت میپذیرد. با وجود این، پژوهشهایی نیز در زمینه خودکارسازی کامل فرایند مهندسی هستیشناسیها در جریان است (مانند ونگ و دیگران، 2006؛ آقابک، آیدین، اوزمل، و آکسوی[30]، 2006) در بسیاری از پژوهشها بر روشهای استفاده از ابزارهای بازنمون سنتی دانش مانند پایگاههای اطلاعاتی موجود (کیوره[31]، 2003) و یا اصطلاحنامهها (سورگل و دیگران [32]، 2004) در ساخت و توسعه هستیشناسیها تأکید شده است.
اگر چه مطالعات زیادی در زمینة تحلیل و استخراج دانش مفهومی در متونی به زبان انگلیسی انجام پذیرفته است، تنها مطالعهای که در ایران و بر روی زبان فارسی انجام شده پایاننامة دکترای شمس فرد (1381) میباشد. «هستی» که نظام یادگیر هستیشناسی است، حاصل پژوهش شمس فرد است. در این نظام، مفاهیم و روابط معنایی با استفاده از الگوهای زبانی و معنایی استخراج شدهاند. «هستی» سیستمی برای استخراج دانش مفهومی از متون سادة زبان فارسی و ساخت هستیشناسی از روی آنهاست. «هستی»، از پایه، به ساخت خودکار هستی شناسی می پردازد. منظور از «پایه»، نبود هستیشناسی مبنا (اعم از عمومی یا تخصصی) و همچنین نبود واژگان معنایی برای کمک به فرایند یادگیری است. در ابتدای کار نظام، واژگان تقریباً تهی و هستی شناسی فقط حاوی هستة اولیه یادگیری است که به صورت دستی ساخته شده است.
هستة اولیه یادگیری شامل الگوهای زبانی و معنایی است. این الگوها که از طریق تحلیل متن به زبان فارسی انجام پذیرفته است در نظام قرار میگیرد و از آن پس، استخراج با توجه به الگوها انجام میپذیرد. بخشی از الگوهای معنایی مورد استفاده در «هستی» در (شمس فرد، عبداله زاده بارفروش، 1381) بیان شده است.
طرح پرسش
یکی از مهمترین دغدغههای انسان در عصر فناوری اطلاعات، طراحی و گسترش ابزارها، امکانات و خدمات مربوط به گردآوری، ذخیره سازی و پردازش دادههای زبانی است (عاصی، رضاقلی فامیان، آقاجانی، 1385، ص 125). علاقه به استخراج خودکار، بویژه با توجه به افزایش روزافزون اطلاعات متنی دسترسپذیر در محیط وب و آرشیوهای دیجیتال، رو به افزایش است (زو و زانگ، 2007،ص 969) استخراج مفاهیم و روابط از طریق تحلیل داده ها صورت میپذیرد. دادهها در متن[33] مانند دادههای موجود در یک صفحه وب، یا یک مقاله، و یا خارج از متن، به طور مثال در یک پایگاه کتابشناختی قرار دارند. به طور کلی، دادههای اولیه که برای تحلیل مورد استفاده قرار میگیرند، در سه دسته تقسیمبندی میشوند:
ساخت خودکار هستیشناسیها با استفاده از نظامهای یادگیر هستیشناسی انجام میپذیرد. این در حالی است که استفاده از ابزارهایی چون Protégé تنها به منزلة پشتیبان ساخت به کار میروند. «شمس فرد و عبداله زاده بارفروش» (1381) در توضیح «هستی»، به نقطه شروع استخراج دانش مفهومی می پردازند و نظامهای یادگیر هستی شناسی را به دو دسته تقسیم میکنند:
اما اغلب نظامهای موجود یادگیر هستیشناسی، دسترسی به هر دو را ترجیح میدهند؛ بدین ترتیب که از ابزارهایی چون WordNet ،که نظامی از واژگان معنایی از پیش تعریف شده است، نیز استفاده میکنند. این نظام واژگانی در تشخیص و ایجاد تمایز میان رابطهها کاربرد دارد و از مشکل پراکندگی دادهها در استخراج روابط میکاهد (زو و زانگ، 2007، ص 975) وردنت علاوه بر دانش زبانی، حاوی بخشی از دانش مفهومی نیز میباشد[34].
استخراج دانش در دامنهای از روشهای با دانش ضعیف (مانند تکنیکهای آماری) تا روشهای غنی از دانش (مانند استدلال منطقی) گسترده اند (شمس فرد، عبداله زاده، 1381، ص 51). در نظامهایی که به روشهای آماری عمل می کنند، بسامد تکرار و یا بسامد هم وقوعی و هم مکانی کلمات و عبارتها مورد توجه است و از تحلیل آماری دادههای هم وقوع برای یادگیری طبقات و روابط مفهومی استفاده میشود. برخی از نظامهای دیگر، روشهای نمادینی چون روشهای منطقی مبتنی بر الگو و زبان ـ پایه را برای استخراج دانش به کار میگیرند. روشهای زبان ـ پایه مانند تحلیل کامل نحوی[35] (میلر و دیگران، 2000 نقل در زو و زانگ، 2007، ص 970) ، تحلیل ساختواژی ـ نحوی (اسدی[36]، 1997، نقل در شمس فرد، عبدالهزاده، 1381، ص51)، تجزیة الگوهای لغوی ـ نحوی (فینکستاین ـ لندو و مورین[37]، 1999، نقل در شمس فرد، عبداله زاده، 1381، ص 51)، پردازش معنایی و درک متن عموماً وابسته به زبان هستند و برای استخراج دانش از منابع غیرساخت یافته (زبان طبیعی) به کار میروند. در روشهای مبتنی بر الگو، ورودی (معمولاً متن) به دنبال الگو یا کلمات کلیدی خاص که نشانگر روابط مفهومی خاصی است، جستجو و اطلاعات مورد نظر از متن استخراج میشود.
استخراج مفاهیم و روابط در ساخت هستیشناسیها پیچیدگیهای فراوانی دارد و مسیرهای متفاوتی نیز در ساخت و توسعة آنها طی شده است. در این میان، تحلیلها بیشتر بر روی زبان انگلیسی صورت گرفته و مطالعات اندکی بر روی زبان فارسی انجام پذیرفته است (پایاننامه شمس فرد، 1381). همچنین، نظام واژگانی چون WordNet نیز در زبان فارسی موجود نیست[38]. اکنون با توجه به آنچه بیان شد، این پرسش مطرح است که «آیا میتوان با استفاده از تحلیل متون علمی زبان فارسی[39]، به منزلة یک پیکره زبانی که در مقایسه با سایر متون ابهام کمتری دارد، روابط معنایی میان مفاهیم را استخراج کرد؟» منظور از روابط معنایی در این پرسش، مجموعه روابط معنایی معمول در ابزارهای بازنمون سنتی مانند اصطلاحنامهها ـ سلسله مراتبی[40]، هم ارز[41] و هم بسته[42]- به علاوة گروهی از روابط غنیتر معنایی است که در نظامهای جدید بازنمون ـ هستیشناسیها- مطرحند. چنانچه پاسخ اولین پرسش مثبت است، «پیدایی یا وضوح روابط معنایی در متون علمی زبان فارسی تا چه میزان است؟» به بیانی «آیا میتوان به کشف الگوهایی برای استخراج روابط معنایی در این متون امیدوار بود؟» پژوهش حاضر در راستای پاسخ به دو پرسش طرح شده، اجرا گردید.
هدف پژوهش
گفته شد بخشی از خودکارسازی فرایند ساخت هستیشناسیها با کمک ردگیری الگوهای معنایی امکانپذیر است. چنانکه پیشتر آمد، در روشهای مبتنی بر الگو، الگو یا کلمات کلیدی خاص که نشانگر روابط باشند، مورد جستجو هستند و از متن استخراج میشوند. ردگیری الگوهای معنایی با این پیش فرض انجام میپذیرد که قابلیت و امکان استخراج روابط به روش تحلیل متن عملی است و این روابط پیدایی لازم را برای استخراج دارند، زیرا تنها در صورتی میتوان به استخراج خودکار روابط امیدوار بود که پیدایی این روابط در متن در حد قابل قبولی باشد. لذا هدف از این پژوهش، بیان الگوهای معنایی نیست، بلکه پژوهشگر قصد دارد پیش فرض روشهای مبتنی بر الگو را بررسی کند.
دامنة کار و روش پژوهش
با توضیحی که در هدف پژوهش مورد اشاره قرار گرفت و با توجه به اینکه:
لذا، در این پژوهش تمرکز بر متون تخصصی در یک حوزة موضوعی ویژه ـ ربط ـ قرار گرفت. بدین منظور، مقالههای مجلة اطلاعشناسی (1383، سال دوم، شماره اول) که ویژهنامة ربط است، برای تحلیل و استخراج روابط معنایی انتخاب شد. اگر چه به واسطة تحلیل انجام شده بر روی متن، مفاهیم نیز استخراج شده است، در این پژوهش تأکید بر روابط معنایی و میزان پیدایی آنهاست.
دانش قابل استخراج از متون به دو دستة «ضمنی» و «عینی» تقسیمبندی میشود. دانش عینی، دانشی است که در متن و با استفاده از واژگان به بیان آمده است، اما دانش ضمنی وابسته به پیش داشتههای فرد انتزاع کننده آن است و به طور صریح در متن و در قالب واژگان نیامده است؛ بدین معنا که اگر چه رابطه معنایی به طور صریح در متن نیامده است، خوانندة مطلب که در این جا فرد انتزاع کننده روابط معنایی (پژوهشگر) می باشد، با توجه به دانش زمینهای، قادر به انتزاع و استخراج رابطههاست. در این پژوهش، سعی شده هر دو نوع دانش استخراج شود. علت استخراج هر دو نوع دانش آن است که میزان پیدایی روابط معنایی را می توان از مقایسه و تحلیل این دو یافته تعیین نمود. در عین حال، واضح است که استخراج خودکار روابط معنایی بر پایة دانش عینی و الگوهایی است که به طور عینی در متن آمده است و استخراج آنها را ممکن میسازد.
در مقالههای مورد بررسی، دو بخش چکیده و بحث و نتیجه گیری برای استخراج روابط و الگوهای آن انتخاب شده است. مبنای این انتخاب بر این استدلال استوار است که در چکیده مقالهها، اصلیترین مطلب مقاله به صورت مختصر بیان میشود و در بخش بحث و نتیجهگیری، حاصل سخن مقاله. همچنین عنوان و کلیدواژه ها نیز به منظور استخراج بخشی از دانش ضمنی مورد تحلیل قرار گرفت.
بنابراین، نمونة مورد تحلیل متشکل از9 مقاله به زبان فارسی است که در ویژهنامة ربط مجله اطلاع شناسی به چاپ رسیده است. استخراج روابط با تجزیه متن به پارههای مورد تحلیل، صورت گرفت. بدین منظور، علامت نقطه (.) در متن به منزلة مرز پارههای مورد تحلیل، در نظر گرفته شد. تحلیل بدون توجه به ساختار نحوی جملهها و تنها با استناد به دانش موضوعی پژوهشگر، انجام پذیرفت.
مراحل و روش تحلیل
مفاهیم در قالب زنجیرهای از واژگان به هم مرتبط، به بیان و بنان در میآیند. در این صورت است که جمله متولد میشود. جمله در ارتباط با سایر جملههای یک پاراگراف، در خدمت انتقال معنایی کلیتر است که از عهدة یک جمله به تنهایی بر نمیآمد. در این مورد، چکیدة مقاله علمی، تک پاراگراف منحصر به فردی است که قصد دارد بازنمونی مختصر و تا حدّ ممکن جامع از رویکرد، روشها و البته معنای مورد نظر نویسنده باشد. مجموعه پاراگرافها در خدمت نویسندهاند تا مقصود و معنای مورد نظر به تمامی منتقل شود. هر مقاله نیز با سایر مقالههای هم موضوع در ارتباط است و در کنار آنها زیست میکند. ویژهنامههای تخصصی، مجالی هستند برای بروز این زیستن.
|
با توضیحی که ذکر شد، میتوان تحلیل را در چهار سطح و به شکل هرمی وارونه تصویر کرد.
شکل 1. هرم تحلیل استخراج مفاهیم و روابط
در نخستین سطح، سطح جمله، بخشی از مفاهیم و روابط شناسایی میشود. در این سطح از تحلیل، دانش عینی آن جمله مورد نظر است و فراتر از همان جمله نمی توان حرکت کرد؛ اما چنانچه سطح تحلیل به پاراگراف گسترش یابد، میتوان مفاهیم را در سطحی انتزاعیتر و به بیانی ضمنیتر دید. به طور مثال، اگر در جمله اول یکی از روشهای درمان بیماری خاصی بیان شود، تنها همین یک روش درمانی استخراج میگردد؛ اما اگر پاراگراف در نظر گرفته شود و جمله ای دیگر از این پاراگراف به همان روش با عبارتی دیگر بپردازد، رابطة ضمنی هم ارزی این دو مفهوم قابل شناسایی است، در حالی که در متن نیامده است. بدین ترتیب، روابط ضمنیتری قابل شناسایی و استخراج خواهد بود؛ روابطی که شاید در سطح جمله امکان استخراج آنها وجود نداشت. بتدریج، با حرکت در سطوح تحلیل، مجموعهای از روابط جدید میان مفاهیم و حتی میان رابطه ها آشکار و در نهایت هستی آن کل، به شکل مجموعهای از مفاهیم و روابط متجلی میشود.
تحلیل و استخراج روابط معنایی مطابق با هرم تحلیل صورت گرفت. عملیات تحلیل و استخراج توسط پژوهشگر انجام شد؛ بدین ترتیب که ابتدا تک تک خطوط متن مورد تحلیل، تحلیل شد و روابط معنایی استخراج گردید. سپس چند خط به طور همزمان مورد نظر قرار گرفت و روابط انتزاعی تر استخراج شد. بدیهی است، اینگونه تحلیل، مانند سایر روشهای کیفی، فارغ از سوگیریهای پژوهشگر نیست. دادههای حاصل از تحلیل ـ مفاهیم و روابط معنایی ـ در نرمافزارMS Excel 2003 ثبت شد. در مواردی که روابط چندین بار تکرار شده است نیز رخداد تکرار ثبت شد. بدین ترتیب، هر دو مفهوم به علاوة رابطه میان آن دو، در یکی از ردیفهای نرمافزار قرار گرفت و رخداد تکرار آن ثبت شد.
به منظور تعیین میزان پیدایی روابط معنایی سه سطح ـ انطباق کامل، انطباق نسبی، و عدم انطباق ـ تعیین شد. انطباق کامل زمانی رخ میدهد که رابطه معنایی استخراج شده به طور کامل در جملة مورد تحلیل آمده باشد؛ مثلاً در جمله «تکنیک فرامتن راهکار افزایش ربط است» رابطه «راهکار» میان دو مفهوم «تکنیک فرامتن» و «افزایش ربط» نمونه یک رابطه با انطباق کامل است. در جملهای مانند «ساختار نظامهای فرامتن و تأثیر آنها بر مسئله ربط در بازیابی و نیز راهبردهای جستجو ...» رابطة «تأثیر دارد بر»، دارای انطباق نسبی است. اما هنگامی که از جملهای مانند «پیوندهای فرامتنی راه دیگری را برای مسیریابی در میان انبوه اطلاعات فراهم میکند»، رابطه «کاربرد دارد در» استخراج میشود، این رابطه مصداق نبود انطباق میان واژههای متن و رابطه، استخراج شده است. بدین ترتیب، مجموعهای از روابط معنایی همراه با میزان انطباق آنها با متن استخراج شد.
روابط معنایی مورد استخراج
مجموعه روابط معنایی قابل تعریف در ابزارهای بازنمون سنتی از جمله در اصطلاحنامهها عبارتند از: روابط سلسله مراتبی، همارز و همبسته. رابطة هم ارز میان دو اصطلاح پذیرفته شده و پذیرفته نشده. رابطة سلسله مراتبی اصطلاحات اعم و اخص را مشخص میسازد و اصطلاحاتی که نوعی تبادر به ذهن میآورند، در دستة روابط همبسته تعریف میشوند. اما روابط معنایی حاکم در ابزارهای بازنمون دانش جدید، از جمله هستیشناسیها، محدود به این روابط ثابت نیست و پویایی بیشتری دارد و عمق آن بسته به عمق هستیشناسیها، متنوع است.
روابط معنایی در گسترههای متفاوت، به گونهها و با جزءنگریهای متنوعی تقسیمبندی شدهاند که در این مقاله به آنها نخواهیم پرداخت. رابطههای منعطفی چون «راه انتقال» برای یک بیماری خاص در هستی شناسی بیماریها و «نام تجاری» برای هستیشناسی داروها، نمونهای از رابطههاست. رابطههای استخراج شده در تحلیل متن انتخابی نیز با همین رویکرد، استخراج شده است.
تجزیه و تحلیل یافتهها
تجزیه و تحلیل نهایی بر روی داده های ثبت شده، در نرمافزار اکسل انجام پذیرفت. روابط دستهبندی و در 7 مقولة کلی قرار گرفت. این هفت مقوله کلی شامل 24 زیر مقوله هستند که در 122 مورد، رخداد داشتهاند. جدول شماره 1، رابطههای استخراج شده را همراه با رخداد آنها نشان میدهد.
رخداد |
مقولة فرعی رابطه استخراجی |
مقولة کلی رابطة استخراجی |
ردیف |
4 |
معادل است با |
هم ارزی |
1 |
2 |
تفاوت دارد با |
تفاوت (نا هم ارزی) |
2 |
2 |
دسته بندی می شود به |
سلسه مراتبی |
3
|
10 |
انواع دارد |
||
8 |
در ارتباط است با |
همبستگی |
4 |
1 |
استفاده می شود در |
کاربردی |
5 |
2 |
راهبرد دارد |
||
1 |
راهکار |
||
1 |
راهکار سنجش عملکرد |
||
8 |
کاربرد دارد در |
||
2 |
تأثیر دارد بر |
تأثیری (تأثیرگذاری/تأثیرپذیری) |
6 |
10 |
نقش دارد در |
||
2 |
تأثیر دارد در |
||
3 |
تأثیر میگذارد بر |
||
4 |
تحت تأثیر |
||
6 |
براساس |
||
1 |
برپایه |
||
2 |
زیربنای |
||
1 |
معیار است برای |
||
3 |
معیار دارد |
||
3 |
مقیاس دارد |
توصیفی |
7 |
37 |
ویژگی دارد |
||
3 |
شاخص دارد |
||
6 |
چالش دارد |
||
122 |
مجموع |
جدول1. روابط معنایی استخراج شده همراه با بسامد رخدادهای هر یک در متن مورد تحلیل
همانطور که در جدول 1 مشخص است، روابط معنایی استخراج شده در متن مورد تحلیل، در 7 مقولة کلی قابل تقسیم است. اگر دقت کنید، روابطی چون هم ارزی، سلسه مراتبی و همبستگی، همانگونه که در اصطلاحنامهها مطرح بود، استخراج شده است. علاوه بر آنها، روابطی که نشانگر تأثیرگذاری/تأثیرپذیری، توصیف و کاربرد بودند نیز شناسایی شد. بدین ترتیب، در پاسخ به نخستین پرسش پژوهش باید گفت، روابط معنایی را می توان با استفاده از تحلیل متون علمی به زبان فارسی استخراج نمود. استخراج روابط به این روش، روابط ضمنی را نیز شامل میشود؛ روابطی که در رویکرد دستی قابل شناسایی هستند.
اما در پاسخ به دومین پرسش و تعیین میزان پیدایی روابط معنایی، میزان تطابق واژههای نشانگر رابطه با رابطه استخراج شده، بررسی گردید. در پاسخ به این پرسش، نسبت روابط ضمنی و عینی مشخص می شود. نمودار 1 حاصل تحلیل میزان تطابق است. چنانکه در نمودار مشخص است، 51% روابط به صورت کاملاً تلویحی (ضمنی) در متن موجود بوده است و 38% حاصل تطابق نسبی است، به طوری که بخشی از رابطه در متن آمده است و تنها 11% تطابق کامل وجود داشته است. بدین ترتیب، میزان پیدایی روابط معنایی در سطح پایینی ارزیابی میشود.
نمودار1. میزان پیدایی روابط معنایی استخراج شده
جمع بندی و سخن پایانی
هم اکنون حجم وسیعی از اطلاعات به صورت دیجیتالی تولید و در چرخة تولید و بازتولید قرار میگیرد. پیکرة عظیم اطلاعات متنی موجود، بویژه در بستر وب، فرصت مناسبی است برای گسترش مطالعات حوزة هوش مصنوعی. ساخت و توسعه ابزارهای بازنمون دانش که با هدف سازماندهی اطلاعات و دانش انجام میپذیرد، تمایلی به سمت و سوی شیوههای خودکار دارد. ساخت و توسعة خودکار هستیشناسیها که مجموعهای از مفاهیم و روابط معناییاند، به استخراج ـ مفاهیم و روابط ـ وابسته است.
در این پژوهش، پیش فرض روشهای مبتنی بر الگو در استخراج خودکار روابط معنایی در مورد متونی به زبان فارسی بررسی و به دو پرسش طرح شده پاسخ داده شد. نخستین پرسش که بر امکان استخراج روابط معنایی متمرکز بود، به پاسخی مثبت انجامید. بدین منظور، استخراج روابط معنایی با رویکرد تحلیل متن انجام شد و هفت رابطة کلی ـ هم ارزی، تفاوت، همبستگی، سلسه مراتبی، توصیفی، کاربردی، و تأثیری ـ و 24 رابطة جزئیتر شناسایی گردید. این روابط به دو صورت ضمنی و عینی، در متن مورد تحلیل آمده است.
اما در پاسخ به دومین پرسش پژوهش، میزان پیدایی روابط معنایی و نسبت روابط عینی به ضمنی طبق روشی که توضیح داده شد، بررسی گردید. با توجه به درصد یافتهها، مشخص است که در متن مورد تحلیل، نسبت روابط عینی به ضمنی اندک است، به طوری که تقریباً نیمی از روابط کاملاً ضمنیاند و در متن نیامده است و از 49% باقیمانده تنها 11% روابط به طور کاملاً عینی در متن آمده است. این یافته مشخص میسازد در روش خودکار بخشی از دانش ـ که در این مورد (51%) قابل توجه نیز هست ـ از دست میرود.
به نظر میرسد ردگیری الگوها به تنهایی با توجه به میزان پیدایی اندک روابط معنایی در متون، راهگشای مسئله خودکارسازی نیست. استفاده از شبکه های واژگانی بخشی از مشکل را حل کند؛ زیرا شبکههای واژگانی، شبکهای از مفاهیم، همراه با روابط معنایی میان آنهاست که به شیوهای ساختیافته طراحی شده است و در جایی که تنها 49% روابط، با تطابق نسبی و کامل در متن آمدهاند، راه گشاست. در این صورت، لازم است شبکه واژگانی زبان فارسی با همکاری متخصصان زبان شناسی، زبان و ادبیات فارسی، رایانه و البته کتابداری و اطلاعرسانی تدوین شود تا بتوان از قابلیتهای آن در این حوزهها بهرهبرداری کرد.
تحلیل متن تحت تأثیر عوامل ذهنی و غیر ذهنی صورت میگیرد. اگر عوامل غیر ذهنی را عوامل زبانی بدانیم، در استخراج خودکار متن تنها باید بر این عوامل تکیه کرد. حال آن که در این صورت بخشی از تحلیل دچار کاهش شده است. «اسپارک جونز» (1991) معتقد است ذهن انسان در موقعیتها و زمانهای مختلف به صورت بسیار پیچیده و غیرقابل پیشبینی و با توجه به عوامل محسوس و نامحسوس قادر است به پردازش، تحلیل و تفسیر بپردازد و قضاوت کند (نقل در فتاحی، 1383، ص 20). هنوز تا خودکارسازی استخراج متن فاصلهای ناپیموده وجود دارد؛ فاصلهای که شاید پیمودن آن تنها از عهدة ذهن پیچیده انسانی برآید.
پیافزود1. تصویری از Protégé، ابزار معندسی هستی شناسی
این ابزار در سال 1998 توسط متخصصان انفورماتیک پزشکی[47] دانشگاه استنفورد[48] طراحی شد و توسعه یافت. مؤسساتی چون آژانس طرحهای پژوهشی پیشرفته دفاعی[49]، مؤسسه ملی سرطان[50]، مؤسسه ملی استاندارد و فناوری[51]، کتابخانه ملی پزشکی[52] و [53]بنیاد ملی علوم از جمله پیشتیبانان این طرح نرمافزار بودهاند. در حال حاضر ویرایش (2007) 3.3.1 این نرمافزار در سایت رسمی آن[54] موجود است. در این سایت، امکان دانلود نرمافزار فراهم آمده است.
پی افزود2: تصویری از شبکه واژاگانی WordNet
این شبکه واژگانی در آزمایشگاه علوم شناختی[55] دانشگاه پرینستون[56] طراحی شده است. امکان دانلود نرمافزار از سایت رسمی[57] آن وجود دارد.
[1]. Ontology.
[2]. Weng et al.
[3]. Properties.
[4]. Hess & schlieder.
[5]. Entity-Relationships (ER).
[6]. Extended Entity-Relationships (EER).
[7]. Mika.
[8]. Single ontology.
[9]. Mapping.
[10] local
1. بر پایة گفتگویی که با دکتر شمس فرد انجام پذیرفت، مشخص شد این نظام در حال ساخت است اما هنوز به مرحلة استفاده نرسیده است. همچنین، شبکه واژگانی صفات زبان فارسی نیز در دست طراحی است. برای کسب اطلاعات بیشتر به مقالة عاصی، رضاقلی فامیان و آقاجانی با عنوان «به سوی طراحی شبکه واژگانی صفات زبان فارسی» که اطلاعات کتابشناختی آن در بخش منابع آمده است، مراجعه کنید.