غنی‏‌سازی پایگاه وب عبارت است از افزودن توضیحات به کلیدواژه‌‏ها و در واقع‏، توصیف‌گرهای مورداستفاده در متون و صفحات وب پایگاه‏.‏

 

این توضیحات به یکی از دو روش pop-up و ارجاع به فایل html مجزا، به واژگان کلیدی متن اضافه می‏‌شود. مثلا واژه نیروگاه برق ابی در متن دارای یک پیوند به متنی می‏‌شود که حاوی شرح مختصری از این مفهوم است‏. خواننده با کلیک این واژه در متن موقتاً وارد صفحة وب مجزایی می‏‌شود که مفهوم را تشریح کرده است و در ضمن دارای ارجاعات بیشتر، مثلاً به انواع نیروگاه‏، اقتصاد انرژی‏، و غیره است‏. خواننده می‏‌تواند آنها را نیز کلیک کند و موقتاً وارد صفحات دیگر شود.‏

در کشورهای صنعتی به جای اصطلاح خدمات غنی‏‌سازی وب از اصطلاح خدمات بهینه‌‏سازی جستجوگر (search-engine optimization) یا اختصاراً SEO استفاده می‌‏شود، که هر دو یکسان هستند.

کاربردهای اصلی غنی‏‌سازی وب را در چهار مقوله می‌توان خلاصه کرد:

۱. افزایش ترافیک صفحة غیر از صفحة اول‏.‏ در تحلیل‌های آماری پایگاه آلکسا، اولین تحلیل مهم این است که چند درصد از دیدارگران وب پس از ورود به صفحه نخست پایگاه‏، حداقل یک پیوند را کلیک کرده‏‌اند. از نظر جستجوگرهای وب‏، این مسئله که دیدارگر پایگاه وب حداقل یک پیوند را کلیک کرده باشد، و حداقل دو دقیقه در آن پایگاه و پیوند باقی مانده باشد، اهمیت بسیار دارد.

بنابر این‏، پایگاه وبی که دارای رتبة بسیار بالا در کشور یا دنیا باشد، اما درصد زیادی از دیدارگران آن‏، پیوندی را کلیک نکنند، موردتوجه جستجوگرهای بزرگ مانند گوگل قرار نمی‏‌گیرد.‏

 

۲. تأمین رضایت دیدارگر وب‏، که منجر به محبوبیت نشانی (URL popularity) می‌‏شود. این رضایت منجر به تبلیغات شفاهی یا اصطلاحاً تبلیغات ویروسی می‌‏شود.‏

۳. ارتقای شخصیت برند (brand personality) که یکی از عوامل اصلی هویت برند (brand equity) محسوب می‏‌شود.‏
۴. چون معمولاً واژگان مهم صفحة وب به عنوان پیوند در غنی‏‌سازی به کار می‏‌روند، جستجوگرهای وب‏، این واژگان را همتراز Index-Meta-Data به حساب می‏‌آورند.‏ این ویژگی در الگوریتم‌های جستجوگرها هرگز تغییر نکرده است‏، زیرا پایگاه‌های وب متقلب راهی برای تقلب در پیوندهای واقعی پیدا نمی‏‌کنند.‏

افزایش اعتبار پایگاه وب عملا به چهار کاربرد فوق بستگی دارد.‏

برنامة پویشگر (scanner) بسیار ساده‏‌ای وجود دارد که متن سورس صفحة وب را با فرمت html پویش می‌‏کند و برحسب دادگان (database) غنی‏‌سازی نصب شده در پایگاه‏، کلیدواژه‏‌ها را شناسایی می‏‌کند و هریک از آنها را به یک توصیفگر (descriptor) تبدیل می‏‌کند و یک پیوند HREF یکتا به نقطة حاوی کلیدواژه در صفحة وب می‌‏افزاید. هر کلمه مطابق یک جدول هش (hash) فارسی‏_انگلیسی به نشانی مقصد مرتبط می‏‌شود. مثلا دو کلمة کامپیوتر و رایانه به یک توصیفگر یکتا به نام rAyAnh.htm ارجاع می‏‌شوند.‏

اگر کلمة تشخیص داده‏ شده از قبل به عنوان پیوند تعیین شده باشد، پویشگر، پیوند غنی‏‌ساز را در صفحة مقصد پیوند درج می‏‌کند تا اولویت با پیوندهای اولیه باشد.‏

نصب دادگان غنی‏‌سازی در پایگاه یا به صورت فایل‌های مجزا و یا به صورت فایل‌های الفبایی ‏شده انجام می‏‌شود. مثلا کلمة کامپیوتر یا در فایل مستقل rAyAnh.htm ذخیره شده است و یا در مدخل computer از حرف C از یک واژه‏ نامه قرار دارد که دارای یک لنگر (anchor) به صورت <A NAME=computer> و غیره است‏.‏

غنی‏‌سازی ممکن است به صورت سلسله‏ مراتبی انجام شود. مثلاً با بردن ماوس بر روی کلمه یا عبارت [mouse hover] فقط یک شرح مختصر به صورت ظاهرشونده (pop-up) برای چندثانیه نمایان شود و سپس محو گردد؛ و با کلیک کردن کلمه یا عبارت‏، موقتاً صفحة وب حاوی شرح نسبتاً مفصل باز شود تا دیدارگر پس از مطالعه با زدن دگمة Back به صفحة اولیه بازگردد.‏

امروزه که ویکی‌پدیا  به زبان فارسی نیز منتشر می‌شود، بسیاری از پایگاه‌های وب مطالب مرجع موردنیاز خود را از این منبع استخراج می‌کنند و با مختصر ویرایشی با ذکر منبع در پایگاه خود قرار می‌دهند. بدیهی است که راه بهتر و مطمئن تر، این است که پایگاه وب مطالب مرجع قابل کلیک خود را به طور اختصاصی تهیه کند. بدین ترتیب، به تدریج، ارجاعات پایگاه‌های دیگر به این مطالب، منجر به افزایش رتبه پایگاه وب می‌شود.

هر پایگاه وب بزرگ باید دارای تعداد زیادی از مواد دادگان باشد که مطابق فرآیند غنی‏‌سازی مورداستفاده قرار گیرند.‏ به عبارت دیگر دادگان غنی سازی از تعدادی فرهنگ (dictionary) تشکیل می‌شود که به صورت دادگان رابطه‌ای (relative database) با هم ارتباط دارند.

آرشیو پایگاه وب جزو دادگان غنی‏‌سازی محسوب نمی‏‌شود. مثلاً یک روزنامه ممکن است دارای آرشیوی از مطالب قابل کلیک باشد که دیدارگران وب در هر صفحه از پایگاه بتوانند با کلیک کردن و بدون نیاز به ورود به آرشیو، اطلاعات آرشیوی مورد نظر خود را بیابند.‏ دادگان غنی‏‌سازی از دو مجموعه تشکیل می‏‌شود:

۱. اصطلاحات علمی و فرهنگی‏، مانند اصطلاحات مربوط به فناوری هسته‏‌ای‏، نشر، ارتباطات‏، کامپیوتر، مدرک‏‌شناسی‏، و غیره‏؛
۲. رویدادها و اسم‌های خاص‏، مانند اشخاص مهم‏، انجمن‌های علمی و فرهنگی‏، روزنامه‏‌های نخبه‏، شهرها و کشورها، تعطیلی ملی کشورها، و غیره‏.‏ به ویژه اختصارات مرتبط با اسمهای خاص مانند ITU و  IAEA از اهمیت ویژه‏‌ای برخوردار است‏.‏
به تدریج می‏‌توان دادگانی از تصاویر دارای شرح و متن Alt پویا تهیه کرد و به مجموعه افزود.

در دوران ماقبل اینترنت در ایران شرکت‌هایی فعالیت داشتند که خدمات بریده جراید در دسترس سازمان‌های خصوصی و دولتی قرار می‌دادند. امروزه این نوع خدمات به صورت اینترنتی در آمده است. در کشورهای صنعتی شرکت‌هایی با عنوان خبرگزاری علمی (science agency) این نوع خدمات را در دسترس قرار می‌دادند.

به طور کلی، خدمات غنی‏‌سازی وب بر دو نوع می‏‌تواند ارائه شود:

۱. پروژة نصب کامل دادگان مرجع و خدمات مستمر پس از نصب کامل‏؛
۲. آزمایش چند مجموعة کوچک پرکاربرد در مدت‏ زمان کوتاه و سپس ادامة خدمات بر اساس قرارداد بلندمدت‏.‏

در صورتی که پایگاه وب‏، نوع دوم خدمات را ترجیح دهد، سه مرحلة اولیه به عنوان آغاز خدمات پیشنهاد می‏‌شود، به طوری که نیاز به قرارداد نباشد، و هزینه‌‏ها به صورت فاکتور تعیین و پرداخت شوند.‏ چون مبالغ نسبتاً ناچیز هستند، تعهدات طرفین را می‌‏توان در فاکتور منظور کرد.‏ بدیهی است که هر فایل فقط به یک خریدار فروخته می‏‌شود و این نکته در فاکتور هزینة خدمات تصریح می‏‌گردد.‏
به تعبیر دیگر، خدمات غنی سازی وب را می‌توان همانند قرارداد نشر کتاب فرهنگ یا واژه نامه بین مولف و ناشر تلقی کرد که ناشر در قبال پرداخت حق التالیف یا نشرانه، صاحب حقوق مادی اثر می‌شود و مولف نمی‌تواند مطالب داده شده به ناشر را به ناشر دیگر بفروشد.

اولین مشکل در نشر الکترونیک، سرقت نشرانه (copyright) است‏.‏ به همین دلیل است که فقط پایگاه‌هایی توانسته‏‌اند در وب باقی بمانند که مطابق اصول مقابله با سرقت نشرانه عمل کرده‏‌اند.‏ درج تدریجی اما مستمر و بدون وقفه بهترین راه مقابله با این معضل است‏.‏ به طوری که اگر محتوا به صورت تدریجی‏، مثلا ساعت‏-به‏-ساعت‏، اضافه شود، و همزمان‏، اصول بهینه‏ سازی جستجوگر مراعات شود، پس از مدت کوتاهی‏، سرقت نشرانه توسط اشخاص سودجو، برعکس، به ارتقای نام تجاری پایگاه کمک می‏‌کند.‏ برای نمونه‏، ویکی‌پدیا به همین روش به موفقیت دست یافته است‏، به طوری که هر نوع کپی و استفادة مجاز و غیر مجاز از این پایگاه منجر به افزایش رتبة آن می‏‌شود.‏

روش‌های گوناگون دیگری از جمله درج خطای مستعار (dummy error) و درج برنامة اسکریپت مانع‏ شوندة select-copy و Save As نیز وجود دارد. اما بهترین راه همان درج مستمر و تدریجی محتوا است‏.‏

با توجه به این که غنی سازی باید به صورت تدریجی انجام شود، برای شروع کار که تعداد مدخل‌ها کم است‏، تبدیل کلیدواژه‏‌ها به نقاط قابل کلیک (hotspot) به طور دستی میسر است‏. همة برنامه‏‌های مدیریت محتوا دارای تسهیلات پیوندسازی و ارجاع هستند.‏ هر مدخل در یک فایل مستقل html و در صورت مصور بودن همراه با فایل گرافیکی JPG یا PNG ارائه می‌‏شود.‏
مشخصات فنی ویژة فایل‌های وب غنی سازی به شرح زیر است‏:

۱. مراعات اصول مرتبط با الگوریتم‌های رتبه‏‌بندی جستجوگرهای بزرگ از جمله گوگل و تدوین پویای META-TAG ها؛
۲. مراعات اصول شیوه‏‌نامة نگارش و ویرایش زبان فارسی؛
۳. نام‌‏گذاری فایل فارسی باید براساس یک جدول hash فارسی‏_انگلیسی انجام شود تا اپراتورهای روزآمدسازی صفحه‌های وب ناچار نباشند که شماره‌ها یا کدهای ترتیب را حفظ کنند؛
۴. میانگین اندازة مطالب قابل‏ چاپ و نمایش در مرورگرها برای هر مدخل کوچک نوعا حدود 50 کلمه‏، و میانگین اندازة مطالب قابل‏ چاپ و نمایش در مرورگرها برای هر مدخل متوسط نوعا حدود ۱۰۰ کلمه است‏.‏ مطلب بزرگ دارای محدودیت اندازه نیست و می‌تواند همانند مقالات ویکی پدیا بسیار مفصل هم باشد.

 

 

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *