التلخيص التلقائي

التلخيص التلقائي هو عبارة عن خلق نسخة مختصرة من النص من خلال برنامج كمبيوتر. نتاج هذا الإجراء لا يزال يشتمل على أهم النقاط من النص الأصلي.ان ظاهرة الإغراق المعلوماتي باتت تعني أن الحصول على ملخصات متماسكة ومتطورة بشكل صحيح هو أمر حيوي. وكما أن الوصول إلى البيانات زاد كذلك الاهتمام بالتلخيص التلقائي. مثال على استخدام تكنولوجيا التلخيص هو محركات البحث من جوجل.

الاستخراج والتجريد

على نطاق كبير ، الافراد يميزون بين نهجين : الاستخراج والتجريد. حيث ان تقنيات الاستخراج ما هي الا عملية نسخ المعلومات التي تعد ذات أهمية من قبل النظام للموجز (على سبيل المثال، البنود الرئيسية، والجمل أو الفقرات)، في حين يتطلب التجريد إعادة صياغة لأقسام من المستند المصدر. بشكل عام، يمكن للتجريد تلخيص النص بقوة وكثافة أكبر من الاستخراج، ولكن البرامج التي يمكنها القيام بذلك من الصعب تطويرها لأنها تتطلب استخدام تقنيات مولدات اللغات الطبيعية، الذي هو في حد ذاته مجال تحت التطوير.

أنواع الملخصات

هناك أنواع كثيرة من الملخصات على حسب ما يركز عليه برنامج التلخيص لتقديم موجز النص، فعلى سبيل المثال ملخصات عامة أو ملخصات ذات الصلة بالاستعلام (التي تسمى أحيانا ملخصات منحازة للاستعلام). نظم التلخيص قادرة على خلق كل من نصوص ملائمة للاستعلام وملخصات عامة مولَدة آليا اعتمادا على ما يحتاجه المستخدم. كما أنه من الممكن أيضا تلخيص وثائق الوسائط المتعددة، على سبيل المثال الصور أو الأفلام. بعض النظم ستقوم بإنشاء ملخص على أساس وثيقة مصدر واحد، والبعض الآخر يمكنها استخدام وثائق مصادر متعددة (على سبيل المثال، مجموعة من القصص الإخبارية عن الموضوع نفسه). وتعرف هذه الأنظمة بأنظمة التلخيص متعددة الوثائق.

التطبيقات ونظم تلخيص

هناك نوعين من مهام التلخيص الاستخراجية على حسب ما يركز البرنامج على تلخيصه. الأول هو تلخيص عام، والذي يقوم بالتركيز على الحصول على ملخص عام لمجموعة من الوثائق (سواء وثائق مكتوبه، أو مجموعات من الصور أو مقاطع الفيديو، الأخبار وغيرها). والثاني هو تلخيص ذات الصلة بالاستعلام، وتسمى أحيانا التلخيص القائم على الاستعلام، الذي يلخص بناء على الاستفسار. نظم التلخيص قادرة على إنشاء كل من ملخصات الاستعلام والملخصات العامة اعتمادا على ما يحتاج المستخدم.

بعض الطرق المعاونة التلخيص

ان تقنيات تعلم الآلة من المجالات قوية الصلة مثل استرجاع المعلومات أو تعدين النصوص تم استعمالها وتطويعها لمساعدة في التلخيص التلقائي. وبصرف النظر عن المُلَخِصَات كاملة التلقائية (اف ا اس)، هناك نظم تساعد المستخدمين بمهمة التلخيص (التلخيص البشري بمساعدة الآلة)، على سبيل المثال من خلال تسليط الضوء على مقاطع لتكون موجودة ضمن الملخص، وهناك أنظمة تعتمد على المعالجة البعدية بواسطة البشر (التلخيص الآلي بمساعدة البشر).

التقييم

من القضايا الدائمة في هذا المجال هو عملية التقييم. الحكم البشري لديه تنوع هائل على ما يعتبر جيد من الملخصات، مما يعني أن عملية التقييم التلقائي صعبة بشكل خاص. ويمكن استخدام التقييم اليدوي، ولكن هذا مكلف للوقت وللعمالة لأنه يتطلب البشر لقراءة ليس فقط الملخصات ولكن أيضا وثائق المصدر. اما عن القضايا الأخرى فتتعلق بالتماسك والتغطية. إحدى المقاييس المستخدمة في مؤتمرات فهم الوثائق السنوية التابعة لمنظمة نيست، والتي تقدم المجموعات البحثية انظمتها لكل من التلخيص ومهام الترجمة، هو المقياس روج (بديل للانحياز الرجوعي لتقييم جيستينج)[1]. تحسب في الأساس من تداخلات ال(ن-غرام) بين الملخصات التلقائية وملخصات الإنسان المكتوبة من قبل. التداخل العالي المستوى من الضروري ان يدل على مستوى عالٍ من المفاهيم المشتركة بين الملخصين. علما أن مثل هذا المقاييس غير قادر على تقديم أي معلومات عن التماسك. ان مشكلة انفور (Anaphor resolution) تبقى هي المشكلة الأخرى يجب أن تحل بشكل كامل.


المراجع

areq.net

التصانيف

معالجة اللغات الطبيعية  مهام معالجة اللغات الطبيعية  لسانيات حاسوبية   العلوم التطبيقية   علم الحاسوب