تقنيات التعرف الضوئي للحروف الإشكاليات والآفاق المستقبليةOCR
بمجموعة من العمليات التي تتعلق بالتعرف وقراءة نص معين وبالتالي تحويله إٍلي
(American نصي. ذلك الملف النصي يتضمن بيانات ومعلومات معبر عليها-مكودة - في شكل معيار
والنتيجة النهائية لتلك العملية تكون ذلك .ASCII Standard Code for تقنية التعرف – القراءة - الضوئي على الحروف Information Interchange)
الملف الرقمي الذي يتم معالجته عبر برمجيات متخصصة في التعرف –القراءة- الضوئي للحروف التي
تشكل النص، ويقوم بترجمة حرف عبر حرف وكلمة عبر كلمة في ملف نصي الذي يحتل غالبًا مساحة أقل
من تلك التي يحتاج إليها ملف الصور.
من الإشارة الطباعية ASCII تقوم باستنساخ القيمة المرتبطة بمعيار OCR البرمجيات الخاصة ب
في الإمكان أيضًا .Configuration de points للحروف وذلك من خلال تشكيلات أو مواصفات النقاط
إدماج تلك الإشارات الطباعية مباشرة في برنامج متخصص في معالجة النصوص والحصول بالفعل على
نص منسق جزئيًا.
البرمجيات الأولى التي ظهرت إلى حيز الوجود في الأسواق التجارية كانت في الخمسينات من القرن السابق
ولم تكن تلك الأنظمة قادرة إلا على التعرف وقراءة النصوص التي تشتمل على أحجام معينة لأنواع وأشكال
وبمرور الوقت والتطور التقني .OCR/A, ORC/B : حروف معينة يتم إعدادها خصيصًا لهذا الغرض
ظهرت العديد من البرمجيات التي حققت نجاحًا منقطع النظير في التعرف علي النصوص في هذا المجال،
حيث أن لهم القدرة على "قراءة" معظم الحروف الهجائية الشائعة باستثناء بعض الحالات التي يكون فيها حجم
باستخدام برمجيات DPI الحروف صغير للغاية (حجم 14 أو أقل)، رقمنة النصوص الأصلية ب 300
التعرف الضوئي على الحروف يمكن أن يؤدى إلى نتيجة مرضية إلى حد كبير.
بالنسبة للمكتبات ومراكز المعلومات تتم عملية الرقمنة في الأغلب الأعم من خلال تحويل النصوص المتاحة
على وسيط ورقى أو في شكل ميكروفيلمى إلى شكل إلكتروني مرقمن. وعملية التحول هذه تتم من خلال
عملية التصوير، وهى وسيلة تتضمن إجراء مسح للنص الذى ينتج عنه بطبيعة الحال نسخة إلكترونية للنص
وعملية التعرف الضوئى للحروف Image en mode points الأصلى وذلك في شكل صورة في شكل نقاط
هى عملية تالية لذلك وهى اختيارية ويتم من خلالها تحويل الصورة أى الرقمنة في شكل الصورة إلى
رقمنة في صورة نصية مكودة ومرمزة نصيًا.
OCR 1. معايير اختيار برمجيات ال
يعتمد اختيار برمجيات التعرف الضوئى للحروف -في الأساس- على مدى صلاحيته للإستخدام
والتطبيق وإشتماله على قواميس متخصصة تتعلق بموضوع النصوص التي يتم معالجتها بواسطة مثل هذه
البرمجيات. تتضمن كذلك معايير الاختيار السبل المتبعة في التعرف على الحروف والسرعة في "قراءة"
الحروف، أنواع وأحجام وأشكال الحروف التي يمكن التعرف عليها، واللغات التي تحتويها البرمجيات ويمكن
التعامل معها، أشكال وأنماط عرض وإتاحة النصوص بعد إتمام عملية التعرف عليها، ضرورة إشتمالها-اى
البرمجيات- على قواميس متخصصة غنية وثرية، وأن تشتمل على بعض المهام المتقدمة منها على سبيل
المثال إمكانية التدقيق الإملائى وبرامج التحرير والنشر وأخيرًا يعتبر عامل السعر من العوامل التي يمكن أن
تؤخذ في الإعتبار.
نشير في هذا الإطار إلى نوعين من البرامج المستخدمة في التعرف الضوئى للنصوص واللذان يستخدما
OmniPage Pro بشكل مستمرفي رقمنة مجموعات المكتبات الكبرى خاصة الوطنية هما برنامجي
.WordScan و
قد ساعد على زيادة قيمة هذين البرنامجين وذلك لما له من قدرة Adobe Capture جدير بالذكر إن برنامج
(Portable عالية في إدراك "فهم" النصوص ذات التنسيق المعقد ولعل ذلك يأتى نتيجة إستخدام شكل
الذى يمكن من الإحتفاظ بالتنسيق الخاص بالنصوص الأصلية. PDF Document Format)
نود الإشارة إلى سلسلة OCR إلى جانب مجموعة المعايير السابق ذكرها الخاصة باختيار برمجيات ال
أخرى من المعايير العامة التي يمكن أخذها في الإعتبار:
من OCR 1. الدقة : يمكن تقدير الدقة في التعرف الضوئى "البصرى" للحروف في برمجيات ال
خلال القدرة على تحرير وإنشاء نسبة من الأخطاء الضئيلة الناشئة أو الناجمة عن القراءة الضوئية
X وحرف ال (X %) للنصوص، وبعبارة أخرى فإن البرنامج يتعرف على النص من خلال نسبة
هنا يشمل حجم الكلمات التي تم التعرف عليها في نص معين والنسبة هنا % هى النسبة المئوية.
2. التطابق والتوافق مع أجهزة المسح الضوئي المتنوعة: من المهم التحقق من نوع أجهزة الماسحات
وفي هذه الحالة نشير إلى أن البرنامج لابد ،OCR الضوئية التي يمكن أن يتعامل معها برنامج ال
.TWAIN من تطابقه مع معيار
3. واجهة المستفيد: الأبعاد الشكلية والتصميمية تعتبر من العوامل الهامة التي يجب ان تاخذها في
حيث أن وجود أداة تصميمية في شكل جرافيك ،OCR الاعتبار الغالبية العظمي من برمجيات ال
يمكن أن تخلق نوع من التحاور والتفاعل بين المستخدم من ناحية وبين الآلة من ناحية أخرى. ومن
بين الآليات التي تحتويها تلك البرمجيات نشير إلى بعض الأزرار التي تسمح عند الضغط عليها
بواسطة "الفارة" للقيام بصورة آلية بالعديد من المهام وذلك في أثناء عملية التعرف البصري للحروف
في نص معين.
4. القدرة على التعرف على الجداول: المقدرة على التعرف الشكلي والبنائى والهيكلى للجداول تعتبر
ولهذا السبب لابد أن يكون برنامج ال .OCR خاصية وصفة مميزة لبعض أنواع برمجيات ال
يكون قادرًا على اكتشاف وجود جداول في النص ومن ثم إعادة صياغتها في برنامج معين OCR
لمعالجة النصوص أو وضعها مباشرة في شكل جدول.
5. أشكال الحفظ والتخزين: من المعروف أن تسجيل المعلومات المرقمنة في ملف يجب أن يكون وفقًا
تتضمن أشكا ً لا OCR لشكل-قالب- معين من أجل القراءة في وقت لاحق. كذلك فإن برمجيات المحددة
مخصصة لتسجيل ومن ثم حفظ واسترجاع المعلومات في الملفات، ومن أهم أشكال الحفظ
نذكر:
"Microsoft Word خاص ببرنامج معالج النصوص " DOC . إسم الملف
"Adobe من شركة Adobe Reader خاص ببرنامج " PDF . إسم الملف
"Microsoft Excel خاص ببرنامج " XLS . إسم الملف
إلى غير ذلك...
6. الإلتزام بشكل النص الأصل: ويعنى الالتزام بشكل النص الأصلي إمكانية استنساخ نفس التكوين
الهيكلي للصفحة من أعمدة، جداول، رسوم جرافيك، إلى غير ذلك إلى جانب استنساخ نفس
الخصائص النصية من نوع الحرف وحجمه وشكله، جسم النص، الأسلوب إلى غير ذلك.
أكثر OCR 7. اللغات : كلما زادت وكثرت اللغات التي يمكن التعرف عليها كلما كانت برمجيات ال
قدرة على التعرف على النصوص المكتوبة بتلك اللغات المتنوعة.
نستعرض أهم المنتجين والمنتجات OCR بعد هذا العرض لأهم معايير اختيار برمجيات ال
المتعلقة بتلك البرمجيات.
على الشبكة العنكبوتية بيئة التشغيل ال منَتج الهيئة المنتجة URL عنوان ال
Caere OmniPage
Pro 14
Windows
95, 98, XP,
2000 et NT
http://www.caere.com
Xerox TextBride
ge pro 11
Windows
95, 98, XP,
2000 et NT
http://www.textbridge.com
IRIS Irispen Windows
95, 98, XP,
2000 et NT,
MAC
http://www.irislink.com/opt/fr/products/irispen/exe
cutive/index.html
IRIS Readiris
pro 9
Windows
95, 98, XP,
2000 et NT.
http://www.irislink.com/opt/fr/products/readiris/pc/
index.html
Recognia Recognia Windows
95, 98, XP,
2000 et NT.
http://www.ocr-systeme.de/englisch/plus50.htm
Read-It
OCR pro 6
Olduvai Macintosh http://www.olduvai.com/readit62.html
يوجد اهتمام بالغ بإمكانية الوصول إلى ال منتج المثالي OCR على مستوى منتجي برمجيات ال
"نص خالي من الأخطاء" بقدر الإمكان، ويمكن أن نفترض بأنه في المستقبل القريب ستتمكن برمجيات ال
من تحسين وتطوير كفاءتها بدرجة مرضية. OCR
هو تحويل الصورة النصية إلى نص يمكن قراءته ومعالجته OCR والغرض المنشود من وراء برمجيات ال
بواسطة الحاسب الآلي وذلك مع تجنب –بقدر المستطاع- الأخطاء. تعدد وتنوع تلك البرمجيات يستلزم إعداد
ليكون الأكثر كفاءة وعلى الأخص الأكثر توائمًا مع OCR وتبنى معايير اختيار خاصة لبرنامج ال
احتياجات المكتبات. ويمكن القول – في الوقت الراهن – أن الحصول على نص مقروء بواسطة برنامج
صحيح بنسبة 100 % - أى بدون أى نسبة أخطاء – يعتبر هدف ومطلب مازلنا نهدف إلى الوصول OCR
إليه والذى لا يعتمد فقط على جودة البرمجيات –المحرك- الخاصة بالتعرف البصري للحروف حيث أن
عملية الرقمنة تقتضى في الواقع بعض الإحتياطات التي ينبغى أخذها في الاعتبار مثل:
- الإعداد المسبق للنص الورقي –المراد رقمنته- من أجل الحصول على "قراءة" جيدة للنص بواسطة
البرنامج ومن بين الإعدادات نذكر ضبط الإضاءة والكونتراست "تباين الألوان" وأن تكون الصورة
كذلك سهلة المعالجة.
في اختيار المقاييس والخصائص وذلك بهدف OCR - إمكانية اللجوء إلى مساعدة برمجيات ال
التأقلم الجيد وفقًا لنوع المحتوى المراد معالجته، مع الأخذ في الاعتبار جودة النص من الناحية
الطباعية والورق، لغة النص، طبيعة التنسيق المستخدم إلى غير ذلك.
- إمكانية الربط والتوحيد بين العديد من محركات "قراءة" النصوص مما يسمح باتخاذ القرار المناسب
وذلك بناءًا على النتائج المتمخضة لكل منهم.
يمكن ان تعتمد على:- OCR في إطار ما سبق عرضه نلاحظ أن جودة برمجيات ال
- جودة النص: النصوص التي تشتمل على جودة صور نصية غير كافية (ضعف في تباين الالوان
(الكونتراست)، ووجود بقع على النص بشكل ملحوظ...) أو يشتمل النص على تنسيق غاية في
التعقيد (عدة أعمدة، وجود إيضاحيات في أماكن غير منتظمة، الحروف تكون في أحجام صغير
للغاية إلى غير ذلك...).
- الإحتياطات الواجب أخذها في الاعتبار أثناء عملية المسح الضوئى: ضبط وضع الصفحة على
السطح الزجاجى لجهاز الماسح الضوئى، اختيار مستوى تباين الألوان "الكونتراست" ودرجة
الإضاءة، درجات ومستويات وضوح النص والذى يؤثر بشكل مباشر على نسبة التعرف الضوئى
"البصرى" وبصفة عامة فإن مقدار التعرف البصرى الذى يتم الوصول إليه يمكن أن يكون أقل من
50 % وينتج عن ذلك حجم كبير من البيانات الواجب تصحيحها. وهذا المقدار من الممكن تحسينه
من خلال العمل على تطوير وتنمية المواصفات الخاصة بالماسح الضوئى الجيد إلى جانب إستخدام
وتعمل تلك التقنيات ICR (Intelligent Character Recognition) بعض التقنيات المتقدمة مثل
عبر وسائط تتحكم في عملية المسح الضوئى وتسمح بالمساعدة في رفع مستوى درجة التعرف
الضوئى للحروف وذلك عن طريق الإستعانة بقواميس متخصصة ولوغاريتمات محددة ترتبط
إرتباطًا مباشرًا بالمحتوى الموضوعى للنص الذى يتم مسحه إلكترونيًا.
دورًا هامًا في تحديد الحروف التي يتضمنها نص معين حيث يشرع OCR تلعب البرمجيات من نوع ال
البرنامج في البداية بالتعرف على كل حرف بشكل منفصل فردى، ثم بعد ذلك يقوم باختيار الشكل الصحيح
التي تشتمل على الحروف. Reconnaissance lexical des mots للحرف بواسطة تقنيات التدقيق اللغوي
قادرة على التمييز بين أشكال الحروف وذلك مع مختلف الأساليب OCR ويجب أن تكون برمجيات ال
والأشكال الطباعية (أنواع الحروف).
الإشكاليات والحلول المقترحة : OCR 2. برمجيات ال
تلك التي تنشأ من النصوص التي تتضمن OCR من المشكلات التي ترتبط بإستخدام تقنيات ال
على تباين ضعيف في الألوان"كونتراست" أو تباين في الحروف الطباعية. كذلك أيضًا بالنسبة للنصوص التي
تتضمن متغيرات طباعية (إستخدام عدة أنواع من الخطوط في نفس النص) أو أشكال حروف نادرة أو بلغة
أجنبية أو تلك الحروف التي تأخذ أشكال رسومات جرافيك والتي يكون من الصعب على برمجيات ال
التعرف عليها. ومن الخلال التجارب العملية يمكن الجزم بأن مجموعات الوثائق التاريخية، الجرائد، OCR
المخطوطات يكون من الصعب الحصول على نتيجة مسح ضوئى على درجة عالية من الكفاءة بإستخدام
:% تكون ما بين( 95 OCR حيث تشير بعض الإحصاءات إلى أن جودة وصلاحية ال OCR تقنيات ال
%98 ) مما يعنى أن من( 2% إلى 5%) من عمليات التعرف الضوئى على الحروف تكون خاطئة. لذلك فإذا
كانت عملية التدقيق النصى لا يمكن الإستغناء عنها، فإن النصوص التي يتم مسحها ضوئيًا إعتمادًا على
يجب أن يتم مراعاتها وتصحيحها بطريقة يدوية وعناية فائقة ولكن تؤدى تلك العملية إلى OCR تقنيات ال
رفع معدل تكلفة عملية الرقمنة. وإذا كان النص يشتمل على مجموعة من الأخطاء وبالتالى فإن جميع
الكشافات التي يتم إعدادها إعتمادًا على ذلك النص سوف تنطوى هى الأخرى على مجموعة من الأخطاء.
عند إستعراض الإشكالية المتعلقة بالصلاحية والدقة المتوقعة من عملية التعرف الضوئى للحروف كذلك
المناهج والأساليب المطبقة بهدف تقويم تلك النتائج نشير إلى أن نظام التعرف البصرى للنصوص يتكون من
قطاعات ومعدلات متنوعة مثل: التقسيم ، التعرف والتدقيق والتحقق اللغوى.
فيما يتعلق بالتقسيم فتلك العملية تسمح بفصل وعزل العناصر النصية من كلمات وحروف تمهيدًا لإجراء
عملية التعرف الضوئى، ويكون هذا الفصل محددًا على أساس والفراغات والاجزاء البيضاء التي تتواجد بين
السطور وكذلك بين الحروف المكونة للكلمات من أجل تطبيق مبدأ التقسيم أو العزل.
تنوع الحروف وعمليات التنسيق لا يسمح بترسيخ البدايات والاستهلاليات المتعلقة بالفصل، مما يكون له الأثر
في إظهار مساحات بيضاء غير متواجدة بالنص الاصلى أو بالعكس إهمال مساحات بيضاء عازلة وفاصلة
بين الكلمات. تجدر الإشارة إلى أن أى تطبيق غير مناسب – ردئ – لاسلوب ومنهج العزل أو الفصل من
الممكن أن يؤدى إلى مجموعة من المشكلات والتي من بينها :-
- الدمج الأفقى لمناطق نصية: هذا الخطأ يؤدى إلى الإدماج بين مجموعة من السطور المتجاورة
والمتلاصقة التي تنتمى إلى أعمدة مختلفة مما يؤدى إلى إحداث تأثيرات مباشرة في ترتيب عملية
القراءة.
- الدمج الرأسى لمناطق نصية: وهذا يقود إلى تجميع فقرتين ولكن دون أى تعديل في ترتيب القراءة
ولكن عملية التصحيح لهذا الخطأ تعتبر جوهرية وذلك في حال تصنيف وترتيب النص.
- إنفصال أفقى لمناطق نصية: مما ينتج عنه صعوبات ومشكلات في ترتيب عمليات القراءة
- أنفصال رأسى لمناطق نصية: هذه الحالة تتشابه إلى حد كبير مع الحالة السابقة، ولا ينتج عنها
أخطاء بالغة والسبب في ذلك يرجع إلى أن ترتيب عناصر القراءة يكون متشابهًا.
- منطقة لم يتم إكتشافها : هذا الخطأ يشير إلى منطقة نصية لم يتم إكتشافها مثل أشكال الجرافيك.
تقوم بالتعاون مع الجرافيك على إعتباره OCR - جرافيك مختلط مع نص: حيث أن برمجيات ال
نص وهذا الخطأ ينتج عنه مجموعات ولقطات غير متجانسة من الحروف داخل النص ونفس الشئ
من الممكن حدوثه مع المعادلات الرياضية.
- الإندماج الأفقى مع جرافيك : وذلك يقود – مثل الحالة السابقة – إلى مجموعة من الحروف الغير
مقروءة داخل النص.
- الإندماج الرأسى جرافيك : هذه الحالة مشابهة تمامًا للحالة السابقة ولكن بطريقة رأسية.
OCR 3. طريقة عمل ال
في العادة – بخمس مراحل أساسية تعمل بشكل تتابعى : - OCR يمر عمل ال
1. تحديد العناصر النصية والعناصر في شكل صور: غالبية البرمجيات تستخدم - تستغل- المساحات
البيضاء من أجل تحديد مواضع النص في ترتيب يمكن قبوله. مع ذلك فإنه من الضرورى تقسيم النص بشكل
يدوى إلى مناطق (مع تحديد أو مع ترقيم المقاطع أو العناصر النصية)، النصوص ذات التنسيق المعقد.
لا تهتم ولا تأخذ في الإعتبار مجموعة الصور والإيضاحيات التي تتواجد OCR وبشكل عام برمجيات ال
مع النصوص ففي أغلب الأحيان سيتم حذف تلك الصور.
2. التعرف على الحروف: يطلق على هذا المنهج الرئيسى للتعرف على الحروف تسمية "استخلاص
الخصائص الطباعية للحروف" حيث يتم التعرف على كل حرف معين من خلال التحليل الشكلى له إلى
جانب مقارنة السمات والخصائص المميزة له طبقًا لمجموعة من القواعد التي تخص كل حرف أو كل نوع
حرف أو كل شكل حرف.
3. التحقق والتعرف لكلمة : مجموعات الحروف التي يتم التعرف عليها يتم مقارنتها بعد ذلك بقواميس ترتبط
بنفس لغة النص الأصلى ويفضل كذلك أن تكون متخصصة في نفس المجال الموضوعى لنفس النص
الأصلى.
OCR يتم تسجيلها في ملف خاص محدد ببرنامج ال OCR 4. التصحيح : النتائج الخاصة ببرمجيات ال
المستخدم (بالنسبة للصور والإيضاحيات يتم حذفها) ويقوم البرنامج بإبراز الحروف التي لم يتم التعرف عليها
إلى جانب سلسلة الحروف المشكوك في درجة صحتها، ويقوم في هذه الحالة معالج معين بعملية التصحيح.
بتحويل الملف الذى يشتمل على OCR 5. التنسيق الشكلى للمخرجات : في هذه المرحلة تقوم برمجيات ال
إلى غير ذلك. Word, PDF, RTF النص إلى شكل أو عدة أشكال من الملفات المستخدمة والتي من أهمها
هناك من يشير إلى ان عملية التعرف الضوئى على الحروف تنقسم إلى مجموعة من المهام والتي منها:
-1 التعرف على نوع النصوص ذلك بهدف تبنى أسلوب معين للتعرف الضوئي يتماشى مع كل نوع
(جرائد، مقالات إلى غير ذلك).
-2 تحليل التنسيق الشكلي: التقسيم إلى قطاعات أو مناطق مثل الأعمدة والصور إلى غير ذلك وذلك
يتعلق بعملية تقسيم في قطاعات مستقلة عن بعضها البعض.
-3 التعرف على الأشكال: وذلك يتكون من تنظيم وترتيب الصور في أنواع متنوعة وهذا النوع يكون
في إمكانه التعرف وتحديد نوع النص الموجود بجانب الرسم وذلك بهدف توجيه عمليات التعرف
نحو نوع الكلمات الأكثر تخصصًا وتحديدًا.
-4 تعيين روابط منطقية بين القطاعات المختلفة: وهذه المرحلة تسمح بإنشاء رابطة بين الصور والنص
المرتبط بتلك الصور أو بالربط بين نصين من قطاعين مختلفين وتحليل هذا الربط ينقسم إلى ثلاثة
أجزاء: البحث بالكلمات الدالة أو المفتاحية على كل قطاع، تحديد وتعيين نوع الجرافيك وأخيرًا
إنشاء وتصميم الروابط.
-5 التعرف على الحروف: في أثناء تلك المرحلة يتم تحرير العلامات التي تم الحصول عليها في
المراحل السابقة ويتم بناء على ذلك عملية التحرير النصى.
يبدو لنا من الأهمية تتبع الآفاق ،OCR بعد هذا العرض للمحاور الرئيسية المتعلقة ببرمجيات ال
المستقبلية الخاصة بتلك التقنيات لذا يمثل هذا الهدف نقطة المعالجة الرئيسية في الفقرات التالية.
4. الآفاق المستقبلية
يجب –في جميع الحالات- OCR كما سبق واشرنا، الملف النصي الذي يتم انشاءه بواسطة برمجيات ال
تصحيحه بطريقة يدوية وذلك بهدف ضمان نص بدون أى أخطاء. وهذا العمل يحتاج إلى فترات طويلة
مقارنة بالإدخال OCR ومجهود للقيام به مما يخلق نوعًا من التأثر السلبى نحو الإنجذاب لتطبيق تقنيات ال
اليدوى للنصوص، نتيجة لذلك فإن هناك بعض المشروعات الخاصة بالرقمنة في الولايات المتحدة الأمريكية
لجأت إلى تطبيق معايير وأساليب أخرى جديدة من خلال التزويد بنص وفقًا TULIP و JSTOR مثل
غير مصحح ومصحوبًا بنصوص في شكل صور مع إستخدام وتطبيق برمجيات ذات كفاءة ASCII لمعيار
عالية في التعرف البصرى للحروف حيث أن نسبة القراءة الصحيحة للنص قد تصل إلى 99.90 % في
حيث أنه كل ( 2000 ) رمز أو حرف يحدث خطأ واحد فقط على الأكثر، هذا الأسلوب JSOTR مشروع
يربط بين ميزتين تتعلق الأولى بمعالجة التعرف الضوئى الجيد للنص والثانية ترتبط بالتقديم الشكلى المطابق
للنص الأصلى وذلك بفضل إستخدامه كصورة وتطبيق الإمكانيات الخاصة بالبحث الوثائقى في النص الكامل.
الأعمال الجارية في الوقت الراهن تهدف إلى الوصول إلى عملية التعرف الضوئى أكثر كفاءة وفعالية خاصة
فيما يتعلق بالبناء الهيكلى المنطقى للنص.
هناك بعض البرمجيات المتخصصة التي استطاعت التعرف على مختلف القطاعات التي يتضمنها التقنين
في البطاقة التقليدية ISBD (International Standard Book Description) الدولى الموحد للكتاب
للفهرسة وذلك بفضل الحروف الطباعية المعيارية. وبناء على ذلك فإن النص الذي نحصل عليه لم يعد مجرد
ولكنه أيضًا نص يمكن إثرائه من خلال إمكانية اشتماله على بعض اللغات الخاصة ASCII نص وفق معيار
ODA ،XML ،SGML بتكويد وترميز النصوص مثل
وهى منتجة بواسطة Pix Tex والمتمثلة ب OCR ونشير إلى أن الجيل المقبل من برمجيات ال
هذا البرنامج يقوم بتطبيق تقنية يطلق عليها التعرف -التأقلمى .Excalibure Technologies شركة
للأشكال- وهذا البرنامج يمكن أن يعلم كيفية التعرف على المتنوعات والعلاقات داخل الأشكال مثل
الخصائص أو المواصفات للنص.
استعادة المصطلحات الخاصة بالبحث تعتبر من ضمن القدرات المتعلقة بتلك التقنية والتي تم تجريبها بالمكتبة
الوطنية البريطانية والنتائج الأولية تشير إلى نتائج مرضية ولكن بالرغم من ذلك فإن تلك التقنية قد فشلت في
أثناء محاولة معالجة التشويشات الناتجة عن رقمنة نص مطبوع بشكل رديء.
جزء من بحث منشور باسم أحمد فرج أحمد تحت عنوان " استراتيجيات رقمنة مصادر
المعلومات: معايير الاختيار، الإشكاليات، الآفاق المستقبلية" ضمن فعاليات ملتقي الأساليب
الحديثة لإدارة المكتبات ومراكز المعلومات بالجودة الشاملة في الفترة من 18 إلي 20
ديسمبر 2005 بمكتبة الإسكندرية – الإسكندرية- جمهورية مصر العربية.
Aucun commentaire:
Enregistrer un commentaire
Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.