Applying Levenshtein’s Algorithm to Find Homograph and Look-alike Herb Names
Silpakorn University
This research proposes the application of Levenshtein’s algorithm to compare the similarities of Thai herb name in a database which compiles synonym of Thai common names that mention their scientific names included 1,552 names with 179 species in the Thai National List of Essential Medicines (2012) and determines category of herb names in homographs, look-alike homographs, synonyms, look-alike synonyms and singles. This data was converted into a graph to make the connection between the herb names visually apparent. The results acquired by algorithm can be classified herb names into five categories based on the percentage of string similarity between a pair of herb names and their relationship. Homographs and look-alike homographs are herb names which present the different herb species while the similarity between a pair of herb names are 100% and 85% to less than 100%, respectively. Synonyms are a set of different herb names which present the same herb species. In case of the similarity between synonyms are 85% to less than100%, these sets of names are called look-alike synonyms. A single is herb name which has only one name for an herb. Descriptive statistics were used to show the frequency of herb names in each category. The numbers of herb names in categories of homographs, look-alike homographs, synonyms, look-alike synonyms, and single were 125, 36, 1,525, 157, and 18, respectively. Relationship between herb names in categories and herbs can be explicitly represented by graph structures. The purposed algorithm is capable of comparing similarity and grouping herb names and can be used for processing to establish a connection network of herb names to assist the identity of herbs that are used as components in ancient Thai traditional formulae. การวิจัยครั้งนี้นำเสนอการประยุกต์ใช้อัลกอริทึมเลเวนชเตย์นเพื่อเปรียบเทียบความเหมือนของชื่อพืชสมุนไพรภาษาไทยในฐานข้อมูลที่มีการเก็บชื่อพ้องความหมายของชื่อสามัญไทย ที่มีการระบุชื่อวิทยาศาสตร์ จำนวน 1,552 รายชื่อ จาก 179 สปีชีส์ ในบัญชียาหลักแห่งชาติ พ.ศ. 2555 และกำหนดประเภทของชื่อพืชสมุนไพรดังกล่าวให้เป็น ชื่อพ้องรูป ชื่อพ้องรูปมองคล้าย ชื่อพ้องความหมาย ชื่อพ้องความหมายมองคล้าย และชื่อเดี่ยว ข้อมูลนี้ได้ถูกเปลี่ยนเป็นกราฟเพื่อที่จะแสดงความเชื่อมโยงระหว่างชื่อพืชสมุนไพรอย่างชัดเจน ผลจากการใช้อัลกอริทึมที่สามารถจำแนกชื่อพืชสมุนไพรได้ 5 กลุ่ม ตามค่าร้อยละความเหมือนระหว่างสายอักขระของชื่อพืชสมุนไพรคู่ที่ใช้เปรียบเทียบและความสัมพันธ์ระหว่างชื่อพืชสมุนไพร ชื่อพ้องรูปและชื่อพ้องรูปมองคล้าย หมายถึง ชุดของชื่อพืชสมุนไพรที่แตกต่างกันโดยใช้แทนพืชสปีชีส์เดียวกัน ในกรณีที่มีความเหมือนเป็น 85% ถึงน้อยกว่า 100% จะเรียกชุดของชื่อเหล่านี้ว่าชื่อพ้องความหมายมองคล้าย ชื่อเดี่ยวคือชื่อพืชสมุนไพรที่มีเพียงชื่อเดียวของพืชสมุนไพรนั้น สถิติพรรณนาถูกใช้เพื่อแสดงค่าความถี่ของรายชื่อพืชสมุนไพรแต่ละกลุ่ม จำนวนของชื่อพืชสมุนไพรที่อยู่ในประเภทของชื่อพ้องรูป ชื่อพ้องรูปมองคล้าย ชื่อพ้องความหมาย ชื่อพ้องความหมายมองคล้าย และชื่อเดี่ยว มีจำนวนเป็น 125 36 1,525 157 และ 18 ตามลำดับ ความสัมพันธ์ของชื่อพืชสมุนไพรประเภทต่าง ๆ และพืชสมุนไพร สามารถแสดงได้อย่างชัดเจนโดยโครงสร้างแบบกราฟ อัลกอริทึมที่นำเสนอสามารถทำการเปรียบเทียบความเหมือน จำแนกกลุ่มชื่อ และสามารถนำไปใช้สำหรับการประมวลผลเพื่อแสดงเครือข่ายความเชื่อมโยงของชื่อพืชสมุนไพรที่ช่วยให้การระบุชนิดของพืชสมุนไพรที่ถูกใช้เป็นองค์ประกอบในตำรายาโบราณของไทยมีความสมบูรณ์มากขึ้น
สารสนเทศศาสตร์ทางสุขภาพ แผน ก แบบ ก 2 ระดับปริญญามหาบัณฑิต
Total Download: