본문 바로가기

카테고리 없음

[시스템] 한글 한 음절을 초성,중성,종성 음소로 분해하기('김' => 'ㄱ'+'ㅣ'+'ㅁ')

(********************************************************************************
.작성자: 김영대 ( http://www.howto.pe.kr )
.참고: http://kiscos.net/~blackangel/Windows5.html

한글의 음절이란 초성+중성+종성(받침 있는 글자) 혹은 초성+중성(받침 없는 글자)으로
구성된 한글 한 글자를 말한다.
유니코드(Unicode)란 모든 언어를 표현할 수 있는 2바이트의 코드로 유니코드의 한글은
0xAC00 부터 시작하며 한글 음절의 갯수는 (초성 19)*(중성 21)*(종성 28)=11,172 이다.

한글 음절은 아래와 같은 공식으로 유니코드가 부여된다
  음절 유니코드
     = (0xAC00) + (초성 인덱스값* 0x024C) + (중성 인덱스값* 0x001C) + (종성 인덱스값)
     = (0xAC00) + (초성 인덱스값* 21*28) + (중성 인덱스값* 28) + (종성 인덱스값)

초성 19자, 중성 21자, 종성 28자(원래 27자 이지만 종성이 없는 경우까지 해서 28자)
이므로 각각의 인덱스 값과 문자는 아래와 같다. 종성의 첫번쨰 인덱스 문자는 공백
  초성 인덱스값: 0~18 (19개) 'ㄱㄲㄴㄷㄸㄹㅁㅂㅃㅅㅆㅇㅈㅉㅊㅋㅌㅍㅎ'
  중성 인덱스값: 0~20 (21개) 'ㅏㅐㅑㅒㅓㅔㅕㅖㅗㅘㅙㅚㅛㅜㅝㅞㅟㅠㅡㅢㅣ'
  종성 인덱스값: 0~27 (28개) ' ㄱㄲㄳㄴㄵㄶㄷㄹㄺㄻㄼㄽㄾㄿㅀㅁㅂㅄㅅㅆㅇㅈㅊㅋㅌㅍㅎ'

초성,중성,종성의 인덱스값을 계산하는 방법은 위 공식을 통하여 쉽게 만들수 있다.
  초성 인덱스값: (음절 유니코드 - 0xAC00) / (21*28)
  중성 인덱스값: (음절 유니코드 - 0xAC00) % (21*28) / 28
  종성 인덱스값: (음절 유니코드 - 0xAC00) % (21*28) % 28  {중간의 "% (21*28)"은 생략가능}

예제들면,
  '가' = (0xAC00) + (0*21*28) + (0*28) + (0) = 0xAC00
  '김' = (0xAC00) + (0*21*28) + (20*28) + (16) = 0xAE40
********************************************************************************)

unit Unit1;

interface

uses
  Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms,
  Dialogs, StdCtrls;

const
  MB_ERR_INVALID_CHARS = $00000008;

  // 초성 인덱스값에 대한 문자
  UChoseong : array [0..18] of WideString =
   ('ㄱ','ㄲ','ㄴ','ㄷ','ㄸ','ㄹ','ㅁ','ㅂ','ㅃ','ㅅ',
    'ㅆ','ㅇ','ㅈ','ㅉ','ㅊ','ㅋ','ㅌ','ㅍ','ㅎ');

  // 중성 인덱스값에 대한 문자
  UJungseong : array [0..20] of WideString =
   ('ㅏ','ㅐ','ㅑ','ㅒ','ㅓ','ㅔ','ㅕ','ㅖ','ㅗ','ㅘ',
    'ㅙ','ㅚ','ㅛ','ㅜ','ㅝ','ㅞ','ㅟ','ㅠ','ㅡ','ㅢ',
    'ㅣ');

  // 종성 인덱스값에 대한 문자
  UJongseong : array [0..27] of WideString =
   ('','ㄱ','ㄲ','ㄳ','ㄴ','ㄵ','ㄶ','ㄷ','ㄹ','ㄺ','ㄻ',
    'ㄼ','ㄽ','ㄾ','ㄿ','ㅀ','ㅁ','ㅂ','ㅄ','ㅅ','ㅆ',
    'ㅇ','ㅈ','ㅊ','ㅋ','ㅌ','ㅍ','ㅎ');

type
  TForm1 = class(TForm)
    Edit1: TEdit;
    Button1: TButton;
    Memo1: TMemo;
    Button2: TButton;
    procedure Button1Click(Sender: TObject);
    procedure FormCreate(Sender: TObject);
  private
    { Private declarations }
  public
    { Public declarations }
  end;

var
  Form1: TForm1;

implementation

{$R *.dfm}

function IsDigit(ch: Char): Boolean;
begin
  Result := ch in ['0'..'9'];
end;

procedure TForm1.Button1Click(Sender: TObject);
var
  i: integer;
  s1, s2: String;

  sSyllable, sChoseong, sJungseong, sJongseong: String;
  uSyllable: PWideChar;
  temp: WORD;
begin
  s1 := Edit1.text;

  i := 1;
  while i <= length(s1) do
  begin
    s2 := s1[i]+' = ';

    if IsCharAlphaNumeric(s1[i]) then
    begin
      s2 := s2 + '<영문 or 숫자>';

      if IsDigit(s1[i]) then
        s2 := s2 + '<숫자>'
      else if IsCharAlpha(s1[i]) then
      begin
        s2 := s2 + '<영문>';
        if IsCharLower(s1[i]) then
          s2 := s2 + '<소문자>'
        else if IsCharUpper(s1[i]) then
          s2 := s2 + '<대문자>'
      end;
    end
    // double byte character set(DBCS)의 lead byte이면 한글일 가능성이 있다
    // 아래 소스는 단음절이나 한문의 경우 정상동작을 하지 않지만
    // 약간만 분석해 보면 쉽게 수정할 수 있을것이다
    else if IsDBCSLeadByte(Byte(s1[i])) then
    begin
      // Convert sharename to Unicode
      sSyllable := Copy(s1, i, 2); // 문자열 음절
      s2 := sSyllable+' = <한글>';

      try
        // 유니코드 음절을 저장할 버퍼(double-byte)
        uSyllable := GlobalAllocPtr(GHND, (length(sSyllable)*2)+2);

        // 문자열 음절을 유니코드 음절로 변환
        MultiByteToWideChar(CP_ACP, MB_ERR_INVALID_CHARS,
                            pchar(sSyllable), length(sSyllable),
                            uSyllable, (length(sSyllable)*2)+2);

        s2 := s2 + Format('<유니코드 ''%x''>', [WORD(uSyllable^)]);

        // 초성,중성,초성의 인덱스값을 구해서 그것의 문자를 구한다
        temp := WORD(uSyllable^) - $AC00;
        sChoseong  := uChoseong[temp div (21*28)]; // 초성 음소
        sJungseong := uJungseong[temp mod (21*28) div 28]; // 중성 음소
        sJongseong := uJongseong[temp {mod (21*28)} mod 28]; // 종성 음소

        s2 := s2 + Format('<초성 ''%s''>', [sChoseong]);
        s2 := s2 + Format('<중성 ''%s''>', [sJungseong]);
        s2 := s2 + Format('<종성 ''%s''>', [sJongseong]);

      finally
        if uSyllable <> nil then
          GlobalFreePtr(uSyllable);
      end;
          
      Inc(i); // 2바이트 이므로...
    end
    else
    begin
      s2 := s2 + '<기타>'
    end;

    Memo1.Lines.Add(s2);

    Inc(i);
  end;  
end;

procedure TForm1.FormCreate(Sender: TObject);
begin
  Edit1.Text := '김영대2 http://www.HOWTO.pe.kr';
end;

end.