(********************************************************************************
.작성자: 김영대 ( http://www.howto.pe.kr )
.참고: http://kiscos.net/~blackangel/Windows5.html
한글의 음절이란 초성+중성+종성(받침 있는 글자) 혹은 초성+중성(받침 없는 글자)으로
구성된 한글 한 글자를 말한다.
유니코드(Unicode)란 모든 언어를 표현할 수 있는 2바이트의 코드로 유니코드의 한글은
0xAC00 부터 시작하며 한글 음절의 갯수는 (초성 19)*(중성 21)*(종성 28)=11,172 이다.
한글 음절은 아래와 같은 공식으로 유니코드가 부여된다
음절 유니코드
= (0xAC00) + (초성 인덱스값* 0x024C) + (중성 인덱스값* 0x001C) + (종성 인덱스값)
= (0xAC00) + (초성 인덱스값* 21*28) + (중성 인덱스값* 28) + (종성 인덱스값)
초성 19자, 중성 21자, 종성 28자(원래 27자 이지만 종성이 없는 경우까지 해서 28자)
이므로 각각의 인덱스 값과 문자는 아래와 같다. 종성의 첫번쨰 인덱스 문자는 공백
초성 인덱스값: 0~18 (19개) 'ㄱㄲㄴㄷㄸㄹㅁㅂㅃㅅㅆㅇㅈㅉㅊㅋㅌㅍㅎ'
중성 인덱스값: 0~20 (21개) 'ㅏㅐㅑㅒㅓㅔㅕㅖㅗㅘㅙㅚㅛㅜㅝㅞㅟㅠㅡㅢㅣ'
종성 인덱스값: 0~27 (28개) ' ㄱㄲㄳㄴㄵㄶㄷㄹㄺㄻㄼㄽㄾㄿㅀㅁㅂㅄㅅㅆㅇㅈㅊㅋㅌㅍㅎ'
초성,중성,종성의 인덱스값을 계산하는 방법은 위 공식을 통하여 쉽게 만들수 있다.
초성 인덱스값: (음절 유니코드 - 0xAC00) / (21*28)
중성 인덱스값: (음절 유니코드 - 0xAC00) % (21*28) / 28
종성 인덱스값: (음절 유니코드 - 0xAC00) % (21*28) % 28 {중간의 "% (21*28)"은 생략가능}
예제들면,
'가' = (0xAC00) + (0*21*28) + (0*28) + (0) = 0xAC00
'김' = (0xAC00) + (0*21*28) + (20*28) + (16) = 0xAE40
********************************************************************************)
unit Unit1;
interface
uses
Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms,
Dialogs, StdCtrls;
const
MB_ERR_INVALID_CHARS = $00000008;
// 초성 인덱스값에 대한 문자
UChoseong : array [0..18] of WideString =
('ㄱ','ㄲ','ㄴ','ㄷ','ㄸ','ㄹ','ㅁ','ㅂ','ㅃ','ㅅ',
'ㅆ','ㅇ','ㅈ','ㅉ','ㅊ','ㅋ','ㅌ','ㅍ','ㅎ');
// 중성 인덱스값에 대한 문자
UJungseong : array [0..20] of WideString =
('ㅏ','ㅐ','ㅑ','ㅒ','ㅓ','ㅔ','ㅕ','ㅖ','ㅗ','ㅘ',
'ㅙ','ㅚ','ㅛ','ㅜ','ㅝ','ㅞ','ㅟ','ㅠ','ㅡ','ㅢ',
'ㅣ');
// 종성 인덱스값에 대한 문자
UJongseong : array [0..27] of WideString =
('','ㄱ','ㄲ','ㄳ','ㄴ','ㄵ','ㄶ','ㄷ','ㄹ','ㄺ','ㄻ',
'ㄼ','ㄽ','ㄾ','ㄿ','ㅀ','ㅁ','ㅂ','ㅄ','ㅅ','ㅆ',
'ㅇ','ㅈ','ㅊ','ㅋ','ㅌ','ㅍ','ㅎ');
type
TForm1 = class(TForm)
Edit1: TEdit;
Button1: TButton;
Memo1: TMemo;
Button2: TButton;
procedure Button1Click(Sender: TObject);
procedure FormCreate(Sender: TObject);
private
{ Private declarations }
public
{ Public declarations }
end;
var
Form1: TForm1;
implementation
{$R *.dfm}
function IsDigit(ch: Char): Boolean;
begin
Result := ch in ['0'..'9'];
end;
procedure TForm1.Button1Click(Sender: TObject);
var
i: integer;
s1, s2: String;
sSyllable, sChoseong, sJungseong, sJongseong: String;
uSyllable: PWideChar;
temp: WORD;
begin
s1 := Edit1.text;
i := 1;
while i <= length(s1) do
begin
s2 := s1[i]+' = ';
if IsCharAlphaNumeric(s1[i]) then
begin
s2 := s2 + '<영문 or 숫자>';
if IsDigit(s1[i]) then
s2 := s2 + '<숫자>'
else if IsCharAlpha(s1[i]) then
begin
s2 := s2 + '<영문>';
if IsCharLower(s1[i]) then
s2 := s2 + '<소문자>'
else if IsCharUpper(s1[i]) then
s2 := s2 + '<대문자>'
end;
end
// double byte character set(DBCS)의 lead byte이면 한글일 가능성이 있다
// 아래 소스는 단음절이나 한문의 경우 정상동작을 하지 않지만
// 약간만 분석해 보면 쉽게 수정할 수 있을것이다
else if IsDBCSLeadByte(Byte(s1[i])) then
begin
// Convert sharename to Unicode
sSyllable := Copy(s1, i, 2); // 문자열 음절
s2 := sSyllable+' = <한글>';
try
// 유니코드 음절을 저장할 버퍼(double-byte)
uSyllable := GlobalAllocPtr(GHND, (length(sSyllable)*2)+2);
// 문자열 음절을 유니코드 음절로 변환
MultiByteToWideChar(CP_ACP, MB_ERR_INVALID_CHARS,
pchar(sSyllable), length(sSyllable),
uSyllable, (length(sSyllable)*2)+2);
s2 := s2 + Format('<유니코드 ''%x''>', [WORD(uSyllable^)]);
// 초성,중성,초성의 인덱스값을 구해서 그것의 문자를 구한다
temp := WORD(uSyllable^) - $AC00;
sChoseong := uChoseong[temp div (21*28)]; // 초성 음소
sJungseong := uJungseong[temp mod (21*28) div 28]; // 중성 음소
sJongseong := uJongseong[temp {mod (21*28)} mod 28]; // 종성 음소
s2 := s2 + Format('<초성 ''%s''>', [sChoseong]);
s2 := s2 + Format('<중성 ''%s''>', [sJungseong]);
s2 := s2 + Format('<종성 ''%s''>', [sJongseong]);
finally
if uSyllable <> nil then
GlobalFreePtr(uSyllable);
end;
Inc(i); // 2바이트 이므로...
end
else
begin
s2 := s2 + '<기타>'
end;
Memo1.Lines.Add(s2);
Inc(i);
end;
end;
procedure TForm1.FormCreate(Sender: TObject);
begin
Edit1.Text := '김영대2 http://www.HOWTO.pe.kr';
end;
end.
카테고리 없음