2009/101 Perl로 짠 HTML/XML 태그 제거 스크립트. 아주 간단하게 XML이나 HTML 태그를 제거하고 중간에 있는 텍스트 정보만 출력하는 스크립트를 짜보았다. 대부분의 괄호 안에 데이터들은 바로 제거가 된다. 한가지 더. 이메일 주소를 괄호 안에 넣는다면, 바로 제거가 됩니다.ㅋㅋ 추가. 파이썬에서는 regular expression을 이용해서 unicode를 처리하는 부분이 상당히 취약하다. 그래서 펄에서 이 스크립트를 짰고, 이 스크립트는 유니코드 파일에서도 문제없이 동작했다. 파이썬에서 유니코드 처리하는 부분이 더 있는지 찾아봐야 할 것 같다. #!/usr/bin/perl -w # system을 이용해 쉘 커맨드를 실행. # 출력용 디렉토리 생성. system 'mkdir output'; # 읽어들일 파일들. 배열로 읽어들인다. @files = ; .. 2009. 10. 20. 이전 1 다음