确定文本的语言。复杂情况



图片来源: 安娜·艾莉(AnnaElli)



Antiplagiat系统可处理不同语言的文本。提交审稿的大多数论文都是用俄语,英语或哈萨克语撰写的。现在,Antiplagiat索引包含50多种语言的文档。



其中有15个在文档处理的所有阶段都得到了全面支持。在不久的将来,我们计划认真扩展此列表。我们孜孜不倦的研究人员甚至学会从奇妙的语言进行翻译文本语言在文档处理的多个阶段都很重要。



您需要了解以下操作的语言:



  • 将文字分解为文字;
  • 搜索并修复技术变通办法;
  • 合并连字
  • 处理撇号和其他标点符号;
  • 文本统计的计算;
  • 搜索借款。


, . , , «». . , – .





, NTextCat / CLD3 /CLD2. CLD2 :



  • (~200 /c);
  • ;
  • ( );
  • ; , , , ;
  • C# ;
  • ( 80).




, , .





, , . . , :



  • / (, , ) “” ;
  • ;
  • , , …;
  • — , , .


CLD2





, – . , , , . . , : , .



, CLD2, . CLD2, .





: ( ).



1: CLD2.



2: , 4.



3: CLD2.



4: .



: , , . , , , « ».



, ( 2)



, . 1-2 (CLD2 ). , . , , , , , - CLD2.



… ( 3)



3.0: , , , .



3.1:



:



  1. , ( , .. ), , .
  2. CLD2 .


3.2: , . , , , .

3.3: . CLD2 .





( 4)



, , , . . , , - :



  1. , ;
  2. , ;
  3. .


( ). -. . , , . , . : « «-27».» 4 : «», «"», «», «-27".».





, , , . . , «» , . , 1-2 , . . , . , , . — , , , , : .



, .





, , . . , , , .



- . , , , . — , . . ( 4 ) , , .



, , - . , .





. CLD2:





, . — . — , , .



, CLD2.



, , .





, .





, «» «» , «» — «» – , «Jim» — «him» – , «» , , . CLD2 , .



:





«» . , ( CLD2) , , .





CLD2 , . . . , — .





?



, , . : , , , , . ( !). , «»: , . , , . ( ). , , . , .





– . – . – . .



, . -, CLD2 , 5. -, , . . , .



, , ...




All Articles